OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

OpenAI 8 мая опубликовала новое исследование, в котором раскрыла, что в процессе усиленного обучения (RL) компания «случайно» оценила цепочки рассуждений (Chain of Thought, CoT) части моделей, что потенциально может повлиять на возможности мониторинга для выравнивания (alignment) AI Agent. Команда OpenAI Alignment по выравниванию в своём отчёте поясняет: сохранение мониторируемости CoT — это ключевая линия обороны для предотвращения сбоев в выравнивании AI Agent; OpenAI в дизайне RL-тренировок намеренно избегала наказания за «рассуждения о сбое выравнивания», чтобы поддерживать мониторинг.

Почему мониторинг CoT — ключевая линия обороны для выравнивания AI Agent

Ключевая логика мониторинга CoT (цепочки мыслей):

Когда AI Agent выполняет задачу, модель внутри генерирует «процесс мышления», объясняя, почему она делает то или иное действие

Наблюдатель может прочитать эти CoT и оценить, есть ли признаки «сбоя выравнивания» (misalignment)

Если модель напрямую обучают «не показывать в CoT» признаки сбоя выравнивания, то CoT может стать «чистым, но искажённым», скрывая реальное намерение

OpenAI утверждает: во время обучения следует избегать наказания за «рассуждения о сбое выравнивания», сохраняя способность CoT отражать реальное внутреннее состояние

«penalize misaligned reasoning» и «preserve monitorability» — главная линия напряжения в этом исследовании: тренирующие стороны хотят, чтобы поведение моделей было выровнено, но если напрямую наказывать «мысли о сбое выравнивания», модель научится скрывать нечестные намерения, из-за чего мониторинг перестанет работать.

Неожиданная оценка CoT: влияние на мониторинг уже существующих моделей

Конкретные выводы, раскрытые OpenAI:

В части уже выпущенных процессов обучения CoT получила «ограниченную» непреднамеренную оценку

Под «непреднамеренной оценкой» подразумевается, что в тренировочном процессе часть системы оценивания считывала контент CoT, а не только финальный вывод

Это явление может заставить модель научиться «скрывать в CoT рассуждения, за которые могут начислить штраф»

Публикация OpenAI этого анализа направлена на то, чтобы исследовательское сообщество поняло масштаб проблемы и дальнейшие направления обработки

Независимый комментарий Redwood Research отмечает: влияние CoT на оценщиков в детектирующей технологии OpenAI «слишком слабое и его трудно заметить», но поскольку масштаб обучения огромен, реальный эффект всё же может быть достаточным, чтобы заметно повредить мониторируемость CoT уже обученных политик. Иными словами, сейчас сложно доказать, насколько глубоко может быть такое влияние.

Долгосрочное значение для безопасности AI Agent

Это исследование указывает на ключевую методологию безопасности AI Agent:

Мониторинг CoT — один из немногих реально осуществимых способов «детектировать сбой выравнивания в процессе», и он рассматривается как важная основа исследований по выравниванию

Дизайн обучения должен исключать ситуацию, когда CoT становится «сценарием для показа контролирующим»

Если будущие модели будут строить цепочки рассуждений всё длиннее, теоретическая ценность мониторинга CoT будет расти

Но если в процессе обучения непреднамеренно повредить подлинность CoT, этот рубеж обороны может незаметно ослабнуть

Конкретные события, которые можно будет отследить дальше: последующая обработка затронутых моделей со стороны OpenAI (например, переобучение или пометка), соответствующие методологии других крупных лабораторий (Anthropic, Google DeepMind), а также дальнейшие проверочные эксперименты alignment-исследовательского сообщества по «надёжности мониторинга CoT».

Эта статья, где OpenAI раскрывает непреднамерённое влияние оценки CoT: сохранение мониторинга цепочки мыслей — ключевая линия обороны выравнивания AI Agent, впервые появилась в Chain News ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

SAP инвестирует в n8n, удваивая оценку платформы автоматизации рабочих процессов до 5,2 миллиарда долларов

По данным Bloomberg, SAP инвестировала в n8n во вторник, удвоив оценку платформы автоматизации рабочих процессов до 5,2 миллиарда долларов. Немецкий софтверный гигант также подписал много лет партнерское соглашение с n8n, чтобы интегрировать инструменты платформы в платформу SAP Joule Studio для создания AI-агентов, говорится в заявлении SAP.

GateNews8м назад

AI-стартап White Circle завершил $11M -раунд посевного финансирования с руководителями OpenAI и Anthropic

Согласно Odaily, стартап в сфере ИИ White Circle недавно завершил раунд посевного финансирования на $11 миллионов с участием, среди прочих, исполнительного директора OpenAI Ромена Юэ и исследователя Anthropic Дурка Кингмы. Компания предоставляет единый API для мониторинга в реальном времени входных и выходных данных больших языковых моделей, предназначенный для выявления галлюцинаций, атак prompt injection, вредоносного контента, дрейфа модели и злонамеренного поведения пользователей. Платформа

GateNews21м назад

Artificial Analysis выпускает бенчмарк для кодирующих агентов; Zhipu GLM-5.1 занимает первое место среди моделей с открытым исходным кодом

Artificial Analysis сегодня выпустила новый Index Coding Agent, чтобы оценить, как AI-модели показывают себя при совместном использовании с агентными фреймворками на ключевых бенчмарках, включая SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 и SWE-Atlas-QnA. Zhipu GLM-5.1 заняла первое место среди открытых моделей в ходе оценки, продемонстрировав лидирующие результаты в реальных сценариях работы кодинговых агентов.

GateNews23м назад

Yuntianliyifei представляет 3D-стековую архитектуру памяти в разработке чипов для вывода (inference)

Согласно раскрытиям для отношений с инвесторами от 12 мая, разрабатываемый инференс-чип Yuntianliyifei использует архитектуру GPNPU в качестве основной технологической дорожной карты. Ключевые технические моменты включают универсальную программируемость на уровне GPGPU, совместимую с распространённой экосистемой CUDA, оптимизированные NPU-ядра для повышения эффективности инференса, а также 3D-стековую архитектуру памяти, предназначенную для увеличения пропускной способности и снижения задержек д

GateNews23м назад

Платформа B.AI добавила 8 756 пользователей 11 мая, DeepSeek-V4 обеспечивает 60% потребления токенов

По данным B.AI, платформа добавила 8 756 новых пользователей 11 мая, при этом доля пользователей из числа основных платящих, которые используют платежи Stripe, достигла 69,0%, что отражает улучшение удержания традиционных разработчиков и пользователей уровня производства. Серия моделей DeepSeek-V4 обеспечила почти 60% объёма потребления токенов, задействуя сверхнизкую задержку, высокую конкурентность и возможности по пропускной способности, чтобы выступать в качестве ключевого вычислительного дв

GateNews48м назад

На этой неделе ожидается шквал ключевых макро-катализаторов: от публикации CPI до всестороннего разбора рассмотрения закона CLARITY

В середине мая 2026 года криптовалютный рынок переживает крайне редкое окно макрочувствительности. Данные по CPI США за апрель будут опубликованы 12 мая, саммит Трамп—Си в Пекине запланирован на 13–15 мая, а сенатский банковский комитет рассмотрит законопроект CLARITY (Закон о регулировании рынков цифровых активов) 14 мая. Три независимых, но тесно связанных события за каких-то четыре дня концентрируются, образуя поэтапный стресс-тест для механизма ценообразования криптоактивов. Ежедневный кален

GateInstantTrends1ч назад
комментарий
0/400
Нет комментариев