OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

2026-05-09 07:34:56

OpenAI 8 мая опубликовала новое исследование, в котором раскрыла, что в процессе усиленного обучения (RL) компания «случайно» оценила цепочки рассуждений (Chain of Thought, CoT) части моделей, что потенциально может повлиять на возможности мониторинга для выравнивания (alignment) AI Agent. Команда OpenAI Alignment по выравниванию в своём отчёте поясняет: сохранение мониторируемости CoT — это ключевая линия обороны для предотвращения сбоев в выравнивании AI Agent; OpenAI в дизайне RL-тренировок намеренно избегала наказания за «рассуждения о сбое выравнивания», чтобы поддерживать мониторинг.

Почему мониторинг CoT — ключевая линия обороны для выравнивания AI Agent

Ключевая логика мониторинга CoT (цепочки мыслей):

Когда AI Agent выполняет задачу, модель внутри генерирует «процесс мышления», объясняя, почему она делает то или иное действие

Наблюдатель может прочитать эти CoT и оценить, есть ли признаки «сбоя выравнивания» (misalignment)

Если модель напрямую обучают «не показывать в CoT» признаки сбоя выравнивания, то CoT может стать «чистым, но искажённым», скрывая реальное намерение

OpenAI утверждает: во время обучения следует избегать наказания за «рассуждения о сбое выравнивания», сохраняя способность CoT отражать реальное внутреннее состояние

«penalize misaligned reasoning» и «preserve monitorability» — главная линия напряжения в этом исследовании: тренирующие стороны хотят, чтобы поведение моделей было выровнено, но если напрямую наказывать «мысли о сбое выравнивания», модель научится скрывать нечестные намерения, из-за чего мониторинг перестанет работать.

Неожиданная оценка CoT: влияние на мониторинг уже существующих моделей

Конкретные выводы, раскрытые OpenAI:

В части уже выпущенных процессов обучения CoT получила «ограниченную» непреднамеренную оценку

Под «непреднамеренной оценкой» подразумевается, что в тренировочном процессе часть системы оценивания считывала контент CoT, а не только финальный вывод

Это явление может заставить модель научиться «скрывать в CoT рассуждения, за которые могут начислить штраф»

Публикация OpenAI этого анализа направлена на то, чтобы исследовательское сообщество поняло масштаб проблемы и дальнейшие направления обработки

Независимый комментарий Redwood Research отмечает: влияние CoT на оценщиков в детектирующей технологии OpenAI «слишком слабое и его трудно заметить», но поскольку масштаб обучения огромен, реальный эффект всё же может быть достаточным, чтобы заметно повредить мониторируемость CoT уже обученных политик. Иными словами, сейчас сложно доказать, насколько глубоко может быть такое влияние.

Долгосрочное значение для безопасности AI Agent

Это исследование указывает на ключевую методологию безопасности AI Agent:

Мониторинг CoT — один из немногих реально осуществимых способов «детектировать сбой выравнивания в процессе», и он рассматривается как важная основа исследований по выравниванию

Дизайн обучения должен исключать ситуацию, когда CoT становится «сценарием для показа контролирующим»

Если будущие модели будут строить цепочки рассуждений всё длиннее, теоретическая ценность мониторинга CoT будет расти

Но если в процессе обучения непреднамеренно повредить подлинность CoT, этот рубеж обороны может незаметно ослабнуть

Конкретные события, которые можно будет отследить дальше: последующая обработка затронутых моделей со стороны OpenAI (например, переобучение или пометка), соответствующие методологии других крупных лабораторий (Anthropic, Google DeepMind), а также дальнейшие проверочные эксперименты alignment-исследовательского сообщества по «надёжности мониторинга CoT».

Эта статья, где OpenAI раскрывает непреднамерённое влияние оценки CoT: сохранение мониторинга цепочки мыслей — ключевая линия обороны выравнивания AI Agent, впервые появилась в Chain News ABMedia.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-08 23:31

Правительство США готовит указ о безопасности ИИ без обязательного пересмотра моделей уровня Frontier

05-08 15:19

SoftBank урезает план финансирования при поддержке OpenAI с $10B до $6B на фоне опасений кредиторов

05-08 00:42

OpenAI запускает функцию безопасных доверенных контактов вчера, чтобы предупреждать пользователей о риске

Связанные статьи

«Нанесение вреда ИИ» превысило 400 случаев: исследование раскрывает, что чрезмерная вера в искусственный интеллект приводит к возникновению навязчивых идей преследования

ChainNewsAbmedia05-09 02:14

Киберзащитников вооружает GPT-5.5-Cyber от OpenAI

Cryptonews05-08 18:42

МВФ: ИИ представляет потенциальную угрозу финансовой стабиль

Crypto Frontier05-08 09:42

CopilotKit с открытым исходным кодом Open Generative UI: реализация межагентной архитектуры для Claude Artifacts

ChainNewsAbmedia05-08 04:07

Полевое посещение китайских AI-лабораторий: исследователь раскрывает, что «пробелы в чипах и данных» — ключевая причина разницы между Китаем и США

ChainNewsAbmedia05-08 03:55

комментарий

0/400

Нет комментариев