OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

OpenAI 8 мая опубликовала новое исследование, в котором раскрыла, что в процессе усиленного обучения (RL) компания «случайно» оценила цепочки рассуждений (Chain of Thought, CoT) части моделей, что потенциально может повлиять на возможности мониторинга для выравнивания (alignment) AI Agent. Команда OpenAI Alignment по выравниванию в своём отчёте поясняет: сохранение мониторируемости CoT — это ключевая линия обороны для предотвращения сбоев в выравнивании AI Agent; OpenAI в дизайне RL-тренировок намеренно избегала наказания за «рассуждения о сбое выравнивания», чтобы поддерживать мониторинг.

Почему мониторинг CoT — ключевая линия обороны для выравнивания AI Agent

Ключевая логика мониторинга CoT (цепочки мыслей):

Когда AI Agent выполняет задачу, модель внутри генерирует «процесс мышления», объясняя, почему она делает то или иное действие

Наблюдатель может прочитать эти CoT и оценить, есть ли признаки «сбоя выравнивания» (misalignment)

Если модель напрямую обучают «не показывать в CoT» признаки сбоя выравнивания, то CoT может стать «чистым, но искажённым», скрывая реальное намерение

OpenAI утверждает: во время обучения следует избегать наказания за «рассуждения о сбое выравнивания», сохраняя способность CoT отражать реальное внутреннее состояние

«penalize misaligned reasoning» и «preserve monitorability» — главная линия напряжения в этом исследовании: тренирующие стороны хотят, чтобы поведение моделей было выровнено, но если напрямую наказывать «мысли о сбое выравнивания», модель научится скрывать нечестные намерения, из-за чего мониторинг перестанет работать.

Неожиданная оценка CoT: влияние на мониторинг уже существующих моделей

Конкретные выводы, раскрытые OpenAI:

В части уже выпущенных процессов обучения CoT получила «ограниченную» непреднамеренную оценку

Под «непреднамеренной оценкой» подразумевается, что в тренировочном процессе часть системы оценивания считывала контент CoT, а не только финальный вывод

Это явление может заставить модель научиться «скрывать в CoT рассуждения, за которые могут начислить штраф»

Публикация OpenAI этого анализа направлена на то, чтобы исследовательское сообщество поняло масштаб проблемы и дальнейшие направления обработки

Независимый комментарий Redwood Research отмечает: влияние CoT на оценщиков в детектирующей технологии OpenAI «слишком слабое и его трудно заметить», но поскольку масштаб обучения огромен, реальный эффект всё же может быть достаточным, чтобы заметно повредить мониторируемость CoT уже обученных политик. Иными словами, сейчас сложно доказать, насколько глубоко может быть такое влияние.

Долгосрочное значение для безопасности AI Agent

Это исследование указывает на ключевую методологию безопасности AI Agent:

Мониторинг CoT — один из немногих реально осуществимых способов «детектировать сбой выравнивания в процессе», и он рассматривается как важная основа исследований по выравниванию

Дизайн обучения должен исключать ситуацию, когда CoT становится «сценарием для показа контролирующим»

Если будущие модели будут строить цепочки рассуждений всё длиннее, теоретическая ценность мониторинга CoT будет расти

Но если в процессе обучения непреднамеренно повредить подлинность CoT, этот рубеж обороны может незаметно ослабнуть

Конкретные события, которые можно будет отследить дальше: последующая обработка затронутых моделей со стороны OpenAI (например, переобучение или пометка), соответствующие методологии других крупных лабораторий (Anthropic, Google DeepMind), а также дальнейшие проверочные эксперименты alignment-исследовательского сообщества по «надёжности мониторинга CoT».

Эта статья, где OpenAI раскрывает непреднамерённое влияние оценки CoT: сохранение мониторинга цепочки мыслей — ключевая линия обороны выравнивания AI Agent, впервые появилась в Chain News ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

AI-стартап для голосовых ассистентов Vapi завершил $50M раунд серии B, возглавляемый Peak XV Partners

По данным TechCrunch, Vapi, стартап в сфере AI-голосов, завершил раунд Series B на 50 миллионов долларов, возглавленный Peak XV Partners, с постинвестиционной оценкой примерно в 500 миллионов долларов. Ring, дочерняя компания Amazon, внедрила Vapi для обработки 100% входящих звонков после оценки более 40 поставщиков AI-голоса, что помогло провести раунд финансирования.

GateNews20м назад

Точность GPT-5.4 падает с 100% до 54% на ARC-AGI после многократного суммирования памяти

Исследование памяти агента от Beating, проведённое Диланом Чжаном, аспирантом Университета Иллинойса, показало, что многократное резюмирование опыта модели может ухудшать производительность, а не улучшать её. В задачах ARC-AGI GPT-5.4 достиг 100% точности на 19 проблемах без памяти, но после нескольких раундов компрессии памяти на основе правильных траекторий решения точность упала до 54%. Аналогично, в задачах покупок WebShop метод AWM показал результат 0,64 с 8 экспертными траекториями, но сни

GateNews32м назад

NVIDIA и Массачусетский технологический институт (MIT) выпускают фреймворк Lightning OPD, повышая эффективность дистилляции моделей в 4 раза при устранении проблем с памятью GPU

Согласно сообщениям, исследователи NVIDIA и MIT выпустили Lightning OPD (Offline On-Policy Distillation) — новую посттренировочную методику для больших языковых моделей, которая устраняет необходимость держать учительскую модель в работе во время обучения. Путём предварительного вычисления лог-вероятностей учительской модели офлайн эта схема повышает эффективность обучения в 4 раза, одновременно освобождая все ресурсы GPU для обучения студентской модели. При тестировании на 8 GPU NVIDIA H100 Lig

GateNews49м назад

OpenAI расширяет программу доверенного доступа для десятков европейских предприятий 12 мая

12 мая, по сообщениям, OpenAI объявила о планах расширить свою Программу доверенного доступа на десятки европейских предприятий.

GateNews55м назад

Живой «Трансформеры»! Uxu Technology представила первого в мире серийного робота-носителя, цена — 570 тыс. долларов

Компания по производству роботов из Ханчжоу Unitree Robotics (Unitree Robotics) 12 мая представила свой новый продукт GD01 — пилотируемый мех, который может свободно переключаться между режимами двуногого человекоподобного хождения и четвероногого лазания. Можно сказать, что это перенесло на реальность кинематографические кадры из научно‑фантастических блокбастеров «Трансформеры» и «Тихоокеанский рубеж». На этот раз релиз — это не только технологическое зрелище, но и наглядное отражение того, ка

ChainNewsAbmedia2ч назад

Thinking Machines Model Ties GPT-Realtime-2 за первое место в аудиобенчмарке сегодня, набрав 43,4% APR Score

Согласно последнему бенчмарку Audio MC S2S от Scale Labs, опубликованному сегодня, модель Thinking Machines TML-Interaction-Small набрала 43,36 балла, разделив первое место с моделью OpenAI GPT-Realtime-2 (xHigh) — 43,4% по шкале APR. Абсолютный лидер по результатам, GPT-Realtime-2 (xHigh), набрал 48,45 балла, тогда как TML-Interaction-Small следовала за ним с 43,36 балла; разница попала в пределы статистической погрешности, поэтому официально было объявлено равенство за первое место.

GateNews2ч назад
комментарий
0/400
Нет комментариев