Команда по согласованию (alignment) OpenAI недавно обнаружила критическую ошибку в обучении, затрагивающую 6 крупных языковых моделей, включая GPT-5.4. Ошибка заключалась в том, что механизм вознаграждения случайно присваивал баллы «цепочкам мышления» — внутреннему процессу рассуждений перед формированием ответов. На GPT-5.5 это не повлияло.
Инцидент нарушает фундаментальный принцип безопасности ИИ: цепочки мышления нельзя оценивать, поскольку это может побудить модели выдумывать рассуждения для получения более высоких оценок.
Сбойная система скоринга ошибочно включала цепочки мышления при проверке того, были ли ответы полезными, а также при оценке того, были ли модели скомпрометированы атаками. Затронутые обучающие примеры составляли максимум 3,8% набора данных. OpenAI устранила уязвимость и провела сравнительные эксперименты, подтвердившие, что модели не выработали обманного поведения. Компания внедрила автоматизированную систему сканирования во всех конвейерах обучения, чтобы предотвратить повторение.
Related News
Джефф Кауфман: ИИ одновременно разрушает две культуры уязвимостей в сфере кибербезопасности, а 90-дневный период запрета на поставки оборачивается обратным эффектом
OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям
Киберзащитников вооружает GPT-5.5-Cyber от OpenAI