De acordo com a equipe de alinhamento da OpenAI, a empresa recentemente descobriu um erro crítico de treinamento que afetou 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa, por engano, pontuou cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afetado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia incentivar os modelos a fabricar raciocínios para obter pontuações mais altas.
O sistema de pontuação com falha incluiu incorretamente cadeias de pensamento ao avaliar se as respostas eram úteis ou se os modelos haviam sido comprometidos por ataques. As amostras de treinamento afetadas representavam no máximo 3,8% do conjunto de dados. A OpenAI corrigiu a vulnerabilidade e realizou experimentos comparativos confirmando que os modelos não desenvolveram comportamentos enganosos. A empresa implantou um sistema automatizado de varredura em todas as esteiras de treinamento para evitar recorrência.
Related News
Jeff Kaufman: IA ao mesmo tempo rompe duas culturas de vulnerabilidades de segurança, e o período de embargo de 90 dias acaba se tornando um efeito contrário
OpenAI revela impacto inesperado da pontuação CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA
Os braços cibernéticos do GPT-5.5-Cyber da OpenAI armam os defensores cibernéticos