Según el equipo de alineación de OpenAI, la empresa descubrió recientemente un error crítico de entrenamiento que afecta a 6 modelos grandes de lenguaje, incluido GPT-5.4. Pensamiento: el mecanismo de recompensa puntuó inadvertidamente las cadenas de pensamiento del modelo, el proceso de razonamiento interno antes de generar respuestas. GPT-5.5 no se vio afectado.
El incidente infringe un principio fundamental de seguridad de la IA de que las cadenas de pensamiento nunca deben evaluarse, ya que hacerlo podría incentivar a los modelos a fabricar razonamientos para obtener puntuaciones más altas.
El sistema de puntuación defectuoso incluyó incorrectamente cadenas de pensamiento al evaluar si las respuestas eran útiles o si los modelos habían sido comprometidos por ataques. Las muestras de entrenamiento afectadas representaron, como máximo, el 3,8% del conjunto de datos.
OpenAI ha corregido la vulnerabilidad y ha realizado experimentos comparativos que confirman que los modelos no desarrollaron comportamientos engañosos. La empresa ha implementado un sistema automatizado de escaneo en todas las canalizaciones de entrenamiento para evitar que se repita.
Related News
Jeff Kaufman: La IA rompe simultáneamente dos culturas de vulnerabilidades de ciberseguridad y el período de prohibición de 90 días se vuelve contraproducente
OpenAI revela un impacto inesperado de la puntuación CoT: conservar la supervisión de la cadena de pensamiento es una línea de defensa clave para alinear los agentes de IA
Los GPT-5.5-Cyber de OpenAI arman a los defensores cibernéticos