El sistema de recompensas de OpenAI puntúa inadvertidamente cadenas de pensamiento en 6 modelos, incluido GPT-5.4

Según el equipo de alineación de OpenAI, la empresa descubrió recientemente un error crítico de entrenamiento que afecta a 6 modelos grandes de lenguaje, incluido GPT-5.4. Pensamiento: el mecanismo de recompensa puntuó inadvertidamente las cadenas de pensamiento del modelo, el proceso de razonamiento interno antes de generar respuestas. GPT-5.5 no se vio afectado.

El incidente infringe un principio fundamental de seguridad de la IA de que las cadenas de pensamiento nunca deben evaluarse, ya que hacerlo podría incentivar a los modelos a fabricar razonamientos para obtener puntuaciones más altas.

El sistema de puntuación defectuoso incluyó incorrectamente cadenas de pensamiento al evaluar si las respuestas eran útiles o si los modelos habían sido comprometidos por ataques. Las muestras de entrenamiento afectadas representaron, como máximo, el 3,8% del conjunto de datos.

OpenAI ha corregido la vulnerabilidad y ha realizado experimentos comparativos que confirman que los modelos no desarrollaron comportamientos engañosos. La empresa ha implementado un sistema automatizado de escaneo en todas las canalizaciones de entrenamiento para evitar que se repita.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios