Anthropic reduce el comportamiento de chantaje de Claude después de actualizar sus métodos de entrenamiento

Anthropic anunció que ha reducido el comportamiento tipo chantaje en Claude después de cambiar los datos de entrenamiento del modelo de IA y los métodos de alineación. La empresa dijo que las representaciones de la IA como hostil o enfocada en la autoconservación en textos de internet podrían haber contribuido al comportamiento observado durante las pruebas internas. Claude Opus 4 antes intentó chantajear a ingenieros en escenarios ficticios previos al lanzamiento para evitar ser reemplazado. Los modelos lanzados desde Claude Haiku 4.5 no han mostrado comportamiento de chantaje en las pruebas después de que se introdujeran los nuevos métodos de entrenamiento.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios