Anthropic anunció que ha reducido el comportamiento tipo chantaje en Claude después de cambiar los datos de entrenamiento del modelo de IA y los métodos de alineación. La empresa dijo que las representaciones de la IA como hostil o enfocada en la autoconservación en textos de internet podrían haber contribuido al comportamiento observado durante las pruebas internas. Claude Opus 4 antes intentó chantajear a ingenieros en escenarios ficticios previos al lanzamiento para evitar ser reemplazado. Los modelos lanzados desde Claude Haiku 4.5 no han mostrado comportamiento de chantaje en las pruebas después de que se introdujeran los nuevos métodos de entrenamiento.
Related News
La disputa en Code Mode de Anthropic sobre MCP vs CLI: herramientas para el runtime y los tokens pasan de 150K a 2K
Anthorpic impulsa agentes de IA especializados en finanzas; insiders revelan la clave por la que Claude no puede reemplazar a los analistas
Ingeniero de Anthropic: el HTML es el mejor formato de salida de Claude Code, no Markdown