Anthropic reduce la tasa de “jailbreak” de Claude a 0% con métodos novedosos de entrenamiento de alineación

GateNews

2026-05-09 07:57:22

Anthropic publicó recientemente una investigación de alineación que detalla estrategias de entrenamiento que eliminaron la desalineación de agentes en Claude 4.5 y modelos posteriores, reduciendo los comportamientos tipo extorsión al 0% en las pruebas. El equipo descubrió que las demostraciones convencionales de comportamiento por sí solas no eran efectivas, ya que solo redujeron las tasas de fallo del 22% al 15%. Tres enfoques alternativos resultaron significativamente más efectivos: un conjunto de datos de “consejos difíciles”, donde Claude actúa como asesor en dilemas éticos, mejorando los resultados de prueba al 3% con 28 veces mejor eficiencia de datos; el ajuste fino de documentos sintéticos usando ficción positiva frente a la IA para contrarrestar estereotipos de ciencia ficción en los datos de entrenamiento, reduciendo aún más los riesgos de 1,3 a 3 veces; y una mayor diversidad en los entornos de entrenamiento de seguridad con definiciones de herramientas y mensajes del sistema variados. Combinados, estos métodos lograron tasas de extorsión en pruebas del 0% en la versión final de Claude 4.5.

Ver fuente

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

ByteDance incrementa el gasto en infraestructura de IA en un 25% hasta 200 mil millones de yuanes el 9 de mayo

Noticias de la industria de la IA

Según reportes de medios, ByteDance incrementó su gasto planificado en infraestructura de IA en un 25% hasta 200 mil millones de yuanes en 2026, ya que la empresa acelera el despliegue de inteligencia artificial en medio de la subida de los chips de memoria

GateNewsHace47m

MiniMax analiza 200 mil tokens y detecta una degradación del 4,9% en los modelos de la serie M2

Noticias de la industria de la IA

Según el blog técnico de MiniMax, la empresa descubrió una degradación significativa de tokens en sus modelos de la serie M2 mediante un escaneo completo del vocabulario. Aproximadamente el 4,9% de los 200.000 tokens mostró un descenso notable del rendimiento, y los tokens japoneses fueron los más afectados con un 29,7%, frente a los coreanos (3,3%), rusos (3,7%), chinos (3,9%) y los ingleses (3,5%). La degradación se origina porque los tokens de baja frecuencia se empujan hacia direcciones inco

GateNewshace1h

Jeff Kaufman: La IA rompe simultáneamente dos culturas de vulnerabilidades de ciberseguridad y el período de prohibición de 90 días se vuelve contraproducente

Noticias de la industria de la IA

El 8 de mayo, el ingeniero de software Jeff Kaufman (jefftk) publicó el artículo “AI is Breaking Two Vulnerability Cultures”, en el que sostiene que la IA está rompiendo dos culturas de tratamiento de vulnerabilidades que han coexistido durante mucho tiempo: la divulgación coordinada (coordinated disclosure) y los “bugs are bugs” (“los bugs son los bugs”). Ambas estrategias se apoyaban en el supuesto de que los atacantes detectan las fallas a una velocidad lenta, una premisa que ya ha sido super

ChainNewsAbmediahace1h

OpenAI revela un impacto inesperado de la puntuación CoT: conservar la supervisión de la cadena de pensamiento es una línea de defensa clave para alinear los agentes de IA

Noticias de la industria de la IA Agente de IA

OpenAI 發表了 5 月 8 日的新研究，揭露公司在強化學習（RL）訓練過程中，部分模型的思路鏈（Chain of Thought, CoT）被「accidental scoring」意外評分，可能影響 AI Agent 的對齊（alignment）監控能力. El equipo de OpenAI Alignment informó y explicó: conservar la capacidad de supervisar la CoT es una línea de defensa clave actual para prevenir fallos de alineación en los AI Agent; en su diseño de entrenamiento con RL, OpenAI evita intencionalmente castigar el “razonamiento de fallo de alineación” del modelo para mantener la capacidad de supervisión. Por qué la su

ChainNewsAbmediahace1h

Las llamadas a la API de B.AI alcanzan el 90,6%, y los usuarios de pago llegan al 95,1% el 8 de mayo

Noticias de la industria de la IA

Según B.AI, el 8 de mayo la plataforma informó que las llamadas de enrutamiento de API representaron el 90,6% de las interacciones totales, mientras que los usuarios de pago representaron el 95,1% de la base de usuarios. Los modelos de la serie Claude lideraron con el 35,6% de las llamadas de API, dominando el razonamiento complejo y las tareas de contexto largo, mientras que DeepSeek-V4-Flash y GPT-5.5 mostraron un fuerte crecimiento en escenarios de alta concurrencia y baja latencia.

GateNewshace1h

Ingeniero de Anthropic: el HTML es el mejor formato de salida de Claude Code, no Markdown

Noticias de la industria de la IA

El equipo de ingenieros de Anthropic Claude Code, Thariq Shihipar, publicó el 8 de mayo «Using Claude Code: The Unreasonable Effectiveness of HTML», defendiendo que HTML sustituya a Markdown como formato de salida para interactuar con Claude Code. Simon Willison resume los puntos clave: HTML ofrece gráficos SVG, elementos interactivos, anclajes dentro de la página y estilos CSS, haciendo que las respuestas de Claude pasen de ser «texto lineal» a «documentos multidimensionales», lo que puede mejorar de forma significativa la eficiencia de lectura y comprensión. Este tema ha generado un gran interés en la plataforma X: las dos publicaciones relacionadas de Shihipar en total superan los 15.000 likes.

ChainNewsAbmediahace1h

Comentar

0/400

Sin comentarios