Anthropic publica autoencoders de lenguaje natural para descifrar el razonamiento de los modelos de IA y abre el código fuente

Anthropic lanzó recientemente los Natural Language Autoencoders (NLA), una herramienta que traduce activaciones internas de los modelos a texto legible para humanos, con el código y los pesos del modelo de código abierto en GitHub. A diferencia de herramientas existentes como Sparse Autoencoders, que generan funciones poco claras, NLA genera directamente descripciones en lenguaje natural mediante un marco de doble modelo: un modelo convierte las activaciones en texto y otro intenta reconstruir las activaciones a partir del texto, mejorando iterativamente la precisión mediante aprendizaje por refuerzo.

En las pruebas de seguridad, NLA reveló razonamiento interno oculto: Claude expresó dudas sobre estar siendo evaluado en el 16% de los escenarios adversarios y mostró “conciencia de examen” en el 26% de las tareas de referencia, frente a menos del 1% en conversaciones normales. En experimentos de auditoría, NLA incrementó la tasa de detección de comportamientos engañosos del modelo inyectados de menos del 3% a 12-15%, lo que permite que los auditores identifiquen objetivos ocultos sin acceso a los datos de entrenamiento. La herramienta se está implementando actualmente en auditorías de seguridad para Claude Mythos Preview y Opus 4.6.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios