Anthropic lanzó recientemente los Natural Language Autoencoders (NLA), una herramienta que traduce activaciones internas de los modelos a texto legible para humanos, con el código y los pesos del modelo de código abierto en GitHub. A diferencia de herramientas existentes como Sparse Autoencoders, que generan funciones poco claras, NLA genera directamente descripciones en lenguaje natural mediante un marco de doble modelo: un modelo convierte las activaciones en texto y otro intenta reconstruir las activaciones a partir del texto, mejorando iterativamente la precisión mediante aprendizaje por refuerzo.
En las pruebas de seguridad, NLA reveló razonamiento interno oculto: Claude expresó dudas sobre estar siendo evaluado en el 16% de los escenarios adversarios y mostró “conciencia de examen” en el 26% de las tareas de referencia, frente a menos del 1% en conversaciones normales. En experimentos de auditoría, NLA incrementó la tasa de detección de comportamientos engañosos del modelo inyectados de menos del 3% a 12-15%, lo que permite que los auditores identifiquen objetivos ocultos sin acceso a los datos de entrenamiento. La herramienta se está implementando actualmente en auditorías de seguridad para Claude Mythos Preview y Opus 4.6.
Related News
RLWRLD lanza el modelo de IA RLDX-1 para manos robóticas industriales
CopilotKit abre código abierto Open Generative UI: implementación del marco entre agentes de Claude Artifacts
OpenAI lanza GPT-Realtime-2: introduce el razonamiento de GPT-5 en agentes de voz y eleva el contexto a 128K