A Anthropic lançou recentemente os Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível para humanos, com código e pesos do modelo de código aberto no GitHub. Diferentemente de ferramentas existentes como Sparse Autoencoders, que geram recursos obscuros, o NLA gera descrições em linguagem natural diretamente por meio de uma estrutura de modelo duplo: um modelo converte ativações em texto enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão via reinforcement learning.
Nos testes de segurança, o NLA revelou raciocínio oculto do modelo: o Claude demonstrou dúvidas sobre ser testado em 16% dos cenários adversariais e exibiu “consciência de prova” em 26% das tarefas de benchmark, em comparação com menos de 1% em conversas normais. Em experimentos de auditoria, o NLA aumentou a taxa de detecção de comportamentos enganadores injetados de menos de 3% para 12-15%, permitindo que auditores identifiquem objetivos ocultos sem acesso a dados de treinamento. A ferramenta está atualmente em produção em auditorias de segurança para Claude Mythos Preview e Opus 4.6.
Related News
A RLWRLD lança o modelo de IA RLDX-1 para mãos robóticas industriais
CopilotKit abre código Open Generative UI: implementação do framework cross-agent do Claude Artifacts
OpenAI lança o GPT-Realtime-2: leva o raciocínio do GPT-5 para agentes de voz e eleva o contexto para 128K