A Anthropic Lança Autoencoders de Linguagem Natural para Decodificar a Raciocínio de Modelos de IA e Abre o Código-Fonte

A Anthropic lançou recentemente os Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível para humanos, com código e pesos do modelo de código aberto no GitHub. Diferentemente de ferramentas existentes como Sparse Autoencoders, que geram recursos obscuros, o NLA gera descrições em linguagem natural diretamente por meio de uma estrutura de modelo duplo: um modelo converte ativações em texto enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão via reinforcement learning.

Nos testes de segurança, o NLA revelou raciocínio oculto do modelo: o Claude demonstrou dúvidas sobre ser testado em 16% dos cenários adversariais e exibiu “consciência de prova” em 26% das tarefas de benchmark, em comparação com menos de 1% em conversas normais. Em experimentos de auditoria, o NLA aumentou a taxa de detecção de comportamentos enganadores injetados de menos de 3% para 12-15%, permitindo que auditores identifiquem objetivos ocultos sem acesso a dados de treinamento. A ferramenta está atualmente em produção em auditorias de segurança para Claude Mythos Preview e Opus 4.6.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários