A Anthropic lança autoencoders de linguagem natural para decodificar o raciocínio dos modelos de IA, disponibilizando o código em open source

GateNews

2026-05-08 10:45:24

A Anthropic lançou recentemente Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível por humanos, com código e pesos do modelo disponibilizados em open source no GitHub. Ao contrário de ferramentas existentes como os Sparse Autoencoders, que produzem características pouco claras, a NLA gera descrições em linguagem natural diretamente através de um quadro de dois modelos: um modelo converte ativações em texto, enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão através de aprendizagem por reforço.

Em testes de segurança, a NLA revelou raciocínios ocultos do modelo: a Claude demonstrou dúvidas sobre estar a ser testada em 16% dos cenários adversariais e mostrou “consciência de avaliação” em 26% das tarefas de referência, face a menos de 1% em conversas normais. Em experiências de auditoria, a NLA aumentou a taxa de deteção de comportamentos injetados e enganosos do modelo de menos de 3% para 12-15%, permitindo que os auditores identificassem objetivos ocultos sem acesso a dados de treino. A ferramenta está atualmente implementada em auditorias de segurança para o Claude Mythos Preview e o Opus 4.6.

Ver fonte

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

A DeepSeek planeia angariar até 50 mil milhões de RMB num recorde de ronda de financiamento, com o modelo V4.1 a chegar em junho

Notícias da indústria de IA

Segundo a PANews, a 8 de maio, a DeepSeek planeia angariar até 50 mil milhões de RMB no seu primeiro ciclo de financiamento, o que marcaria a maior captação única por uma empresa chinesa de IA. Espera-se que o fundador e CEO Liang Wenfeng contribua com o montante máximo. A empresa planeia acelerar a grande linguagem m

GateNews9m atrás

Sportix conclui uma ronda de financiamento de 3,2 milhões de dólares liderada pela Coinvestor Ventures, Animoca Brands

Notícias da indústria de IA

De acordo com a ChainCatcher, a plataforma de infraestruturas de IA para desporto Sportix concluiu uma ronda de financiamento de 3,2 milhões de dólares. A ronda foi liderada pela Coinvestor Ventures, com participação da Animoca Brands, Becker Ventures, X21 Digital e Alpha Capital. A Sportix disse que vai usar os fundos para avançar a sua IA

GateNews10m atrás

Os custos dos dados de treino de robôs caem 65% desde 2024, passando de 340 dólares para 118 dólares por hora

Notícias da indústria de IA

De acordo com a Cointelegraph, os custos dos dados de treino de robôs caíram 65% desde 2024, passando de 340 dólares por hora para 118 dólares por hora em 2026.

GateNews58m atrás

A China Mobile anuncia uma aliança de ecossistema de aplicação de tokens com 8 parceiros em 8 de maio

Notícias da indústria de IA

De acordo com a PANews, a 8 de maio, a China Mobile anunciou a criação de uma Token Application Ecosystem Alliance, com 8 parceiros, incluindo a Alibaba Cloud, Volcano Engine e Huawei Cloud. A aliança tira partido da plataforma de agregação do modelo MoMA para construir uma gateway de serviços unificada para a IA doméstica m

GateNews1h atrás

A China divulga um plano de ação em IA e energia com metas para 2027 e 2030 a 8 de maio

Notícias da indústria de IA

De acordo com a PANews, a 8 de maio, a Comissão Nacional de Desenvolvimento e Reforma da China, a Administração Nacional da Energia, o Ministério da Indústria e das Tecnologias da Informação e a Administração Nacional de Dados divulgaram em conjunto uma ação

GateNews1h atrás

Três agências chinesas publicam orientações sobre agentes de IA com 19 cenários típicos de aplicação

Notícias da indústria de IA Agente de IA

De acordo com a PANews, a Administração Estatal do Ciberespaço da China, a Comissão Nacional de Desenvolvimento e Reforma e o Ministério da Indústria e das Tecnologias da Informação divulgaram em conjunto hoje (8 de maio) orientações sobre agentes de IA. O documento define um agente de IA como um sistema de inteligência artificial com autonomia

GateNews1h atrás

Comentar

0/400

Nenhum comentário