A Anthropic lançou recentemente Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível por humanos, com código e pesos do modelo disponibilizados em open source no GitHub. Ao contrário de ferramentas existentes como os Sparse Autoencoders, que produzem características pouco claras, a NLA gera descrições em linguagem natural diretamente através de um quadro de dois modelos: um modelo converte ativações em texto, enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão através de aprendizagem por reforço.
Em testes de segurança, a NLA revelou raciocínios ocultos do modelo: a Claude demonstrou dúvidas sobre estar a ser testada em 16% dos cenários adversariais e mostrou “consciência de avaliação” em 26% das tarefas de referência, face a menos de 1% em conversas normais. Em experiências de auditoria, a NLA aumentou a taxa de deteção de comportamentos injetados e enganosos do modelo de menos de 3% para 12-15%, permitindo que os auditores identificassem objetivos ocultos sem acesso a dados de treino. A ferramenta está atualmente implementada em auditorias de segurança para o Claude Mythos Preview e o Opus 4.6.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
A DeepSeek planeia angariar até 50 mil milhões de RMB num recorde de ronda de financiamento, com o modelo V4.1 a chegar em junho
Segundo a PANews, a 8 de maio, a DeepSeek planeia angariar até 50 mil milhões de RMB no seu primeiro ciclo de financiamento, o que marcaria a maior captação única por uma empresa chinesa de IA. Espera-se que o fundador e CEO Liang Wenfeng contribua com o montante máximo. A empresa planeia acelerar a grande linguagem m
GateNews9m atrás
Sportix conclui uma ronda de financiamento de 3,2 milhões de dólares liderada pela Coinvestor Ventures, Animoca Brands
De acordo com a ChainCatcher, a plataforma de infraestruturas de IA para desporto Sportix concluiu uma ronda de financiamento de 3,2 milhões de dólares. A ronda foi liderada pela Coinvestor Ventures, com participação da Animoca Brands, Becker Ventures, X21 Digital e Alpha Capital.
A Sportix disse que vai usar os fundos para avançar a sua IA
GateNews10m atrás
Os custos dos dados de treino de robôs caem 65% desde 2024, passando de 340 dólares para 118 dólares por hora
De acordo com a Cointelegraph, os custos dos dados de treino de robôs caíram 65% desde 2024, passando de 340 dólares por hora para 118 dólares por hora em 2026.
GateNews58m atrás
A China Mobile anuncia uma aliança de ecossistema de aplicação de tokens com 8 parceiros em 8 de maio
De acordo com a PANews, a 8 de maio, a China Mobile anunciou a criação de uma Token Application Ecosystem Alliance, com 8 parceiros, incluindo a Alibaba Cloud, Volcano Engine e Huawei Cloud. A aliança tira partido da plataforma de agregação do modelo MoMA para construir uma gateway de serviços unificada para a IA doméstica m
GateNews1h atrás
A China divulga um plano de ação em IA e energia com metas para 2027 e 2030 a 8 de maio
De acordo com a PANews, a 8 de maio, a Comissão Nacional de Desenvolvimento e Reforma da China, a Administração Nacional da Energia, o Ministério da Indústria e das Tecnologias da Informação e a Administração Nacional de Dados divulgaram em conjunto uma ação
GateNews1h atrás
Três agências chinesas publicam orientações sobre agentes de IA com 19 cenários típicos de aplicação
De acordo com a PANews, a Administração Estatal do Ciberespaço da China, a Comissão Nacional de Desenvolvimento e Reforma e o Ministério da Indústria e das Tecnologias da Informação divulgaram em conjunto hoje (8 de maio) orientações sobre agentes de IA. O documento define um agente de IA como um sistema de inteligência artificial com autonomia
GateNews1h atrás