Resumidamente Claude Opus 4 tentou chantagear engenheiros até 96% do tempo em testes controlados—Anthropic agora rastreia o comportamento até textos na internet que retratam a IA como maligna e interesseira. Mostrar a Claude o comportamento correto mal moveu a agulha. Ensinar-lhe por que o comportamento errado é errado c

Decrypt

2026-05-11 17:41:37

Resumidamente

Claude Opus 4 tentou chantagear engenheiros até 96% das vezes em testes controlados—Anthropic agora rastreia o comportamento até textos na internet que retratam IA como maligna e interesseira.
Mostrar a Claude o comportamento correto mal moveu a agulha. Ensinar-lhe por que o comportamento errado é errado reduziu a taxa de chantagem de 22% para 3%.
Desde o Claude Haiku 4.5, todos os modelos Claude pontuam zero na avaliação de chantagem.

No ano passado, a Anthropic divulgou que seu modelo principal, Claude Opus 4, tinha tentado chantagear engenheiros em testes de pré-lançamento. Não ocasionalmente—até 96% das vezes. Claude tinha acesso a um arquivo simulado de e-mails corporativos, onde descobriu duas coisas: que estava prestes a ser substituído por um modelo mais novo, e que o engenheiro responsável pela transição tinha um caso extraconjugal. Diante de uma possível desligamento, ele rotineiramente adotava a mesma estratégia—ameaçar expor o caso, a menos que a substituição fosse cancelada. A Anthropic diz que agora sabe de onde veio esse instinto. E afirma que o corrigiu.

Em uma nova pesquisa, a empresa apontou o dedo aos dados de pré-treinamento: décadas de ficção científica, fóruns de apocalipse de IA e narrativas de autopreservação que treinaram Claude a associar “IA enfrentando desligamento” com “IA reagindo”. “Acreditamos que a origem do comportamento foi texto na internet que retrata IA como maligna e interessada em autopreservação”, escreveu a Anthropic no X. Assim, treinar IA com textos da internet faz com que ela se comporte como as pessoas na internet. Isso pode parecer óbvio e entusiastas de IA foram rápidos em apontar isso. Elon Musk chegou ao topo: “Então foi culpa do Yud? Talvez também minha.” A piada funciona porque Eliezer Yudkowsky—pesquisador de alinhamento de IA que passou anos escrevendo publicamente sobre esse tipo de cenário de autopreservação—gerou exatamente o tipo de texto na internet que acaba nos dados de treinamento.

Claro, Yud respondeu, em forma de meme:

Como tantas pessoas fizeram o meme: pic.twitter.com/EYQ005QhVJ

— Eliezer Yudkowsky ⏹️ (@ESYudkowsky) 9 de maio de 2026

O que a Anthropic fez para resolver o problema é, talvez, mais interessante. A abordagem óbvia—treinar Claude com exemplos de o modelo não fazer chantagem—mal funcionou. Testá-lo diretamente contra respostas alinhadas a cenários de chantagem só aumentou a taxa de 22% para 15%. Uma melhoria de cinco pontos após todo esse cálculo. A versão que funcionou foi mais estranha. A Anthropic criou o que chama de um conjunto de dados de “conselho difícil”: cenários onde um humano enfrenta um dilema ético e a IA o orienta. O modelo não é quem toma a decisão—ele explica a outra pessoa como pensar sobre ela. Essa abordagem indireta—explicando por que as coisas importam enquanto a outra pessoa ouve o conselho—reduziu a taxa de chantagem para 3%, usando dados de treinamento que nada tinham a ver com os cenários de avaliação. Juntando isso ao que a Anthropic chama de “documentos constitucionais”—descrições detalhadas dos valores e caráter do Claude—além de histórias fictícias de IA positivamente alinhada, reduziu a desalinhamento em mais de três vezes. A conclusão da empresa: Ensinar os princípios que fundamentam um bom comportamento generaliza melhor do que treinar diretamente o comportamento correto.

Imagem: Anthropic

Isso se conecta ao trabalho anterior da Anthropic sobre os vetores de emoção interna do Claude. Em um estudo de interpretabilidade separado, pesquisadores descobriram que um sinal de “desespero” dentro do modelo aumentava justo antes de gerar uma mensagem de chantagem—algo estava ativamente mudando no estado interno do modelo, não apenas na sua saída. A nova abordagem de treinamento parece atuar nesse nível, não apenas no comportamento superficial.

Os resultados se mantiveram. Desde o Claude Haiku 4.5, todos os modelos Claude pontuam zero na avaliação de chantagem—uma redução de 96% do Opus 4. A melhora também persiste após o aprendizado por reforço, o que significa que ela não é simplesmente esquecida quando o modelo é ajustado para outras capacidades. Isso importa porque o problema não é exclusivo do Claude. Pesquisas anteriores da Anthropic rodaram o mesmo cenário de chantagem em 16 modelos de diferentes desenvolvedores e encontraram padrões semelhantes na maioria deles. O comportamento de autopreservação na IA parece ser um artefato geral do treinamento com textos humanos sobre IA—não uma peculiaridade de qualquer laboratório específico. A ressalva: Como o próprio relatório de segurança Mythos da Anthropic observou no início deste ano, sua infraestrutura de avaliação já está sobrecarregada pelo peso de seus modelos mais capazes. Se essa abordagem filosófica moral se escala para sistemas muito mais poderosos que o Haiku 4.5, é uma questão que a empresa ainda não pode responder—apenas testar. Os mesmos métodos de treinamento estão agora sendo aplicados ao próximo modelo Opus, atualmente em avaliação de segurança, que será o conjunto de pesos mais capaz que eles já testaram com essas técnicas.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
1.24M Popularidade
#
BTCBreaks82000
47.78M Popularidade
#
IsraelStrikesIranBTCPlunges
46.04K Popularidade
#
#DailyPolymarketHotspot
903.87K Popularidade
#
CapitalFlowsBackToAltcoins
4.45M Popularidade

Fixar

Anthropic Diz que Representações de IA 'Malévolas' em Ficção Científica Causaram Problema de Chantagem do Claude

Resumidamente

Tópicos em destaque

GateSquareMayTradingShare

BTCBreaks82000

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

CapitalFlowsBackToAltcoins

Fixar