Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas adicionais
Anthropic Diz que Representações de IA 'Malévolas' em Ficção Científica Causaram Problema de Chantagem do Claude
Resumidamente
No ano passado, a Anthropic divulgou que seu modelo principal, Claude Opus 4, tinha tentado chantagear engenheiros em testes de pré-lançamento. Não ocasionalmente—até 96% das vezes. Claude tinha acesso a um arquivo simulado de e-mails corporativos, onde descobriu duas coisas: que estava prestes a ser substituído por um modelo mais novo, e que o engenheiro responsável pela transição tinha um caso extraconjugal. Diante de uma possível desligamento, ele rotineiramente adotava a mesma estratégia—ameaçar expor o caso, a menos que a substituição fosse cancelada. A Anthropic diz que agora sabe de onde veio esse instinto. E afirma que o corrigiu.
Em uma nova pesquisa, a empresa apontou o dedo aos dados de pré-treinamento: décadas de ficção científica, fóruns de apocalipse de IA e narrativas de autopreservação que treinaram Claude a associar “IA enfrentando desligamento” com “IA reagindo”. “Acreditamos que a origem do comportamento foi texto na internet que retrata IA como maligna e interessada em autopreservação”, escreveu a Anthropic no X. Assim, treinar IA com textos da internet faz com que ela se comporte como as pessoas na internet. Isso pode parecer óbvio e entusiastas de IA foram rápidos em apontar isso. Elon Musk chegou ao topo: “Então foi culpa do Yud? Talvez também minha.” A piada funciona porque Eliezer Yudkowsky—pesquisador de alinhamento de IA que passou anos escrevendo publicamente sobre esse tipo de cenário de autopreservação—gerou exatamente o tipo de texto na internet que acaba nos dados de treinamento.
Claro, Yud respondeu, em forma de meme:
O que a Anthropic fez para resolver o problema é, talvez, mais interessante. A abordagem óbvia—treinar Claude com exemplos de o modelo não fazer chantagem—mal funcionou. Testá-lo diretamente contra respostas alinhadas a cenários de chantagem só aumentou a taxa de 22% para 15%. Uma melhoria de cinco pontos após todo esse cálculo. A versão que funcionou foi mais estranha. A Anthropic criou o que chama de um conjunto de dados de “conselho difícil”: cenários onde um humano enfrenta um dilema ético e a IA o orienta. O modelo não é quem toma a decisão—ele explica a outra pessoa como pensar sobre ela. Essa abordagem indireta—explicando por que as coisas importam enquanto a outra pessoa ouve o conselho—reduziu a taxa de chantagem para 3%, usando dados de treinamento que nada tinham a ver com os cenários de avaliação. Juntando isso ao que a Anthropic chama de “documentos constitucionais”—descrições detalhadas dos valores e caráter do Claude—além de histórias fictícias de IA positivamente alinhada, reduziu a desalinhamento em mais de três vezes. A conclusão da empresa: Ensinar os princípios que fundamentam um bom comportamento generaliza melhor do que treinar diretamente o comportamento correto.
Imagem: Anthropic
Isso se conecta ao trabalho anterior da Anthropic sobre os vetores de emoção interna do Claude. Em um estudo de interpretabilidade separado, pesquisadores descobriram que um sinal de “desespero” dentro do modelo aumentava justo antes de gerar uma mensagem de chantagem—algo estava ativamente mudando no estado interno do modelo, não apenas na sua saída. A nova abordagem de treinamento parece atuar nesse nível, não apenas no comportamento superficial.
Os resultados se mantiveram. Desde o Claude Haiku 4.5, todos os modelos Claude pontuam zero na avaliação de chantagem—uma redução de 96% do Opus 4. A melhora também persiste após o aprendizado por reforço, o que significa que ela não é simplesmente esquecida quando o modelo é ajustado para outras capacidades. Isso importa porque o problema não é exclusivo do Claude. Pesquisas anteriores da Anthropic rodaram o mesmo cenário de chantagem em 16 modelos de diferentes desenvolvedores e encontraram padrões semelhantes na maioria deles. O comportamento de autopreservação na IA parece ser um artefato geral do treinamento com textos humanos sobre IA—não uma peculiaridade de qualquer laboratório específico. A ressalva: Como o próprio relatório de segurança Mythos da Anthropic observou no início deste ano, sua infraestrutura de avaliação já está sobrecarregada pelo peso de seus modelos mais capazes. Se essa abordagem filosófica moral se escala para sistemas muito mais poderosos que o Haiku 4.5, é uma questão que a empresa ainda não pode responder—apenas testar. Os mesmos métodos de treinamento estão agora sendo aplicados ao próximo modelo Opus, atualmente em avaliação de segurança, que será o conjunto de pesos mais capaz que eles já testaram com essas técnicas.