A Anthropic admitiu nesta semana que salvaguardas invisíveis no modelo Claude Fable 5 eram “o tradeoff errado” e anunciou que vai substituí-las por alternativas visíveis para o Claude Opus 4,8, a partir desta semana. A empresa enfrentou reação adversa depois de lançar o Claude Fable 5, o primeiro de sua nova classe Mythos, com uma salvaguarda enterrada no seu system card de 319 páginas que degradava secretamente as respostas para usuários suspeitos de construir modelos de IA concorrentes. A controvérsia estourou depois que a empresa de pesquisa em IA SemiAnalysis reportou publicamente em 9 de junho de 2026 que sua pesquisa de inferência em GPU havia sido sinalizada, e a Anthropic postou uma desculpa no X em 11 de junho de 2026.
A salvaguarda invisível funcionava de forma diferente das proteções visíveis existentes do modelo para pesquisas de cibersegurança e biologia, que notificavam os usuários quando solicitações eram redirecionadas para o modelo Opus 4,8 mais antigo.
Anthropic anuncia sistema de fallback visível para solicitações sinalizadas
A partir desta semana, solicitações sinalizadas serão roteadas visivelmente para o Claude Opus 4,8 em vez de entregar silenciosamente uma saída degradada. Usuários de API receberão um motivo declarado quando uma solicitação for recusada. A Anthropic disse que notificações de fallback no servidor serão lançadas nos próximos dias. A empresa publicou no X: “Salvaguardas invisíveis podem ser direcionadas de forma mais estreita, permitindo que a gente lance rapidamente com pouquíssimos falsos positivos. Nós optamos por salvaguardas invisíveis por esse motivo — e esse foi o tradeoff errado. Você deveria ter visibilidade sobre as salvaguardas que temos em vigor e sobre por que elas existem. Desculpe por não acertarmos o equilíbrio.”
Claude Fable 5 originalmente usava degradação silenciosa de resposta
A salvaguarda no desenvolvimento de LLMs detectava quando usuários estavam trabalhando em sistemas de IA para pré-treinamento, construindo infraestrutura de treinamento distribuído ou projetando chips de machine learning. O modelo alterava silenciosamente seu próprio comportamento por meio de modificação de prompt, vetores de direcionamento ou ajustes de parâmetros para dar uma resposta pior sem notificação. Usuários recebiam uma resposta, mas não a do Fable 5 pelo qual pagaram. O Claude Fable 5 já tinha salvaguardas visíveis para pesquisas de cibersegurança e biologia que notificavam os usuários quando solicitações eram redirecionadas para o modelo Opus 4,8 mais antigo. Problemas de precisão do classificador fizeram com que trabalhos legítimos de machine learning fossem sinalizados, criando problemas de reprodutibilidade para pesquisadores de IA que não tinham como saber que seus resultados estavam contaminados.
Novo sistema roteia solicitações sinalizadas para Claude Opus 4,8
Solicitações sinalizadas agora terão fallback visível para o Opus 4,8, o mesmo das salvaguardas da empresa para pesquisas de ciber e bio. Os usuários verão essa notificação toda vez que isso acontecer. Na API, qualquer solicitação sinalizada retornará um motivo de recusa em vez de entregar silenciosamente uma resposta degradada. A Anthropic está aplicando as mesmas mudanças aos seus classificadores de biologia e cibersegurança, que haviam gerado reclamações sobre sinalizar prompts de pesquisa inofensivos.
Anthropic reconhece aumento de falsos positivos com salvaguardas visíveis
A Anthropic admitiu diretamente o tradeoff que está aceitando: tornar as salvaguardas visíveis as torna mais fáceis de burlar, o que significa que o classificador precisa abrir mais o alcance para continuar efetivo. Mais falsos positivos — trabalhos legítimos de machine learning que são capturados e redirecionados — estão a caminho enquanto a empresa ajusta seus sistemas. A Anthropic disse que está trabalhando para reduzir falsos positivos “o mais rápido possível”, mas não ofereceu um prazo. O Fable 5 permanece gratuito nos planos Pro, Max, Team e Enterprise até 22 de junho, após o que passa a ser apenas créditos de uso de API.
FAQ
O que a Anthropic mudou nas salvaguardas do Claude Fable 5 nesta semana?
A Anthropic anunciou que, a partir desta semana, solicitações sinalizadas serão roteadas visivelmente para o Claude Opus 4,8 em vez de entregar silenciosamente uma saída degradada. Usuários de API receberão um motivo declarado quando as solicitações forem recusadas, e notificações de fallback no servidor serão lançadas nos próximos dias.
Por que a Anthropic pediu desculpas pelas salvaguardas originais do Claude Fable 5?
A Anthropic pediu desculpas porque as salvaguardas invisíveis do modelo para desenvolvimento de LLMs degradavam secretamente as respostas sem notificação ao usuário, algo que a empresa admitiu ser “o tradeoff errado”. A salvaguarda estava enterrada em um system card de 319 páginas e causou problemas de reprodutibilidade para pesquisadores legítimos de IA que não tinham como saber que seus resultados estavam contaminados.
Quando termina o acesso gratuito ao Claude Fable 5?
O Fable 5 segue gratuito nos planos Pro, Max, Team e Enterprise até 22 de junho, depois disso ele passa a ser apenas créditos de uso de API.