
A Anthropic anunciou oficialmente, em 9 de junho, o lançamento do Claude Fable 5, o primeiro modelo da categoria Mythos aberto ao público, que integra um mecanismo de detecção de destilação impulsionado por classificadores de IA. Quando o sistema identifica tentativas de destilação e outras três categorias de solicitações de alto risco, ele rebaixa automaticamente o diálogo para respostas do Opus 4.8. A Anthropic confirmou que esse mecanismo afeta, em média, menos de 5% das sessões de conversa.
Especificações da detecção de destilação: três condições de acionamento e mecanismo de rebaixamento automático
De acordo com o comunicado oficial da Anthropic, as condições de acionamento do classificador de IA do Claude Fable 5 são as seguintes:
· Solicitações relacionadas a ataques de segurança na rede
· Solicitações relacionadas a armas biológicas ou químicas
· Tentativas de destilação do modelo (incluindo técnicas de extração como reescrita de prompt, steering vectors e ajuste fino eficiente via parâmetros de PEFT)
Após o acionamento, o sistema rebaixa automaticamente a conversa para respostas do Claude Opus 4.8 e notifica o usuário. A Anthropic confirmou que a taxa de sucesso do bloqueio para tarefas agressivas de segurança na rede é de 100%; no geral, o impacto do mecanismo é menor que 5% das sessões de conversa.
Números de confirmação sobre as acusações de fevereiro de 2026
A Anthropic confirmou oficialmente que os alvos das acusações de fevereiro de 2026 são DeepSeek, Moonshot AI e MiniMax. Eles teriam realizado mais de 16.000.000 de consultas por meio de cerca de 24.000 contas falsas, com extração sistemática das saídas do Claude para treinar seus próprios modelos.
Os números de volume de consultas decompostos posteriormente pelo pesquisador em aprendizado de máquina Nathan Lambert (pesquisador independente externo, não afiliado à Anthropic) são: cerca de 150.000 consultas para a DeepSeek (para modelos de inferência e de recompensa), cerca de 3,4 milhões de consultas para a Moonshot AI e cerca de 13 milhões de consultas para a MiniMax. As duas últimas, somadas, corresponderiam a um volume de dados pós-treinamento de aproximadamente 150 a 400 bilhões de tokens. Os números de Lambert são provenientes de sua análise independente e não são dados oficiais da Anthropic.
Limitações conhecidas do mecanismo: limites pouco claros entre destilação legítima e não autorizada
A Anthropic confirmou que a “destilação legítima” (de acordo com o uso autorizado das saídas do Claude) e a “destilação não autorizada” são quase idênticas em termos de operação técnica, havendo uma zona cinzenta na definição dos limites. Nathan Lambert disse, em sua análise externa: “Bloquear a destilação seria muito mais difícil do que restringir o envio de mercadorias físicas, como GPUs.”
Lambert também apontou que, enquanto a Anthropic continuar vendendo a API, o canal de destilação não poderá ser totalmente fechado. Mesmo em ambientes com GPUs limitadas, laboratórios na China mantêm uma infraestrutura robusta de aprendizado por reforço (RL), podendo ainda contar com modelos de código aberto da Meta e do Google e seus próprios pipelines de geração de dados sintéticos. As avaliações acima são de análises independentes externas de Lambert, não da posição da Anthropic.
Perguntas frequentes
Qual a diferença entre a detecção de destilação do Claude Fable 5 e a cláusula anti-destilação das condições anteriores de uso?
As exigências anti-destilação anteriores da Anthropic apareciam principalmente nos Termos de Serviço, baseando-se em restrições legais. O Claude Fable 5 integra classificadores no próprio modelo, interceptando tentativas de destilação identificadas diretamente no nível técnico e rebaixando automaticamente, sem precisar esperar que processos legais entrem em ação.
O que é destilação de modelo e por que é difícil definir com precisão, em nível técnico, a diferença entre destilação legítima e não autorizada?
Destilação de modelo (Knowledge Distillation) é o processo de usar as saídas de um modelo grande para treinar um modelo menor, fazendo com que ele aprenda as capacidades do primeiro. Destilação legítima (uso autorizado de saídas) e destilação não autorizada (consultas sistemáticas em grande escala para extração de dados de treino) são quase idênticas no modo de operação técnica, o que torna a classificação automática do classificador de IA uma tarefa com alto grau de julgamento.
Quais impactos conhecidos essa estrutura tem no processo de treinamento de laboratórios de IA chineses como o DeepSeek?
A Anthropic não divulgou dados quantitativos específicos sobre o impacto desse mecanismo em laboratórios concretos. A análise de pesquisadores externos, como Nathan Lambert, aponta que os laboratórios chineses têm modelos de código aberto da Meta e do Google, uma infraestrutura própria de aprendizado por reforço e pipelines de geração de dados sintéticos; a proteção contra destilação é uma interferência, e não um obstáculo fundamental. A avaliação de Lambert é uma análise independente externa, não uma posição oficial da Anthropic.