
Anthropic a publié officiellement le 9 juin Claude Fable 5, le premier modèle de niveau Mythos accessible au public, intégrant un mécanisme de détection de distillation piloté par un classificateur d'IA. Lorsque le système identifie l'une des trois catégories de demandes à haut risque, il dégrade automatiquement la conversation vers Opus 4.8 pour répondre. Anthropic confirme que ce mécanisme affecte en moyenne moins de 5% des conversations lors des sessions.
Spécifications de détection de la distillation : trois conditions de déclenchement et mécanisme de dégradation automatique
D'après la déclaration officielle d'Anthropic, les conditions de déclenchement du classificateur d'IA de Claude Fable 5 sont les suivantes :
· Demandes liées à des attaques de cybersécurité
· Demandes liées à des armes biologiques ou chimiques
· Tentatives de distillation du modèle (y compris des méthodes d'extraction telles que la réécriture des invites, les steering vectors et le fine-tuning efficace des paramètres via PEFT)
Une fois déclenché, le système dégrade automatiquement la conversation vers une réponse de Claude Opus 4.8 et informe l'utilisateur. Anthropic confirme que le taux de réussite des interceptions visant des tâches de cybersécurité offensives est de 100% ; et que l'impact global du mécanisme est inférieur à 5% des sessions de conversation.
Chiffres confirmés concernant les accusations de février 2026
Anthropic confirme officiellement que les personnes/entités visées par les accusations de février 2026 sont DeepSeek, Moonshot AI et MiniMax. Elles auraient déclenché plus de 16 000 000 de requêtes via environ 24 000 comptes falsifiés, en extrayant systématiquement les sorties de Claude pour entraîner leurs propres modèles.
Les chiffres de volume de requêtes décomposés a posteriori par le chercheur en apprentissage automatique Nathan Lambert (chercheur indépendant externe, non affilié à Anthropic) sont les suivants : DeepSeek environ 1 500 00 requêtes (pour les modèles d'inférence et de récompense), Moonshot AI environ 3 400 000 requêtes, MiniMax environ 13 000 000 requêtes ; et, pour les deux dernières, un volume de données de post-entraînement correspondant d'environ 1 500 à 4 000 milliards de tokens. Les chiffres de Lambert correspondent à son analyse indépendante et ne sont pas des données officielles d'Anthropic.
Limites connues du mécanisme : frontières floues entre distillation légale et distillation non autorisée
Anthropic confirme que « distillation légale » (conformément à l'utilisation autorisée des sorties de Claude) et « distillation non autorisée » sont presque identiques au niveau des opérations techniques, avec une zone grise pour définir la frontière. Nathan Lambert indique, dans son analyse externe : « bloquer la distillation est bien plus difficile que limiter l'expédition de biens physiques comme des GPU. »
Lambert souligne également que tant qu'Anthropic continue de vendre une API, les canaux de distillation ne peuvent pas être totalement fermés. Même dans des environnements où les GPU sont limités, des laboratoires en Chine disposent d'une infrastructure d'apprentissage par renforcement (RL) suffisamment développée, permettant de s'appuyer sur les modèles open source de Meta et de Google ainsi que sur leurs propres pipelines de génération de données synthétiques. L'évaluation ci-dessus relève de l'analyse indépendante de Lambert, et ne reflète pas la position d'Anthropic.
Questions fréquentes
En quoi la détection de la distillation de Claude Fable 5 diffère-t-elle des clauses anti-distillation des conditions d'utilisation précédentes ?
Les exigences anti-distillation d'Anthropic précédemment étaient principalement présentes dans les conditions d'utilisation (Terms of Service), reposant sur des contraintes d'ordre juridique. La démarche de Claude Fable 5 consiste à intégrer un classificateur directement dans le cœur du modèle : au niveau technique, le système intercepte les tentatives de distillation détectées et dégrade automatiquement, sans attendre qu'une procédure juridique intervienne.
Qu'est-ce que la distillation de modèle, et pourquoi la distillation légale et non autorisée est-elle difficile à définir avec précision au niveau technique ?
La distillation de modèle (Knowledge Distillation) consiste à utiliser les sorties d'un grand modèle pour entraîner un modèle plus petit, afin que ce dernier apprenne les capacités du premier. La distillation légale (utilisation autorisée des sorties) et la distillation non autorisée (requêtes systématiques en grand volume pour extraire des données d'entraînement) se ressemblent presque sur le plan des modalités d'exploitation techniques, ce qui rend plus difficile la classification automatique par le classificateur d'IA.
Quels effets connus ce mécanisme a-t-il sur les progrès d'entraînement de laboratoires d'IA chinois comme DeepSeek ?
Anthropic n'a pas publié de données quantitatives précises sur l'impact de ce mécanisme sur des laboratoires spécifiques. Dans son analyse, le chercheur externe Nathan Lambert indique que les laboratoires chinois disposent de modèles open source de Meta et de Google, d'une infrastructure d'apprentissage par renforcement propre et de pipelines de génération de données synthétiques ; la protection contre la distillation constitue alors une perturbation plutôt qu'un obstacle fondamental. L'évaluation de Lambert relève d'une analyse indépendante externe et non de la position officielle d'Anthropic.