
Anthropic は 6 月 9 日に正式リリースされた Claude Fable 5 について、公衆に開放された最初の Mythos レベルのモデルであるとし、AI 分類器主導の蒸留検知メカニズムを統合した。システムが蒸留の試みなど 3 種類の高リスク要求を識別すると、会話を自動的に Opus 4.8 の応答へ降格する。Anthropic は、この仕組みが平均して 5% 未満の会話セッションに影響することを確認している。
蒸留検知の仕様:3 種類のトリガー条件と自動降格メカニズム
Anthropic の公式発表によると、Claude Fable 5 の AI 分類器のトリガー条件は次のとおり。
· サイバー攻撃の要求
· 生物または化学兵器に関連する要求
· モデルの蒸留の試み(prompt の書き換え、steering vectors、PEFT パラメータによる効率的な微調整といった抽出手法を含む)
トリガー後、システムは会話を自動的に Claude Opus 4.8 の応答へ降格し、使用者に通知する。Anthropic は、攻撃的なサイバーセキュリティ業務に対する遮断の成功率が 100% であること、また全体としてのメカニズムの影響が 5% 未満の会話セッションにとどまることを確認した。
2026 年 2 月に出された告発の確認された数値
Anthropic の公式確認によると、2026 年 2 月の告発の対象は DeepSeek、Moonshot AI、MiniMax であり、約 2.4 万の偽アカウントを通じて 1,600 万回超の照会が行われ、Claude の出力が体系的に抽出されて自社モデルの訓練に使用された。
機械学習研究者 Nathan Lambert(外部の独立研究者であり、Anthropic の公式関係者ではない)が事後に分解した照会量の数値は次のとおりである。DeepSeek は約 15 万回(推論および報酬モデル向け)、Moonshot AI は約 340 万回、MiniMax は約 1,300 万回。後者 2 者の合計に対応する後訓練データ量は約 1,500 から 4,000 億 token。Lambert の数値は同氏の独立分析であり、Anthropic の公式データではない。
メカニズムの既知の制約:合法と無許可の蒸留の境界が曖昧
Anthropic は、「合法的な蒸留」(許可を得たうえで Claude の出力を使用する場合)と「無許可の蒸留」は技術的な操作レベルではほぼ同じで、境界の定義には曖昧な領域があることを確認している。Nathan Lambert は外部分析の中で「蒸留を封じることは、GPU のような実体商品の出荷を制限するよりもはるかに難しい」と述べている。
Lambert は同時に、Anthropic が依然として API を販売している限り、蒸留チャネルを完全に閉鎖することはできないと指摘している。中国の実験室では GPU が制限された環境であっても、強化学習(RL)の基盤は引き続き整っており、Meta や Google のオープンソースモデル、ならびに自前の合成データ生成パイプラインに依存することができる。以上の評価は Lambert の外部による独立分析であり、Anthropic の立場ではない。
よくある質問
Claude Fable 5 の蒸留検知は、これまでの利用規約における反蒸留条項と何が違う?
これまでの Anthropic の反蒸留の要求は、主に利用規約(Terms of Service)における法的な拘束に依拠していた。Claude Fable 5 の対応は、モデル本体に AI 分類器を統合し、技術面で検知した蒸留の試みを直接ブロックして自動的に降格するものであり、法律手続きが介入するのを待つ必要はない。
モデル蒸留とは何で、合法と無許可の蒸留が技術的に正確に線引きしにくいのはなぜ?
モデル蒸留(Knowledge Distillation)とは、大規模モデルの出力を用いて小規模モデルを訓練し、後者が前者の能力を学習することを指す。合法的な蒸留(許可を得たうえで出力を使用すること)と無許可の蒸留(体系的に大量の照会を行い訓練データを抽出すること)は、技術的な操作方式がほぼ同じであるため、AI 分類器による自動分類には判断の難しさが生じる。
この仕組みは DeepSeek などの中国の AI 実験室の訓練の進捗に、これまでに判明しているどんな影響がある?
Anthropic は、この仕組みが具体的な実験室に与える定量的な影響データを公表していない。外部研究者 Nathan Lambert の分析によれば、中国の実験室は Meta と Google のオープンソースモデル、自前の強化学習基盤、合成データ生成のパイプラインを備えているため、蒸留の防護は妨げではあっても根本的な障害ではないという。Lambert の評価は外部による独立分析であり、Anthropic の公式立場ではない。