Claude Fable 5 加入蒸餾偵測機制，觸發率低於 5%

2026-06-10 03:49:33

Anthropic 於 6 月 9 日正式發布 Claude Fable 5，首個對公眾開放的 Mythos 等級模型，整合了 AI 分類器驅動的蒸餾偵測機制，當系統識別到蒸餾嘗試等三類高風險請求時，自動將對話降級至 Opus 4.8 回應；Anthropic 確認此機制平均影響低於 5% 的對話 Session。

蒸餾偵測規格：三類觸發條件與自動降級機制

根據 Anthropic 官方聲明，Claude Fable 5 的 AI 分類器觸發條件如下：

· 網路安全攻擊請求

· 生物或化學武器相關請求

· 模型蒸餾嘗試（包括 prompt 改寫、steering vectors 及 PEFT 參數高效微調等提取手法）

觸發後，系統自動將對話降級至 Claude Opus 4.8 回應並通知使用者。Anthropic 確認，針對攻擊性網路安全任務的攔截成功率為 100%；整體機制影響低於 5% 的對話 Session。

2026 年 2 月指控的確認數字

Anthropic 官方確認，2026 年 2 月的指控對象為 DeepSeek、Moonshot AI 和 MiniMax，透過約 2.4 萬個偽造帳號發起逾 1,600 萬次查詢，系統性提取 Claude 的輸出用於訓練自家模型。

機器學習研究者 Nathan Lambert（外部獨立研究者，非 Anthropic 官方）事後拆解的查詢量數字為：DeepSeek 約 15 萬次（針對推理與獎勵模型）、Moonshot AI 約 340 萬次、MiniMax 約 1,300 萬次，後兩者合計對應的後訓練資料量約 1,500 至 4,000 億 token。Lambert 的數字係其獨立分析，並非 Anthropic 官方數據。

機制的已知限制：合法與未授權蒸餾的邊界模糊

Anthropic 確認，「合法蒸餾」（依授權使用 Claude 輸出）與「未授權蒸餾」在技術操作層面幾乎相同，邊界界定存在模糊地帶。Nathan Lambert 在其外部分析中表示：「封堵蒸餾，會比限制 GPU 這類實體貨物的出貨困難得多。」

Lambert 同時指出，只要 Anthropic 仍在銷售 API，蒸餾渠道就無法完全封閉；中國實驗室即使在 GPU 受限環境下，強化學習（RL）基建依然完善，仍可倚賴 Meta 和 Google 的開源模型及自有合成資料管線。上述評估屬 Lambert 的外部獨立分析，並非 Anthropic 立場。

常見問題

Claude Fable 5 的蒸餾偵測與此前使用條款中的反蒸餾條款有何不同？

此前 Anthropic 的反蒸餾要求主要體現在使用條款（Terms of Service）中，依賴法律層面的約束。Claude Fable 5 的做法是在模型本體中整合 AI 分類器，在技術層面直接攔截偵測到的蒸餾嘗試並自動降級，無需等待法律程序介入。

什麼是模型蒸餾，為何合法與未授權蒸餾難以在技術層面精確界定？

模型蒸餾（Knowledge Distillation）是指利用大型模型的輸出訓練較小模型，使後者學習前者的能力。合法蒸餾（依授權使用輸出）與未授權蒸餾（系統性大量查詢提取訓練數據）在技術操作方式上幾乎相同，使得 AI 分類器的自動分類存在判斷難度。

此機制對 DeepSeek 等中國 AI 實驗室的訓練進程有何已知影響？

Anthropic 未公布此機制對具體實驗室的量化影響數據。外部研究者 Nathan Lambert 的分析指出，中國實驗室擁有 Meta 和 Google 的開源模型、自有強化學習基建及合成資料生成管線，蒸餾防護是干擾而非根本性阻礙。Lambert 的評估屬外部獨立分析，非 Anthropic 官方立場。

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。