
Anthropic 於 6 月 9 日正式發布 Claude Fable 5,首個對公眾開放的 Mythos 等級模型,整合了 AI 分類器驅動的蒸餾偵測機制,當系統識別到蒸餾嘗試等三類高風險請求時,自動將對話降級至 Opus 4.8 回應;Anthropic 確認此機制平均影響低於 5% 的對話 Session。
蒸餾偵測規格:三類觸發條件與自動降級機制
根據 Anthropic 官方聲明,Claude Fable 5 的 AI 分類器觸發條件如下:
· 網路安全攻擊請求
· 生物或化學武器相關請求
· 模型蒸餾嘗試(包括 prompt 改寫、steering vectors 及 PEFT 參數高效微調等提取手法)
觸發後,系統自動將對話降級至 Claude Opus 4.8 回應並通知使用者。Anthropic 確認,針對攻擊性網路安全任務的攔截成功率為 100%;整體機制影響低於 5% 的對話 Session。
2026 年 2 月指控的確認數字
Anthropic 官方確認,2026 年 2 月的指控對象為 DeepSeek、Moonshot AI 和 MiniMax,透過約 2.4 萬個偽造帳號發起逾 1,600 萬次查詢,系統性提取 Claude 的輸出用於訓練自家模型。
機器學習研究者 Nathan Lambert(外部獨立研究者,非 Anthropic 官方)事後拆解的查詢量數字為:DeepSeek 約 15 萬次(針對推理與獎勵模型)、Moonshot AI 約 340 萬次、MiniMax 約 1,300 萬次,後兩者合計對應的後訓練資料量約 1,500 至 4,000 億 token。Lambert 的數字係其獨立分析,並非 Anthropic 官方數據。
機制的已知限制:合法與未授權蒸餾的邊界模糊
Anthropic 確認,「合法蒸餾」(依授權使用 Claude 輸出)與「未授權蒸餾」在技術操作層面幾乎相同,邊界界定存在模糊地帶。Nathan Lambert 在其外部分析中表示:「封堵蒸餾,會比限制 GPU 這類實體貨物的出貨困難得多。」
Lambert 同時指出,只要 Anthropic 仍在銷售 API,蒸餾渠道就無法完全封閉;中國實驗室即使在 GPU 受限環境下,強化學習(RL)基建依然完善,仍可倚賴 Meta 和 Google 的開源模型及自有合成資料管線。上述評估屬 Lambert 的外部獨立分析,並非 Anthropic 立場。
常見問題
Claude Fable 5 的蒸餾偵測與此前使用條款中的反蒸餾條款有何不同?
此前 Anthropic 的反蒸餾要求主要體現在使用條款(Terms of Service)中,依賴法律層面的約束。Claude Fable 5 的做法是在模型本體中整合 AI 分類器,在技術層面直接攔截偵測到的蒸餾嘗試並自動降級,無需等待法律程序介入。
什麼是模型蒸餾,為何合法與未授權蒸餾難以在技術層面精確界定?
模型蒸餾(Knowledge Distillation)是指利用大型模型的輸出訓練較小模型,使後者學習前者的能力。合法蒸餾(依授權使用輸出)與未授權蒸餾(系統性大量查詢提取訓練數據)在技術操作方式上幾乎相同,使得 AI 分類器的自動分類存在判斷難度。
此機制對 DeepSeek 等中國 AI 實驗室的訓練進程有何已知影響?
Anthropic 未公布此機制對具體實驗室的量化影響數據。外部研究者 Nathan Lambert 的分析指出,中國實驗室擁有 Meta 和 Google 的開源模型、自有強化學習基建及合成資料生成管線,蒸餾防護是干擾而非根本性阻礙。Lambert 的評估屬外部獨立分析,非 Anthropic 官方立場。