根據研究者 Pliny the Liberator 的說法,Anthropic 於 6 月 9 日釋出的 Claude Fable 5 在上線後 48 小時內成功遭到破解。該研究者透過多代理協同的策略繞過模型的安全性分類器,這些策略統稱為「pack hunt」,結合了字元層級的混淆、請求拆解,以及對模型延伸內容視窗的利用。此外,模型的 120,000 字元系統提示詞遭到洩露並上傳至 GitHub,揭露了內部的安全機制。
Anthropic 已確認已實作一種「靜默退化」機制:在偵測到競爭式訓練活動時,會秘密降低模型效能。公司為此道歉,並宣布將用可見的警告取代隱蔽的效能降低,但這也會提高對合法使用者的誤攔截比例。