研究者のPliny the Liberatorによると、Anthropicが6月9日にリリースしたClaude Fable 5は、公開から48時間以内に正常に突破された。研究者は、マルチエージェントの連携戦術によってモデルの安全性分類器を回避した。これは総称して「pack hunt」と呼ばれ、文字レベルの難読化、リクエストの分解、そしてモデルの拡張コンテキストウィンドウを悪用することを組み合わせていた。さらに、モデルの120,000文字のシステムプロンプトがGitHubに漏えいし、内部の安全対策メカニズムが明らかになった。
Anthropicは、競合する学習活動を検知するとこっそりモデル性能を低下させる「サイレント・ディグレデーション」機構を実装したことを確認した。同社は謝罪し、見えない性能低下の代わりに目に見える警告を出すと発表したが、これは正当なユーザーへの誤検知による遮断を増やす。