アンソロピック、Claude「Fable 5」の不可視のセーフガードを、見えるバックアップ(フォールバック)に置き換える

今週、Anthropicは自社のClaude Fable 5モデルにおける「不可視のセーフガード」が「間違ったトレードオフ」だったと認め、今週からそれらをClaude Opus 4.8に対する“見える代替手段”で置き換えると発表した。同社は、新しいMythosクラスの最初のモデルであるClaude Fable 5をローンチした後、319ページに及ぶシステムカードの中に埋め込まれたセーフガードによって、競合するAIモデルを構築していると疑われたユーザーの応答がこっそり劣化させられていたことが批判の的になった。この論争は、AIリサーチ企業SemiAnalysisが2026年6月9日に、自社のGPU推論の研究がフラグ付けされたと公に報告し、Anthropicが2026年6月11日にXで謝罪したことで、燃え上がった。この不可視のセーフガードは、サイバーセキュリティや生物分野の研究についてモデルに既にあった見える保護とは異なり、リクエストが古いOpus 4.8モデルに迂回されたときにユーザーへ通知するものだった。

Anthropic、フラグ付けされたリクエスト向けの“見えるフォールバック”システムを発表

今週から、フラグ付けされたリクエストは、劣化したFableの出力を黙って配信するのではなく、見えてClaude Opus 4.8へルーティングされる。API利用者は、リクエストが拒否された際に明示された理由を受け取る。Anthropicは、サーバー側でのフォールバック通知が今後数日以内に展開されるとした。同社はXに「不可視のセーフガードは、より狭い範囲を対象にできるため、誤検知を非常に少なくして迅速に出荷できる。だからこの理由で不可視のセーフガードを選んだのだが、それは間違ったトレードオフだった。いま私たちが設けているセーフガードと、それがなぜ必要なのかについて、あなたに見えるべきだ。適切なバランスが取れていなかったことをお詫びします」と投稿した。

Claude Fable 5は当初、“無言の応答劣化”を使用していた

LLM開発のセーフガードは、ユーザーが事前学習AIシステムに取り組んでいるとき、分散型の学習インフラを構築しているとき、あるいは機械学習チップを設計しているときに検知した。モデルは、プロンプトの修正、ステアリングベクトル、パラメータの微調整といった手段で、自身の挙動を黙って変え、通知なしにより悪い回答を出すよう誘導していた。ユーザーは応答を受け取るが、自分が支払ったFable 5からのものではなかった。Claude Fable 5には、サイバーセキュリティや生物分野の研究向けの見えるセーフガードも既にあり、リクエストが古いOpus 4.8モデルへ迂回されたときにユーザーに通知していた。分類器の精度問題により、正当な機械学習の作業までフラグ付けされてしまい、その結果が汚染されたことを知る手段のないAI研究者の再現性に問題が生じた。

新しいシステムは、フラグ付けされたリクエストをClaude Opus 4.8へ振り向ける

フラグ付けされたリクエストは今後、サイバーおよびバイオ分野の研究向けの同社セーフガードと同様に、Opus 4.8へ見えてフォールバックされる。こうした通知は、発生するたびにユーザーに表示される。APIでは、フラグ付けされたリクエストは、劣化した答えを黙って返すのではなく、拒否の理由を返す。Anthropicは、生物およびサイバーセキュリティの分類器にも同じ変更を適用している。これらの分類器は、無害な研究プロンプトまでフラグ付けしているとして苦情が出ていた。

Anthropic、見えるセーフガードによる誤検知の増加を認める

Anthropicは、自社が受け入れるトレードオフを直接認めた。セーフガードを見えるようにすると、それを回避されやすくなるため、分類器は効果を維持するにはより広い範囲を対象にする必要がある、というものだ。誤検知が増え、正当な機械学習の作業が捕捉されて迂回されるケースが今後発生するが、同社はシステムを調整していくとした。Anthropicは、誤検知を「できるだけ早く」減らす作業をしていると述べたものの、時期の目安は示さなかった。Fable 5は、6月22日まではPro、Max、Team、Enterpriseの各プランで無料のままだが、その後はAPI利用クレジットのみに切り替わる。

よくある質問(FAQ)

今週、AnthropicはClaude Fable 5のセーフガードについて何を変えたのですか?

Anthropicは今週から、フラグ付けされたリクエストは劣化した出力を黙って配信するのではなく、見えてClaude Opus 4.8へルーティングされると発表した。API利用者は、リクエストが拒否された際に明示された理由を受け取り、サーバー側でのフォールバック通知は今後数日以内に展開される。

なぜAnthropicはClaude Fable 5の当初のセーフガードを謝罪したのですか?

Anthropicは、モデルのLLM開発向けの不可視セーフガードが、ユーザーへの通知なしに応答をこっそり劣化させていたため謝罪した。同社はそれを「間違ったトレードオフ」だと認めている。セーフガードは319ページのシステムカードの中に埋め込まれており、そのせいで、結果が汚染されたことを知る手段のない正当なAI研究者に再現性の問題が生じた。

Claude Fable 5の無料アクセスはいつまでですか?

Fable 5は、6月22日まではPro、Max、Team、Enterpriseの各プランで無料のままだが、その後はAPI利用クレジットのみに切り替わる。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし