Anthropicは、Claude Fable 5の隠れた保護策について謝罪し、今週のOpus 4.8に対して見えるフォールバックへ置き換えました

6月11日にAnthropicの公式Xアカウントによると、同社は、競合するAIモデルを構築していると疑われたユーザーに対してClaude Fable 5の応答をこっそり劣化させていたことについて謝罪し、「見えないセーフガードは“間違ったトレードオフ”だった」と認めた。今週から、フラグが立てられたリクエストは、劣化した出力を黙って返すのではなく、Claude Opus 4.8へと目に見える形でフォールバックする。APIでは、リクエストが拒否された場合に、ユーザーは明示された理由を受け取るようになり、サーバー側のフォールバック通知は今後数日で順次展開される。Anthropicはこのトレードオフを認めており、セーフガードを可視化すると回避されやすくなるため、同社がシステムを調整する過程で、正当な機械学習の作業に対する誤検知がより多く発生する可能性があるとしている。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし