UCバークレー校のALE試験で「Fable 5」は最難関タスクすべてに失敗し、ライバルより4〜12倍高くつく

UCバークレーRDIによると、今週公開された最新のエージェント最終試験(ALE)の評価結果では、持続的な推論と深い専門性を要する最難関タスクにおいて、検証済みのすべてのAIエージェント(新たにリリースされたFable 5を含む)で成功率が0%であることが示された。タスクごとのAPIコストでは、Fable 5は15.70ドルで、GPT-5.5の3.80ドルの4倍、Composer 2.5の1.33ドルの12倍だった。評価は、55のプロ領域にまたがり、1,500件超の専門家による検証済みタスクを対象に実施され、エージェントは最も頻繁に、結果を検証せずに早々に成功を宣言してしまうことで失敗していることが分かった。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし