Vals AI、Finance Agent v2 のベンチマークを公開。GPT-5.5 は 51.76% を獲得し、すべてのモデルは厳格な採点のもとで 40% 未満にとどまります

ALL-4.48%

Beatingによると、AI評価企業のVals AIは5月14日に第2世代のFinance Agent v2ベンチマークを公開し、927件の専門家レビュー済みの質問を通じて金融分析ワークフローをテストしました。GPT-5.5が51.76%の正確性率で首位となり、続いてClaude Opus 4.7(51.51%)、Claude Sonnet 4.6(51.03%)が僅差で追いました。試験では、モデルに対し、10-Kおよび10-Qの財務諸表が数百ページにわたる中から関連する箇所を独立して特定し、正確な中間の数値を用いて多段階の計算を完了することが求められました。

完全に正しい回答を要求する厳格な採点基準の下では、主要モデルはいずれも正確性率が40%未満に落ち込みました。最も難しいカテゴリである金融モデリングと先例分析では、最高でも23%にとどまりました。その他のモデルでは、Kimi K2.6が44.87%で5位、続いてGLM 5.1(44.79%)、DeepSeek V4(44.08%)でした。前回バージョンでOpus 4.7が64.4%を記録していたのに対し、大きく下落したことは、AIが単純な検索は扱える一方で、厳密な数値精度を要する金融という複雑な領域で人間のアナリストの代替になるには程遠いことを示しています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし