2026-05-14 09:41:47
Vals AI、Finance Agent v2 のベンチマークを公開。GPT-5.5 は 51.76% を獲得し、すべてのモデルは厳格な採点のもとで 40% 未満にとどまります
Beatingによると、AI評価企業のVals AIは5月14日に第2世代のFinance Agent v2ベンチマークを公開し、927件の専門家レビュー済みの質問を通じて金融分析ワークフローをテストしました。GPT-5.5が51.76%の正確性率で首位となり、続いてClaude Opus 4.7(51.51%)、Claude Sonnet 4.6(51.03%)が僅差で追いました。試験では、モデルに対し、10-Kおよび10-Qの財務諸表が数百ページにわたる中から関連する箇所を独立して特定し、正確な中間の数値を用いて多段階の計算を完了することが求められました。 完全に正しい回答を要求する厳格な採点基準の下では、主要モデルはいずれも正確性率が40%未満に落ち込みました。最も難しいカテゴリである金融モデリングと先例分析では、最高でも23%にとどまりました。その他のモデルでは、Kimi K2.6が44.87%で5位、続いてGLM 5.1(44.79%)、DeepSeek V4(44.08%)でした。前回バージョンでOpus 4.7が64.4%を記録していたのに対し、大きく下落したことは、AI