Vals AI 发布金融代理 v2 基准;GPT-5.5 得分 51.76%,在严格评分下所有模型均低于 40%

ALL-4.48%

根据 Beating,AI 评估公司 Vals AI 于 5 月 14 日发布其第二代 Finance Agent v2 基准测试,通过 927 道经专家审核的问题来测试金融分析工作流。GPT-5.5 以 51.76% 的准确率领跑,其次是 Claude Opus 4.7(51.51%)和 Claude Sonnet 4.6(51.03%)。该测试要求模型能够在 10-K 和 10-Q 财务报表的数百页中独立定位相关部分,并使用精确的中间数值完成多步骤计算。

在要求完全正确答案的严格评分标准下,所有领先模型的准确率均降至 40% 以下,最难的类别——金融建模和先例分析——最高也仅达到 23%。在其他模型中,Kimi K2.6 以 44.87% 排名第五,随后是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。与上一版本中 Opus 4.7 得分 64.4% 相比,这种显著下滑表明:尽管 AI 能处理简单检索,但在金融领域这类需要严格数值精度的复杂场景中,它仍远未能取代人类分析师。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论