De acordo com a Beating, a empresa de avaliação de IA Vals AI lançou a sua segunda geração do benchmark do Finance Agent v2 a 14 de maio, testando fluxos de trabalho de análise financeira através de 927 perguntas revistas por especialistas. O GPT-5.5 liderou a classificação com uma taxa de acerto de 51,76%, seguido de perto pelo Claude Opus 4.7 (51,51%) e pelo Claude Sonnet 4.6 (51,03%). O teste exigia que os modelos localizassem de forma independente secções relevantes em centenas de páginas de declarações financeiras 10-K e 10-Q e completassem cálculos multi-etapa com valores intermédios precisos.
Sob padrões de avaliação rigorosos que exigem respostas totalmente corretas, as taxas de acerto dos principais modelos desceram abaixo dos 40%, com as categorias mais difíceis — modelação financeira e análise de precedentes — a atingirem apenas 23% no melhor cenário. Entre outros modelos, o Kimi K2.6 ficou em quinto lugar com 44,87%, seguido pelo GLM 5.1 (44,79%) e pelo DeepSeek V4 (44,08%). Em comparação com a versão anterior, em que o Opus 4.7 tinha obtido 64,4%, a quebra acentuada mostra que, embora a IA consiga lidar com pesquisas simples, continua muito longe de substituir analistas humanos no domínio complexo das finanças, que exige precisão numérica rigorosa.
Related News
Especialistas afirmam que as provas Zk dão às DePINs uma vantagem à medida que aumenta a procura de confiança na IA
A Fidelity apoia publicamente o projeto de lei CLARITY, afirmando que oferece uma abordagem regulatória equilibrada
A Mistral AI está em negociações com bancos europeus para desenvolver o Mythos, um modelo alternativo de cibersegurança