A Beating, a empresa de avaliação de IA Vals AI divulgou seu benchmark de agente financeiro de segunda geração, o Finance Agent v2, em 14 de maio, testando fluxos de análise financeira por meio de 927 perguntas revisadas por especialistas. O GPT-5.5 liderou o ranking com uma taxa de acerto de 51,76%, seguido de perto por Claude Opus 4.7 (51,51%) e Claude Sonnet 4.6 (51,03%). O teste exigiu que os modelos localizassem de forma independente seções relevantes em centenas de páginas de demonstrações financeiras 10-K e 10-Q e concluíssem cálculos de várias etapas com números intermediários precisos.
Sob padrões rigorosos de avaliação que exigem respostas totalmente corretas, as taxas de acerto de todos os modelos líderes ficaram abaixo de 40%, e as categorias mais difíceis — modelagem financeira e análise de precedentes — chegaram a apenas 23%, no máximo. Entre outros modelos, Kimi K2.6 ficou em quinto lugar com 44,87%, seguido por GLM 5.1 (44,79%) e DeepSeek V4 (44,08%). Em comparação com a versão anterior, em que Opus 4.7 obteve 64,4%, a queda significativa destaca que, embora a IA lide com recuperação simples, ela ainda está muito longe de substituir analistas humanos no domínio complexo das finanças que exige precisão numérica rigorosa.
Related News
Especialistas dizem que provas zk dão uma vantagem aos DePINs à medida que a confiança da IA aumenta
A Fidelity anuncia apoio ao projeto de lei CLARITY, afirmando que ele oferece uma abordagem regulatória equilibrada
A Mistral AI negocia com bancos europeus para desenvolver o modelo alternativo de cibersegurança Mythos