D’après Beating, le cabinet d’évaluation par l’IA Vals AI a publié son benchmark de deuxième génération Finance Agent v2 le 14 mai, en testant des flux de travail d’analyse financière via 927 questions examinées par des experts. GPT-5.5 a pris la tête du classement avec un taux de précision de 51,76%, suivi de près par Claude Opus 4.7 (51,51%) et Claude Sonnet 4.6 (51,03%). Le test obligeait les modèles à localiser indépendamment les sections pertinentes sur des centaines de pages de rapports financiers 10-K et 10-Q, puis à réaliser des calculs multi-étapes avec des chiffres intermédiaires précis.
Avec des normes d’évaluation strictes exigeant des réponses entièrement correctes, les taux de précision de tous les principaux modèles sont tombés sous 40%, les catégories les plus difficiles — modélisation financière et analyse de précédents — n’atteignant au mieux que 23%. Parmi les autres modèles, Kimi K2.6 s’est classé cinquième avec 44,87%, suivi de GLM 5.1 (44,79%) et DeepSeek V4 (44,08%). Par rapport à la version précédente, où Opus 4.7 obtenait 64,4%, cette baisse marquée souligne que, si l’IA gère des opérations simples de récupération d’informations, elle reste très loin de remplacer les analystes humains dans un domaine financier complexe nécessitant une précision numérique stricte.
Related News
Des experts affirment que les preuves zk donnent un avantage aux DePIN alors que la demande de confiance liée à l’IA augmente
Fidelity soutient publiquement le projet de loi CLARITY, affirmant qu’il offre une approche réglementaire équilibrée
Mistral AI en pourparlers avec une banque européenne pour développer Mythos, un modèle alternatif de cybersécurité