GPT-5 atteint 62,7% de précision sur les incidents en production, en deçà de la référence d’experts à 72,7%

D’après les derniers benchmarks de Datadog et de la Carnegie Mellon, GPT-5 a atteint 62,7 % de précision sur le test ARFBench, en dessous des experts humains du domaine à 72,7 %. ARFBench est le premier benchmark d’IA construit à partir de 63 incidents réels en production, comprenant 750 questions à choix multiples couvrant 142 indicateurs de supervision et 5,38 millions de points de données — aucune donnée synthétique.

Les modèles d’IA ont le plus de difficultés sur le raisonnement inter-indicateurs (questions de niveau III), où GPT-5 n’a obtenu que 47,5 % de F1. Une modèle-oracle théorique associant l’IA et le jugement humain atteint 87,2 % de précision, illustrant comment la collaboration pourrait dépasser à la fois l’un et l’autre. Le modèle hybride de Datadog, Toto-1.0-QA-Experimental, a dominé le classement avec 63,9 % de précision, surpassant GPT-5 pour l’identification d’anomalies.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire