D’après le chercheur Kosta Jordanov de Lenz Research, cinq modèles d’IA de pointe ont divergé sur 67% des 1 000 affirmations de vérification des faits, issues du monde réel, testées ce mois-ci. Les modèles — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro avec Search, et Sonar Pro — ont été chargés de classer les affirmations en « vrai », « plutôt vrai », « trompeur » ou « faux ». Dans 34% des cas, le désaccord était important : un modèle a qualifié une affirmation de vraie tandis qu’un autre l’a jugée fausse.
L’étude a mesuré l’accord à l’aide de l’alpha de Krippendorff, qui s’est établi à 0,639 sur une échelle où 1,0 indique un accord parfait ; les chercheurs considèrent généralement que des scores inférieurs à 0,8 sont faibles. Un accord unanime n’a eu lieu que sur 328 des 1 000 affirmations, et point notable : aucune des affirmations n’a reçu un verdict unanime « plutôt vrai ». Les chercheurs ont utilisé des affirmations soumises par de vrais utilisateurs à la plateforme de fact-checking de Lenz, plutôt que des références standard, ce qui réduit la probabilité que les modèles aient « reconnu » des motifs liés aux données d’entraînement.