Cinq modèles d’IA de pointe sont en désaccord sur 67% des allégations de vérification des faits, selon une étude

OliverGrant

2026-05-29 17:33:32

Une étude publiée ce mois-ci par le chercheur Kosta Jordanov chez Lenz Research a révélé que cinq modèles d’IA de pointe divergeaient sur 67% de 1 000 allégations de fact-checking réelles. L’accord unanime ne s’est produit que pour 328 allégations. La recherche a testé GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro avec Search, et Sonar Pro sur des affirmations soumises par des utilisateurs réels à une plateforme de vérification des faits. Les modèles ont obtenu un score alpha de Krippendorff de 0,639, en dessous du seuil de 0,8 que les chercheurs considèrent généralement comme fiable. Les désaccords ont eu lieu malgré le fait que tous les modèles évaluent des allégations identiques en utilisant le même système à quatre labels : vrai, plutôt vrai, trompeur, ou faux. Les résultats soulignent des inquiétudes sur la fiabilité alors que de plus en plus de personnes se tournent vers des systèmes d’IA pour faire du fact-checking.

Méthodologie de l’étude : allégations soumises par de vrais utilisateurs

L’étude a donné aux cinq modèles d’IA les mêmes 1 000 allégations de fact-checking réelles soumises par des utilisateurs effectifs. Les modèles devaient sélectionner un des quatre labels : vrai, plutôt vrai, trompeur, ou faux. L’étude a utilisé des allégations soumises par de vraies personnes à la plateforme de fact-checking de Lenz plutôt que de s’appuyer sur des jeux de tests standard. « La plupart de ces affirmations sont peu susceptibles d’apparaître dans un corpus d’entraînement, avec une étiquette “gold” associée — il n’y a pas de clé de réponses canonique à laquelle correspondre, pas de tableau de classement de référence pour servir de point d’ancrage », indique l’article.

Cinq modèles d’IA ont divergé sur 672 des 1 000 allégations

Sur 672 des 1 000 allégations, au moins un modèle s’est écarté de la majorité. Dans 34% des cas, le désaccord était marqué : un modèle a qualifié une allégation de vraie tandis qu’un autre l’a qualifiée de fausse. « Ce ne sont pas des items de référence avec des clés de réponses publiques — ce sont des affirmations soumises par des utilisateurs réels pour vérification sur une plateforme de fact-checking », lit-on dans l’étude. « Un seul verdict peut être correct pour chaque catégorie de décision, donc tout désaccord au sein du panel signifie qu’au moins un modèle présente un verdict incohérent avec le label, selon cette grille à 4 catégories. »

Le score statistique de fiabilité tombe sous le seuil standard

La mesure statistique d’accord, appelée alpha de Krippendorff, est tombée à 0,639 sur une échelle où 1,0 signifie un accord parfait et 0 un hasard aléatoire. L’étude indique que cela montre un « accord non négligeable, mais limité ». « Les verdicts des modèles sont structurés plutôt qu’aléatoires, mais pas suffisamment cohérents pour considérer le panel comme un seul juge interchangeable », notent les chercheurs. En général, tout score inférieur à 0,8 est jugé faible.

Les modèles montrent une divergence sévère sur des exemples d’allégations

Les chercheurs ont fourni des exemples d’allégations sur lesquelles les modèles d’IA ont le plus divergé, dont : « Le portefeuille actif de la Banque mondiale au Nigeria s’élève à plus de 16,4 milliards de dollars en 2025. » ChatGPT 5.4 l’a qualifiée de « plutôt vrai », tandis que Gemini 3 Pro l’a qualifiée de « faux », et que son modèle frère Gemini 3 Pro + Search l’a jugée « trompeuse ».

Dans un autre exemple, les modèles ont reçu l’allégation : « Donald Trump a déclaré qu’une attaque contre l’Iran avait été reportée à la demande des alliés du Golfe. » GPT-5.4 l’a jugée fausse, Claude Opus 4.7 l’a qualifiée de plutôt vraie, Gemini 3 Pro l’a jugée fausse, et Gemini 3 Pro + Search l’a évaluée comme vraie.

L’accord unanime n’a lieu qu’aux extrêmes factuels

Lorsque les cinq modèles étaient d’accord — ce qui ne s’est produit que sur 328 des 1 000 allégations — ils convenaient presque jamais qu’une chose était trompeuse ou plutôt vraie. Quatre allégations seulement ont reçu un verdict « trompeur » unanime. Aucune n’a reçu un verdict « plutôt vrai » unanime. « Le panel converge vers des verdicts définitifs ; le milieu de la grille est là où la fracture apparaît », ont constaté les chercheurs. L’unanimité n’a eu lieu qu’aux extrêmes : soit l’allégation était définitivement vraie, soit définitivement fausse.

L’article prend soin de le préciser : « La majorité des modèles de pointe n’est pas une vérité établie. Le verdict majoritaire est parfois faux ; un modèle en dissidence individuelle est parfois juste. Nous utilisons la majorité comme point de référence structurel pour mesurer le désaccord, et non comme un substitut à la correction. »

FAQ

Que trouve l’étude de Lenz Research au sujet de l’accord des modèles d’IA sur le fact-checking ?
L’étude a constaté que cinq modèles d’IA de pointe divergeaient sur 67% des 1 000 allégations de fact-checking réelles soumises par des utilisateurs effectifs. L’accord unanime ne s’est produit que pour 328 allégations, et les modèles ont atteint un score alpha de Krippendorff de 0,639, en dessous du seuil de fiabilité de 0,8 que les chercheurs considèrent généralement acceptable.

Comment les modèles d’IA se sont-ils comportés sur l’exemple d’allégation concernant le portefeuille de la Banque mondiale au Nigeria ?
ChatGPT 5.4 a évalué l’allégation « Le portefeuille actif de la Banque mondiale au Nigeria s’élève à plus de 16,4 milliards de dollars en 2025 » comme plutôt vraie, tandis que Gemini 3 Pro l’a qualifiée de fausse et que Gemini 3 Pro + Search l’a jugée trompeuse, montrant une divergence sévère entre les modèles sur la même allégation factuelle.

Pourquoi l’étude a-t-elle utilisé des allégations soumises par de vrais utilisateurs plutôt que des jeux de tests standard ?
Les chercheurs ont utilisé des allégations soumises par des personnes réelles à la plateforme de fact-checking de Lenz, car la plupart de ces allégations sont peu susceptibles d’apparaître dans un corpus d’entraînement avec une étiquette “gold” associée, ce qui élimine la possibilité pour les modèles de faire correspondre des modèles à des clés de réponses de référence, et fournit un test plus réaliste de la fiabilité du fact-checking.

Afficher la source

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

Il y a 6h

Cinq modèles d’IA Frontier ont divergé sur 67% des affirmations de vérification des faits dans la dernière étude

Il y a 17h

La part de marché de ChatGPT chute à 60 % tandis que Gemini grimpe à 50 % au cours des six derniers mois

Il y a 19h

Apple restructure Siri avec le modèle Gemini à mille milliards de paramètres et l’informatique confidentielle Nvidia