De acordo com o investigador Kosta Jordanov, da Lenz Research, cinco modelos avançados de IA discordaram em 67% de 1.000 alegações reais de fact-checking testadas este mês. Os modelos — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro com Search e Sonar Pro — foram convidados a classificar as alegações como verdadeiras, maioritariamente verdadeiras, enganosas ou falsas. Em 34% dos casos, a divergência foi acentuada: um modelo classificou uma alegação como verdadeira enquanto outro a rotulou como falsa.
O estudo mediu a concordância usando o alfa de Krippendorff, que teve uma pontuação de 0,639 numa escala em que 1,0 indica concordância perfeita; em geral, os investigadores consideram pontuações abaixo de 0,8 fracas. A concordância unânime ocorreu apenas em 328 de 1.000 alegações e, de forma notável, nenhuma alegação recebeu um veredicto unânime de “maioritariamente verdadeira”. Os investigadores usaram alegações submetidas por utilizadores reais à plataforma de fact-checking da Lenz em vez de benchmarks standard, reduzindo a probabilidade de os modelos corresponderem padrões a dados de treino.