Según el investigador Kosta Jordanov, de Lenz Research, cinco modelos de IA fronterizos discreparon en el 67% de 1.000 afirmaciones de verificación de hechos en el mundo real que se probaron este mes. A los modelos—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro con Search y Sonar Pro—se les pidió clasificar las afirmaciones como verdaderas, mayormente verdaderas, engañosas o falsas. En el 34% de los casos, la discrepancia fue grave: un modelo calificó una afirmación como verdadera mientras que otro la etiquetó como falsa.
El estudio midió el acuerdo usando el alfa de Krippendorff, que obtuvo 0,639 en una escala donde 1,0 indica acuerdo perfecto; los investigadores generalmente consideran que puntuaciones por debajo de 0,8 son débiles. El acuerdo unánime solo ocurrió en 328 de 1.000 afirmaciones y, notablemente, ninguna afirmación recibió veredictos unánimes de “mayormente verdadera”. Los investigadores utilizaron afirmaciones presentadas por usuarios reales a la plataforma de verificación de hechos de Lenz en lugar de puntos de referencia estándar, lo que reduce la probabilidad de que los modelos “patrón-matchearan” contra los datos de entrenamiento.