Un estudio publicado este mes por la investigadora Kosta Jordanov en Lenz Research encontró que cinco modelos de IA de vanguardia discreparon en el 67% de 1.000 afirmaciones reales para verificación de hechos, con acuerdo unánime que solo se dio en 328 afirmaciones. La investigación probó GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro con Search y Sonar Pro con afirmaciones presentadas por usuarios reales en una plataforma de verificación de hechos. Los modelos lograron una puntuación de Krippendorff's alpha de 0,639, quedando por debajo del umbral de 0,8 que los investigadores generalmente consideran fiable. Las discrepancias ocurrieron pese a que todos los modelos evaluaron afirmaciones idénticas usando el mismo sistema de cuatro etiquetas: true, mostly true, misleading o false. Los hallazgos resaltan preocupaciones sobre la fiabilidad a medida que las personas recurren cada vez más a sistemas de IA para hacer verificación de hechos.
El estudio le dio a cinco modelos de IA las mismas 1.000 afirmaciones reales de verificación de hechos presentadas por usuarios reales. Los modelos tuvieron que elegir una de cuatro etiquetas: true, mostly true, misleading o false. El estudio usó afirmaciones enviadas por personas reales a la plataforma de verificación de hechos de Lenz en lugar de extraerlas de conjuntos de prueba estándar. "La mayoría de estas afirmaciones es improbable que aparezcan en cualquier corpus de entrenamiento con una etiqueta gold adjunta: no hay una clave de respuestas canónica con la que hacer un 'pattern-match', no hay un ranking benchmark en el que anclarse", señala el artículo.
En 672 de 1.000 afirmaciones, al menos un modelo se apartó de la mayoría. En el 34% de los casos, la discrepancia fue severa: un modelo calificó una afirmación como true mientras otro la calificó como false. "No son elementos de referencia con claves de respuesta públicas: son afirmaciones que usuarios reales enviaron para su verificación a una plataforma de verificación de hechos", lee el estudio. "Solo un veredicto puede ser correcto por afirmación, así que cualquier desacuerdo entre el panel significa que al menos un modelo tiene un veredicto inconsistente con la etiqueta bajo esta rúbrica de 4 cubos".
La medida estadística de acuerdo, llamada Krippendorff's alpha, llegó a 0,639 en una escala donde 1,0 significa acuerdo perfecto y 0 significa azar. El estudio dice que esto indica "un acuerdo no trivial pero limitado". "Los veredictos de los modelos están estructurados en lugar de ser aleatorios, pero no lo bastante consistentes como para tratar al panel como un único juez intercambiable", señalan los investigadores. Los investigadores generalmente consideran que cualquier valor por debajo de 0,8 es débil.
Los investigadores proporcionaron ejemplos de afirmaciones en los que los modelos de IA mostraron la mayor divergencia, incluyendo "El portafolio activo del Banco Mundial en Nigeria se sitúa en más de 16,4 mil millones de dólares a partir de 2025." ChatGPT 5.4 dijo que era "mostly true", mientras Gemini 3 Pro lo llamó "false" y su modelo hermano Gemini 3 Pro + Search lo calificó de "misleading".
En otro ejemplo, se dio a los modelos la afirmación: "Donald Trump dijo que un ataque a Irán fue pospuesto a petición de los aliados del Golfo". GPT-5.4 dijo que era false, Claude Opus 4.7 lo llamó mostly true, Gemini 3 Pro dijo false y Gemini 3 Pro + Search lo calificó como true.
Cuando los cinco modelos sí acordaron —algo que ocurrió solo en 328 de 1.000 afirmaciones— casi nunca estuvieron de acuerdo en que algo era misleading o mostly true. Solo cuatro afirmaciones recibieron un veredicto unánime "misleading". Cero recibió un veredicto unánime "mostly true". "El panel converge en veredictos definitivos; el punto medio de la rúbrica es donde se quiebra", descubrieron los investigadores. La unanimidad solo ocurrió en los extremos: o la afirmación era definitivamente true o definitivamente false.
El artículo cuida de señalar esto: "La mayoría de los modelos de vanguardia no es la verdad absoluta. El veredicto de la mayoría a veces es incorrecto; un modelo disidente individual a veces está en lo correcto. Usamos la mayoría como un punto de referencia estructural para medir el desacuerdo, no como sustituto de la corrección".
¿Qué encontró el estudio de Lenz Research sobre el acuerdo de los modelos de IA en la verificación de hechos?
El estudio encontró que cinco modelos de IA de vanguardia discreparon en el 67% de 1.000 afirmaciones reales de verificación de hechos presentadas por usuarios reales. El acuerdo unánime ocurrió solo en 328 afirmaciones, y los modelos lograron una puntuación de Krippendorff's alpha de 0,639, por debajo del umbral de fiabilidad de 0,8 que los investigadores generalmente consideran aceptable.
¿Cómo se desempeñaron los modelos de IA en la afirmación de ejemplo sobre el portafolio del Banco Mundial en Nigeria?
ChatGPT 5.4 calificó la afirmación "El portafolio activo del Banco Mundial en Nigeria se sitúa en más de 16,4 mil millones de dólares a partir de 2025" como mostly true, mientras Gemini 3 Pro la llamó false y Gemini 3 Pro + Search la calificó como misleading, mostrando una divergencia severa entre los modelos ante la misma afirmación factual.
¿Por qué el estudio usó afirmaciones enviadas por usuarios reales en lugar de conjuntos de prueba estándar?
Los investigadores usaron afirmaciones enviadas por personas reales a la plataforma de verificación de hechos de Lenz porque la mayoría de estas afirmaciones es improbable que aparezcan en cualquier corpus de entrenamiento con una etiqueta gold adjunta, eliminando la posibilidad de que los modelos hagan 'pattern-matching' contra claves de respuestas de benchmarks y proporcionando una prueba más realista de la fiabilidad de la verificación de hechos.
Noticias relacionadas
Los 3 principales bancos de Japón obtienen acceso a IA de OpenAI para la defensa en ciberseguridad
Vitalik confirma la superposición entre el acceso a la capa de Ethereum y CROPS AI; DeepSeek V4 como herramienta central
El modo rápido de Anthropic Opus 4.8 baja a 10 dólares, Mythos lo tiene todo activado en pocas semanas
Investigación de Entelligence AI: El 82% del gasto en ingeniería de IA se pierde en reescritura de vulnerabilidades y retrasos
Gemini lanza un centro de mando de IA impulsado por Grok y reporta resultados mixtos del 1T