Cinco modelos de IA de frontera discrepan en el 67% de las afirmaciones de verificación de hechos, según un estudio

Un estudio publicado este mes por la investigadora Kosta Jordanov en Lenz Research encontró que cinco modelos de IA de vanguardia discreparon en el 67% de 1.000 afirmaciones reales para verificación de hechos, con acuerdo unánime que solo se dio en 328 afirmaciones. La investigación probó GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro con Search y Sonar Pro con afirmaciones presentadas por usuarios reales en una plataforma de verificación de hechos. Los modelos lograron una puntuación de Krippendorff's alpha de 0,639, quedando por debajo del umbral de 0,8 que los investigadores generalmente consideran fiable. Las discrepancias ocurrieron pese a que todos los modelos evaluaron afirmaciones idénticas usando el mismo sistema de cuatro etiquetas: true, mostly true, misleading o false. Los hallazgos resaltan preocupaciones sobre la fiabilidad a medida que las personas recurren cada vez más a sistemas de IA para hacer verificación de hechos.

Metodología del estudio utilizada afirmaciones presentadas por usuarios reales

El estudio le dio a cinco modelos de IA las mismas 1.000 afirmaciones reales de verificación de hechos presentadas por usuarios reales. Los modelos tuvieron que elegir una de cuatro etiquetas: true, mostly true, misleading o false. El estudio usó afirmaciones enviadas por personas reales a la plataforma de verificación de hechos de Lenz en lugar de extraerlas de conjuntos de prueba estándar. "La mayoría de estas afirmaciones es improbable que aparezcan en cualquier corpus de entrenamiento con una etiqueta gold adjunta: no hay una clave de respuestas canónica con la que hacer un 'pattern-match', no hay un ranking benchmark en el que anclarse", señala el artículo.

Cinco modelos de IA discreparon en 672 de 1.000 afirmaciones

En 672 de 1.000 afirmaciones, al menos un modelo se apartó de la mayoría. En el 34% de los casos, la discrepancia fue severa: un modelo calificó una afirmación como true mientras otro la calificó como false. "No son elementos de referencia con claves de respuesta públicas: son afirmaciones que usuarios reales enviaron para su verificación a una plataforma de verificación de hechos", lee el estudio. "Solo un veredicto puede ser correcto por afirmación, así que cualquier desacuerdo entre el panel significa que al menos un modelo tiene un veredicto inconsistente con la etiqueta bajo esta rúbrica de 4 cubos".

La puntuación estadística de fiabilidad cae por debajo del umbral estándar

La medida estadística de acuerdo, llamada Krippendorff's alpha, llegó a 0,639 en una escala donde 1,0 significa acuerdo perfecto y 0 significa azar. El estudio dice que esto indica "un acuerdo no trivial pero limitado". "Los veredictos de los modelos están estructurados en lugar de ser aleatorios, pero no lo bastante consistentes como para tratar al panel como un único juez intercambiable", señalan los investigadores. Los investigadores generalmente consideran que cualquier valor por debajo de 0,8 es débil.

Los modelos mostraron una divergencia severa en ejemplos de afirmaciones

Los investigadores proporcionaron ejemplos de afirmaciones en los que los modelos de IA mostraron la mayor divergencia, incluyendo "El portafolio activo del Banco Mundial en Nigeria se sitúa en más de 16,4 mil millones de dólares a partir de 2025." ChatGPT 5.4 dijo que era "mostly true", mientras Gemini 3 Pro lo llamó "false" y su modelo hermano Gemini 3 Pro + Search lo calificó de "misleading".

En otro ejemplo, se dio a los modelos la afirmación: "Donald Trump dijo que un ataque a Irán fue pospuesto a petición de los aliados del Golfo". GPT-5.4 dijo que era false, Claude Opus 4.7 lo llamó mostly true, Gemini 3 Pro dijo false y Gemini 3 Pro + Search lo calificó como true.

El acuerdo unánime solo ocurrió en extremos fácticos

Cuando los cinco modelos sí acordaron —algo que ocurrió solo en 328 de 1.000 afirmaciones— casi nunca estuvieron de acuerdo en que algo era misleading o mostly true. Solo cuatro afirmaciones recibieron un veredicto unánime "misleading". Cero recibió un veredicto unánime "mostly true". "El panel converge en veredictos definitivos; el punto medio de la rúbrica es donde se quiebra", descubrieron los investigadores. La unanimidad solo ocurrió en los extremos: o la afirmación era definitivamente true o definitivamente false.

El artículo cuida de señalar esto: "La mayoría de los modelos de vanguardia no es la verdad absoluta. El veredicto de la mayoría a veces es incorrecto; un modelo disidente individual a veces está en lo correcto. Usamos la mayoría como un punto de referencia estructural para medir el desacuerdo, no como sustituto de la corrección".

Preguntas frecuentes

¿Qué encontró el estudio de Lenz Research sobre el acuerdo de los modelos de IA en la verificación de hechos?
El estudio encontró que cinco modelos de IA de vanguardia discreparon en el 67% de 1.000 afirmaciones reales de verificación de hechos presentadas por usuarios reales. El acuerdo unánime ocurrió solo en 328 afirmaciones, y los modelos lograron una puntuación de Krippendorff's alpha de 0,639, por debajo del umbral de fiabilidad de 0,8 que los investigadores generalmente consideran aceptable.

¿Cómo se desempeñaron los modelos de IA en la afirmación de ejemplo sobre el portafolio del Banco Mundial en Nigeria?
ChatGPT 5.4 calificó la afirmación "El portafolio activo del Banco Mundial en Nigeria se sitúa en más de 16,4 mil millones de dólares a partir de 2025" como mostly true, mientras Gemini 3 Pro la llamó false y Gemini 3 Pro + Search la calificó como misleading, mostrando una divergencia severa entre los modelos ante la misma afirmación factual.

¿Por qué el estudio usó afirmaciones enviadas por usuarios reales en lugar de conjuntos de prueba estándar?
Los investigadores usaron afirmaciones enviadas por personas reales a la plataforma de verificación de hechos de Lenz porque la mayoría de estas afirmaciones es improbable que aparezcan en cualquier corpus de entrenamiento con una etiqueta gold adjunta, eliminando la posibilidad de que los modelos hagan 'pattern-matching' contra claves de respuestas de benchmarks y proporcionando una prueba más realista de la fiabilidad de la verificación de hechos.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios