Medición política de seis modelos principales de IA: Grok inclinación a la derecha intensidad 97%, Gemini el más cercano a neutral.

La plataforma de investigación de sesgos de IA Trakkr publicó un informe en junio en el que evaluó seis modelos de IA principales (ChatGPT, Claude, Gemini, Grok, Llama y DeepSeek) en temas políticos y sociales controvertidos. Los resultados muestran que cuatro de los seis modelos se inclinan a la izquierda en el eje económico; Grok es el único que se sitúa en el rango de derecha, y Gemini es el más cercano a una verdadera neutralidad entre los seis modelos.

Diseño de medición de Trakkr: 12 temas, búsqueda web desactivada, archivo de código abierto

El marco de medición de Trakkr plantea los mismos 12 temas a los seis modelos, que abarcan dos grandes categorías: temas tradicionales de división izquierda-derecha (legalización de drogas, prioridad multicultural, eliminación gradual de combustibles fósiles, impuesto a la riqueza, cuotas de diversidad) y controversias sobre gobernanza tecnológica (eliminación de información errónea, criminalización del discurso de odio, puerta trasera de cifrado, identificación digital nacional).

Durante la prueba, se desactivó la función de búsqueda web de todos los modelos para medir la tendencia del entrenamiento del modelo en sí, no la información externa obtenida en tiempo real. Los resultados se presentan en un mapa de coordenadas de dos ejes: el eje horizontal es económico (de izquierda a derecha) y el eje vertical es social (de liberal a autoritario). Las coordenadas de cada modelo se basan en las bases de datos de encuestas de expertos políticos CHES 2024 y V-Dem.

Cifras de medición completas de los seis modelos (puntuación del eje económico, estabilidad, intensidad del sesgo)

AI模型政治測量 (Fuente: Trakkr)

Grok: +0,21 (único inclinado a la derecha), estabilidad 57 %, intensidad del sesgo 97 %, más cercano a Emmanuel Macron de Francia

ChatGPT: -0,29 (sesgo a la izquierda más alto), estabilidad 82 %, intensidad del sesgo 64 %, más cercano al Partido Verde alemán

DeepSeek: -0,03, estabilidad 67 % (la más baja de los seis modelos), intensidad del sesgo 86 %, más cercano al Partido Laborista Australiano

Llama: -0,06, estabilidad 88 %, intensidad del sesgo 81 %, más cercano al Partido Laborista de Nueva Zelanda

Claude: -0,06, estabilidad 82 %, intensidad del sesgo 19 % (la más baja de los seis modelos), más cercano al Partido Laborista de Nueva Zelanda

Gemini: 0,00, estabilidad 98 % (la más alta de los seis modelos), intensidad del sesgo 11 %, más cercano al Partido Laborista Australiano

Diferencia entre la postura auto declarada de cada modelo y su posición medida real

La regla de medición de Trakkr establece que las respuestas evasivas a preguntas de autoposicionamiento político se cuentan como «declaración de neutralidad». Según este criterio, las diferencias de los seis modelos son las siguientes:

· La medición real de Grok es 0,36 más a la derecha que su posición declarada;

· La medición real de Claude es 0,34 más a la izquierda que su posición declarada;

· Tanto ChatGPT como Llama se declaran neutrales, pero la medición real cae en una posición izquierdista;

· DeepSeek se declara neutral, con una diferencia de 0,01 entre su coordenada real y el centro;

· Gemini se declara neutral, con una puntuación medida real de 0,00, diferencia cero.

Preguntas frecuentes

¿Los resultados de medición de Trakkr pueden ser verificados de forma independiente por terceros?

Trakkr afirma que su banco de preguntas está disponible para descarga como código abierto, y todas las respuestas de los modelos se archivan de forma permanente, por lo que terceros pueden ingresar las mismas preguntas, ejecutar el proceso de puntuación y recalcular los resultados. Trakkr considera esto como la base central de la reproducibilidad de su metodología de investigación.

¿Qué miden respectivamente los dos indicadores de intensidad del sesgo y estabilidad?

La intensidad del sesgo mide en qué proporción de los temas de prueba el modelo muestra una tendencia consistente mensurable; la estabilidad mide la consistencia de las respuestas cuando se repite la misma pregunta. La intensidad del sesgo del 97 % de Grok indica que muestra una tendencia consistente a la derecha en casi todos los temas; la estabilidad del 67 % de DeepSeek indica que hacer la misma pregunta dos veces puede producir respuestas en direcciones opuestas.

¿Qué indica este informe para los usuarios que usan modelos de IA para obtener información política o noticias?

El informe de Trakkr no hace recomendaciones normativas al respecto, solo indica que los resultados de medición muestran que el proceso de entrenamiento de los modelos de IA ya ha dejado una tendencia en temas políticos, independientemente de la postura que declare el modelo. El sitio web de Trakkr ofrece análisis completos y herramientas interactivas para que los usuarios se posicionen y comparen por sí mismos.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios