Claude ¿cobrará un impuesto por idioma? Estudio revela que la traducción de contenido chino, japonés y coreano consume hasta casi 3 veces más tokens

El investigador de IA Aran Komatsuzaki publicó recientemente en la plataforma X un análisis experimental que revela un grave problema de “impuesto por no hablar inglés (non-English tax)” en los tokenizadores de los principales modelos de lenguaje (LLM). En particular, el modelo Claude de Anthropic llega a requerir para materiales de los idiomas chino, japonés y coreano un consumo de tokens de hasta cerca de 3 veces, lo que ha desatado el debate en la comunidad.

Método del experimento: usar un artículo clásico para cuantificar la diferencia del costo lingüístico

Komatsuzaki tomó como material el artículo clásico 《The Bitter Lesson》, lo tradujo al chino, hindi, árabe, coreano, japonés, entre otros idiomas, y luego lo introdujo por separado en los tokenizadores de varios modelos para calcular la cantidad de tokens consumidos. El experimento usó como referencia la versión en inglés de OpenAI (1,0×) y comparó, mediante multiplicadores estandarizados, la eficiencia de cada modelo al procesar distintos idiomas.

La cantidad de tokens determina directamente el costo de uso de la API y la latencia de respuesta: a más tokens, mayor costo y más lentitud. Por lo tanto, la diferencia de eficiencia del tokenizador, en la práctica, es la diferencia en el bolsillo del usuario y en la experiencia de uso.

Komatsuzaki también adjuntó un sitio web que él mismo diseñó para calcular el uso de tokens:

¿La IA también tiene discriminación racial? Claude tiene el “impuesto” lingüístico más alto; el hindi sale primero

Gráfico de barras del multiplicador de consumo de tokens por idioma: OpenAI vs. Anthropic

Los datos muestran que el multiplicador de tokens de OpenAI para distintos idiomas suele mantenerse dentro de 1,4×, mientras que la diferencia en Anthropic (Claude) es extremadamente marcada:

Hindi: 3,24× (Claude) vs. 1,37× (OpenAI)

Árabe: 2,86× (Claude) vs. 1,31× (OpenAI)

Ruso: 2,04× (Claude) vs. 1,31× (OpenAI)

Chino: 1,71× (Claude) vs. 1,15× (OpenAI)

En otras palabras, si un desarrollador indio usa la API de Claude para procesar contenido en hindi, podría pagar realmente más del triple del costo de una tarea equivalente en inglés, y además la velocidad de respuesta también disminuiría de forma notable por el aumento del tamaño en tokens.

Comparación horizontal de seis modelos: los modelos locales de China superan; Gemini es el mejor

Mapa de calor del multiplicador de consumo de tokens entre idiomas de seis modelos

El post publicado posteriormente por Komatsuzaki amplió aún más el alcance al incluir modelos como Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6, etc. Los resultados mostraron:

Gemini 3.1: 1,22× (el más amable para usuarios no angloparlantes)

Qwen 3.6: 1,23×

OpenAI: 1,33×

DeepSeek V4: 1,49×

Kimi K2.6: 1,76×

Anthropic: 2,07× (el menos amable para usuarios no angloparlantes)

Los datos dejan ver que el consumo de tokens en chino en Qwen (0,85×), DeepSeek (0,87×) y Kimi (0,81×) es menor que el estándar en inglés, lo que indica que los modelos locales de China ya han sido optimizados en profundidad para el chino. El propio Komatsuzaki, en su respuesta, reconoció con franqueza: “No pensé que Claude fuera tan malo y tan desbalanceado”.

La preocupación de la comunidad: “la brecha de costos” es un problema grave en el proceso de masificación de la IA

Los resultados del experimento resonaron con fuerza en la comunidad de X. Muchos desarrolladores no angloparlantes afirman que, en el uso real, procesar los mismos documentos en chino o coreano con Claude cuesta efectivamente mucho más que con Gemini.

El debate también se extendió a las causas técnicas subyacentes: las diferencias de eficiencia del tokenizador provienen principalmente de que los datos de entrenamiento se componen mayormente de contenido en inglés y caracteres latinos, lo que hace que el modelo comprenda con menor profundidad otros sistemas de escritura; así, cada carácter o vocabulario necesita consumir más tokens. Aunque en todo el mundo hay cientos de millones de usuarios de hindi, la relativa escasez de material de entrenamiento de alta calidad, sumada a la complejidad morfológica de su estructura de escritura, convierte al hindi en el grupo con los costos más altos para usar IA.

Algunos usuarios también creen que el público principal de Anthropic está más orientado a empresas de habla inglesa y escenarios de desarrollo de código, por lo que no hay suficiente motivación para optimizar múltiples idiomas. En cambio, OpenAI, en su opinión, se desempeña mejor con contenido lingüístico: “La IA debería ser una tecnología igualitaria y democratizadora, pero los usuarios no angloparlantes terminan pagando por la discriminación lingüística”.

Hoy, esta controversia en torno al diseño del tokenizador ya no es solo un problema técnico, sino que refleja el desbalance que enfrenta la industria de la IA en su expansión global.

¿Este artículo fue sobre que Claude cobra el “impuesto” por el lenguaje? El estudio revela que los contenidos en chino, japonés y coreano consumen los tokens más, llegando a casi 3 veces; apareció por primera vez en Cadena Noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios