El investigador de IA Aran Komatsuzaki publicó recientemente en la plataforma X un análisis experimental que revela un grave problema de “impuesto por no hablar inglés (non-English tax)” en los tokenizadores de los principales modelos de lenguaje (LLM). En particular, el modelo Claude de Anthropic llega a requerir para materiales de los idiomas chino, japonés y coreano un consumo de tokens de hasta cerca de 3 veces, lo que ha desatado el debate en la comunidad.
Método del experimento: usar un artículo clásico para cuantificar la diferencia del costo lingüístico
Komatsuzaki tomó como material el artículo clásico 《The Bitter Lesson》, lo tradujo al chino, hindi, árabe, coreano, japonés, entre otros idiomas, y luego lo introdujo por separado en los tokenizadores de varios modelos para calcular la cantidad de tokens consumidos. El experimento usó como referencia la versión en inglés de OpenAI (1,0×) y comparó, mediante multiplicadores estandarizados, la eficiencia de cada modelo al procesar distintos idiomas.
La cantidad de tokens determina directamente el costo de uso de la API y la latencia de respuesta: a más tokens, mayor costo y más lentitud. Por lo tanto, la diferencia de eficiencia del tokenizador, en la práctica, es la diferencia en el bolsillo del usuario y en la experiencia de uso.
Komatsuzaki también adjuntó un sitio web que él mismo diseñó para calcular el uso de tokens:
¿La IA también tiene discriminación racial? Claude tiene el “impuesto” lingüístico más alto; el hindi sale primero
Gráfico de barras del multiplicador de consumo de tokens por idioma: OpenAI vs. Anthropic
Los datos muestran que el multiplicador de tokens de OpenAI para distintos idiomas suele mantenerse dentro de 1,4×, mientras que la diferencia en Anthropic (Claude) es extremadamente marcada:
Hindi: 3,24× (Claude) vs. 1,37× (OpenAI)
Árabe: 2,86× (Claude) vs. 1,31× (OpenAI)
Ruso: 2,04× (Claude) vs. 1,31× (OpenAI)
Chino: 1,71× (Claude) vs. 1,15× (OpenAI)
En otras palabras, si un desarrollador indio usa la API de Claude para procesar contenido en hindi, podría pagar realmente más del triple del costo de una tarea equivalente en inglés, y además la velocidad de respuesta también disminuiría de forma notable por el aumento del tamaño en tokens.
Comparación horizontal de seis modelos: los modelos locales de China superan; Gemini es el mejor
Mapa de calor del multiplicador de consumo de tokens entre idiomas de seis modelos
El post publicado posteriormente por Komatsuzaki amplió aún más el alcance al incluir modelos como Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6, etc. Los resultados mostraron:
Gemini 3.1: 1,22× (el más amable para usuarios no angloparlantes)
Qwen 3.6: 1,23×
OpenAI: 1,33×
DeepSeek V4: 1,49×
Kimi K2.6: 1,76×
Anthropic: 2,07× (el menos amable para usuarios no angloparlantes)
Los datos dejan ver que el consumo de tokens en chino en Qwen (0,85×), DeepSeek (0,87×) y Kimi (0,81×) es menor que el estándar en inglés, lo que indica que los modelos locales de China ya han sido optimizados en profundidad para el chino. El propio Komatsuzaki, en su respuesta, reconoció con franqueza: “No pensé que Claude fuera tan malo y tan desbalanceado”.
La preocupación de la comunidad: “la brecha de costos” es un problema grave en el proceso de masificación de la IA
Los resultados del experimento resonaron con fuerza en la comunidad de X. Muchos desarrolladores no angloparlantes afirman que, en el uso real, procesar los mismos documentos en chino o coreano con Claude cuesta efectivamente mucho más que con Gemini.
El debate también se extendió a las causas técnicas subyacentes: las diferencias de eficiencia del tokenizador provienen principalmente de que los datos de entrenamiento se componen mayormente de contenido en inglés y caracteres latinos, lo que hace que el modelo comprenda con menor profundidad otros sistemas de escritura; así, cada carácter o vocabulario necesita consumir más tokens. Aunque en todo el mundo hay cientos de millones de usuarios de hindi, la relativa escasez de material de entrenamiento de alta calidad, sumada a la complejidad morfológica de su estructura de escritura, convierte al hindi en el grupo con los costos más altos para usar IA.
Algunos usuarios también creen que el público principal de Anthropic está más orientado a empresas de habla inglesa y escenarios de desarrollo de código, por lo que no hay suficiente motivación para optimizar múltiples idiomas. En cambio, OpenAI, en su opinión, se desempeña mejor con contenido lingüístico: “La IA debería ser una tecnología igualitaria y democratizadora, pero los usuarios no angloparlantes terminan pagando por la discriminación lingüística”.
Hoy, esta controversia en torno al diseño del tokenizador ya no es solo un problema técnico, sino que refleja el desbalance que enfrenta la industria de la IA en su expansión global.
¿Este artículo fue sobre que Claude cobra el “impuesto” por el lenguaje? El estudio revela que los contenidos en chino, japonés y coreano consumen los tokens más, llegando a casi 3 veces; apareció por primera vez en Cadena Noticias ABMedia.
Related News
BioMysteryBench: Mythos resuelve expertos sin solución 29,6%
Oxford Internet Institute: el entrenamiento amistoso hace que la tasa de error de la IA aumente en 7,43 puntos porcentuales
El vicepresidente de Nvidia para el aprendizaje profundo cree que el gasto en cómputo de IA supera el costo de los salarios del personal
Analistas de semiconductores se muestran optimistas con el mercado de la IA: “al menos otros tres años”; el empaquetado avanzado es el cuello de botella de la industria
Un legendario operador de un fondo de cobertura habla sobre el PER de las acciones de EE. UU.: para quien compre el mercado general para obtener ganancias en los próximos años, será muy difícil