O investigador de IA Aran Komatsuzaki publicou recentemente, na plataforma X, uma análise experimental que expõe um grave problema de “taxa de não inglês (non-English tax)” nos tokenizers (tokenizadores) dos principais grandes modelos de linguagem (LLM). Segundo os dados, os modelos Claude da Anthropic chegam a exigir, para materiais nas línguas chinesa, japonesa e coreana, o consumo de tokens a quase três vezes mais, o que suscitou debate na comunidade.
Método experimental: quantificar a diferença de custos linguísticos com base numa tese clássica
Komatsuzaki usa como base o artigo clássico “The Bitter Lesson”, traduzindo-o para várias línguas, incluindo chinês, hindi, árabe, coreano e japonês, e depois envia cada versão para os tokenizers de vários modelos para calcular a quantidade de tokens consumidos. O experimento usa como referência a versão em inglês da OpenAI (1,0×), comparando a eficiência de cada modelo no tratamento de diferentes línguas através de multiplicadores normalizados.
O número de tokens determina diretamente o custo de uso da API e a latência das respostas: quanto mais tokens, maior o custo e mais lenta a velocidade. Assim, a diferença de eficiência no tokenizer traduz-se, na prática, numa diferença de custo para o utilizador e na experiência de utilização.
Komatsuzaki disponibiliza também um site que ele próprio concebeu, capaz de calcular o consumo de tokens:
Há também discriminação racial em IA? Claude tem a maior “taxa linguística”, o hindi é o primeiro a pagar
Gráfico de barras do consumo de tokens por língua: OpenAI vs. Anthropic
Os dados mostram que, em termos gerais, os multiplicadores de tokens da OpenAI ficam abaixo de 1,4× para as várias línguas, enquanto a diferença da Anthropic (Claude) é muito mais evidente:
Hindi: 3,24× (Claude) vs. 1,37× (OpenAI)
Árabe: 2,86× (Claude) vs. 1,31× (OpenAI)
Russo: 2,04× (Claude) vs. 1,31× (OpenAI)
Chinês: 1,71× (Claude) vs. 1,15× (OpenAI)
Por outras palavras, se um programador indiano usar a API da Claude para processar conteúdo em hindi, poderá estar a pagar, na prática, mais do triplo do custo face a uma tarefa equivalente em inglês, e a velocidade das respostas também tende a cair de forma significativa devido ao aumento no número de tokens.
Comparação transversal de seis modelos: os modelos locais chineses ultrapassam, e a Gemini tem o melhor desempenho
Mapa de calor dos multiplicadores de consumo de tokens multilingue em seis modelos
Após isso, Komatsuzaki publicou uma nova publicação que alargou ainda mais o âmbito da comparação, incluindo modelos como Gemini 3.1, Qwen 3.6, DeepSeek V4 e Kimi K2.6. Os resultados indicam:
Gemini 3.1: 1,22× (a mais amigável para utilizadores não ingleses)
Qwen 3.6: 1,23×
OpenAI: 1,33×
DeepSeek V4: 1,49×
Kimi K2.6: 1,76×
Anthropic: 2,07× (a menos amigável para utilizadores não ingleses)
Os dados deixam claro que o consumo de tokens no chinês em Qwen (0,85×), DeepSeek (0,87×) e Kimi (0,81×) é inferior ao patamar de referência em inglês, sugerindo que os modelos locais chineses já foram profundamente otimizados para o chinês. O próprio Komatsuzaki, na sua resposta, admitiu: “Não esperava que o Claude fosse tão mau e tão desequilibrado.”
Preocupação na comunidade: “a disparidade de custos” é um problema grave no processo de democratização da IA
Os resultados do experimento geraram forte repercussão na comunidade do X. Muitos programadores que não falam inglês afirmaram que, na utilização real, os mesmos documentos em chinês ou coreano processados com a Claude custam efetivamente muito mais do que com a Gemini.
A discussão também se estende às causas técnicas: as diferenças de eficiência do tokenizer devem-se principalmente ao facto de os dados de treino serem dominados por conteúdo em inglês e por caracteres latinos, o que faz com que os modelos compreendam menos bem outros sistemas de escrita. Como resultado, cada carácter ou vocábulo exige um consumo maior de tokens. Mesmo que existam centenas de milhões de utilizadores em hindi, a combinação de uma maior escassez de materiais de treino de alta qualidade com estruturas linguísticas complexas faz com que esse grupo seja o mais caro para usar em IA.
Alguns utilizadores defendem ainda que o principal público da Anthropic tende a ser empresas de língua inglesa e cenários de desenvolvimento de código, pelo que não há grande incentivo para otimizar de forma multilingue. Em contraste, a OpenAI seria mais competente no tratamento de conteúdos linguísticos, resumindo: “A IA deveria ser uma tecnologia de igualdade e democratização, mas os utilizadores não ingleses acabam por pagar a conta do preconceito linguístico.”
Agora, a polémica em torno do design do tokenizer já não é apenas um problema técnico: reflete, na prática, o desequilíbrio da indústria de IA no processo de expansão global.
Este artigo: A Claude vai cobrar “taxa linguística”? Investigação revela que traduzir conteúdos em chinês, japonês e coreano consome quase três vezes mais tokens, publicado pela primeira vez em Cadeia Notícias ABMedia.
Related News
BioMysteryBench: Mythos O especialista em desvendar mitos sem solução 29,6%
Instituto de Internet da Universidade de Oxford: o treino mais “amigável” faz aumentar a taxa de erros da IA em 7,43 pontos percentuais
O vice-presidente de aprendizagem profunda da NVIDIA acredita que os custos de computação de IA excedem os custos de salários da mão de obra
Analista de semicondutores optimista com a corrida da IA “pelo menos mais três anos”: o empacotamento avançado é o verdadeiro gargalo da indústria
O lendário gestor de um fundo de cobertura fala sobre a relação preço/lucro das ações dos EUA: para quem comprar o mercado alargado para lucrar nos próximos anos vai ser muito difícil