O pesquisador de IA Aran Komatsuzaki publicou recentemente em uma plataforma X uma análise experimental que expôs um problema grave de “taxa não-inglesa (non-English tax)” nos tokenizers de grandes modelos de linguagem (LLM) usados em massa. Entre eles, os modelos da Anthropic, incluindo o Claude, chegam a exigir que quase três vezes mais tokens sejam consumidos para materiais em idiomas como chinês, japonês e coreano, o que gerou debates na comunidade.
Método do experimento: quantificar a diferença de custo entre idiomas com um estudo clássico
Komatsuzaki usou como base o artigo clássico “The Bitter Lesson”, traduziu-o para vários idiomas — como chinês, hindi, árabe e coreano, além de japonês — e depois submeteu as versões a tokenizers de diversos modelos para calcular a quantidade de tokens consumidos. O experimento teve como referência a versão em inglês da OpenAI (1,0×), usando comparações por fator padronizado para medir a eficiência de cada modelo no tratamento de diferentes idiomas.
A quantidade de tokens determina diretamente o custo de uso da API e a latência das respostas: quanto mais tokens, maior o custo e mais lenta a velocidade. Por isso, as diferenças de eficiência do tokenizer, na prática, representam a diferença no bolso e na experiência de uso do usuário.
Komatsuzaki também incluiu um site que ele mesmo projetou, capaz de calcular o volume de tokens:
IA também tem discriminação racial? Claude tem a maior “taxa de linguagem”, e o hindi é o primeiro atingido
OpenAI vs. Anthropic: gráfico de barras do consumo de tokens por idioma
Os dados mostram que a taxa de tokens da OpenAI para diferentes idiomas, em geral, fica dentro de 1,4×, enquanto o desvio na Anthropic (Claude) é muito mais significativo:
Hindi: 3,24× (Claude) vs. 1,37× (OpenAI)
Árabe: 2,86× (Claude) vs. 1,31× (OpenAI)
Russo: 2,04× (Claude) vs. 1,31× (OpenAI)
Chinês: 1,71× (Claude) vs. 1,15× (OpenAI)
Em outras palavras, se um desenvolvedor indiano usar a API da Claude para processar conteúdo em hindi, ele provavelmente pagará mais de 3 vezes pelo mesmo tipo de tarefa em inglês, e a velocidade de resposta também tende a cair de forma perceptível por causa do aumento do tamanho em tokens.
Comparação horizontal dos seis modelos: modelos locais da China superam, e Gemini tem o melhor desempenho
Mapa de calor da taxa de consumo de tokens entre idiomas pelos seis modelos
A postagem de Komatsuzaki que veio depois ampliou ainda mais o escopo, incluindo modelos como Gemini 3.1, Qwen 3.6, DeepSeek V4 e Kimi K2.6; os resultados indicaram:
Gemini 3.1: 1,22× (o mais amigável para usuários não-ingleses)
Qwen 3.6: 1,23×
OpenAI: 1,33×
DeepSeek V4: 1,49×
Kimi K2.6: 1,76×
Anthropic: 2,07× (o menos amigável para usuários não-ingleses)
Os dados também sugerem que o chinês, em Qwen (0,85×), DeepSeek (0,87×) e Kimi (0,81×), consome menos tokens do que a referência em inglês, indicando que modelos locais da China já passaram por otimizações profundas para o chinês. O próprio Komatsuzaki, em sua resposta, foi direto: “Eu não esperava que o Claude fosse tão ruim e tão desbalanceado.”
Preocupação da comunidade: “disparidade de custo” é um problema sério no processo de popularização da IA
Os resultados do experimento repercutiram fortemente na comunidade do X, e muitos desenvolvedores não-ingleses disseram que, no uso real, processar o mesmo documento em chinês ou coreano com Claude realmente custa bem mais do que com Gemini.
O debate também avançou para as causas técnicas: a diferença de eficiência dos tokenizers decorre principalmente do fato de que os dados de treinamento foram dominados por conteúdo em inglês e por caracteres latinos, levando o modelo a compreender menos bem outros sistemas de escrita. Assim, cada caractere ou vocabulário exige mais tokens. Mesmo que usuários de hindi no mundo cheguem a centenas de milhões, a combinação de relativamente poucos materiais de treinamento de alta qualidade com estruturas linguísticas mais complexas faz do hindi um dos grupos com maior custo de uso de IA.
Alguns internautas também acreditam que o público-alvo principal da Anthropic tende a empresas que usam inglês e cenários de desenvolvimento de código; por isso, faltaria incentivo para otimização multilíngue. Em contraste, a OpenAI seria mais competente para lidar com conteúdo linguístico, resumindo: “A IA deveria ser uma tecnologia de igualdade para democratizar, mas usuários não-ingleses acabam pagando pela discriminação linguística.”
Agora, a controvérsia em torno do design do tokenizer deixou de ser apenas um problema técnico e, mais do que isso, reflete o desbalanceamento que existe na expansão global da indústria de IA.
Este artigo “O Claude cobra ‘taxa de idioma’? Estudo mostra que traduzir conteúdo chinês, japonês e coreano consome quase 3 vezes mais tokens” apareceu pela primeira vez na 鏈新聞 ABMedia.
Related News
BioMysteryBench: Mythos 解專家无解题 29,6%
Instituto de Pesquisa da Internet de Oxford: o treinamento amigável faz a taxa de erro da IA subir em 7,43 pontos percentuais
O vice-presidente sênior de aprendizado profundo da NVIDIA acredita que os gastos com computação de IA superam os custos de folha de pagamento humana
Analistas de semicondutores estão otimistas com o mercado de IA “pelo menos mais três anos”: empacotamento avançado é o gargalo da indústria
O lendário gestor de fundos de hedge fala sobre o P/L das ações dos EUA: para quem comprar o índice de mercado nos próximos anos, será muito difícil obter lucro