Исследователь ИИ Aran Komatsuzaki недавно в X опубликовал экспериментальный анализ, разоблачающий серьёзную проблему с токенизаторами (tokenizer) у популярных больших языковых моделей (LLM) — так называемый «налог за неанглийские языки (non-English tax)». В частности, для материалов на языках китайском, японском и корейском в модели Claude от Anthropic приходится расходовать вплоть до почти трёх раз больше токенов, что вызвало бурные обсуждения в сообществе.
Метод эксперимента: количественно оценить разницу языковых издержек на основе классической статьи
Komatsuzaki взял в качестве материала классическую работу «The Bitter Lesson», перевёл её на китайский, хинди, арабский, корейский, японский и другие языки, а затем пропустил тексты через токенизаторы множества моделей, чтобы посчитать число потреблённых токенов. Эксперимент в качестве базового ориентира использует английскую версию OpenAI (1,0×), сравнивая относительную эффективность обработки разных языков через стандартизованные коэффициенты.
Количество токенов напрямую определяет стоимость использования API и задержку ответа: чем больше токенов, тем выше расходы и ниже скорость. Поэтому различия в эффективности токенизатора на практике означают разницу в толщине кошелька и качестве пользовательского опыта.
Komatsuzaki также приложил сайт, который он сам разработал, чтобы считать объём токенов:
AI тоже имеет расовую дискриминацию? Claude языковой налог самый высокий, первым страдает хинди
OpenAI vs. Anthropic: столбчатая диаграмма коэффициентов расхода токенов по языкам
Данные показывают, что у OpenAI коэффициенты по языкам в целом держатся в пределах 1,4×, тогда как разница у Anthropic (Claude) оказывается крайне заметной:
Хинди: 3,24× (Claude) против 1,37× (OpenAI)
Арабский: 2,86× (Claude) против 1,31× (OpenAI)
Русский: 2,04× (Claude) против 1,31× (OpenAI)
Китайский: 1,71× (Claude) против 1,15× (OpenAI)
Иными словами, если индийский разработчик использует API Claude для обработки контента на хинди, фактические расходы могут быть в три раза выше (или больше) по сравнению с той же задачей на английском, а скорость ответа дополнительно снижается из-за раздувания числа токенов.
Поперечное сравнение шести моделей: китайские локальные модели обгоняют, а Gemini показывает лучшие результаты
Тепловая карта: коэффициенты расхода токенов у шести моделей по языкам
Затем Komatsuzaki в следующем посте расширил сравнение, включив Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6 и другие модели. Результаты демонстрируют:
Gemini 3.1: 1,22× (самый дружелюбный к пользователям неанглийских языков)
Qwen 3.6: 1,23×
OpenAI: 1,33×
DeepSeek V4: 1,49×
Kimi K2.6: 1,76×
Anthropic: 2,07× (самый недружелюбный к пользователям неанглийских языков)
По данным видно, что токен-расход на китайском в Qwen (0,85×), DeepSeek (0,87×) и Kimi (0,81×) ниже английского базового ориентира, что указывает на глубокую оптимизацию локальных моделей под китайский. Сам Komatsuzaki в ответе признался: «Я не ожидал, что Claude будет настолько плохим и несбалансированным».
Тревога сообщества: «разрыв по стоимости» — серьёзная проблема на пути к популяризации ИИ
Результаты эксперимента вызвали сильный отклик в сообществе X: многие разработчики, использующие неанглийские языки, отмечают, что на практике обработка тех же документов на китайском или корейском с помощью Claude действительно стоит заметно дороже, чем с Gemini.
Споры также затронули технические причины: различия в эффективности токенизатора в основном связаны с тем, что тренировочные данные в значительной степени представлены английским контентом и латиницей, из-за чего модели хуже понимают другие системы письма — и на каждый символ или лексическую единицу уходит больше токенов. Даже несмотря на то, что пользователей, говорящих на хинди, в мире насчитывается несколько сотен миллионов, относительная редкость высококачественных обучающих материалов и сложная структура этого языка делает его самым дорогим для использования ИИ сегментом.
Некоторые пользователи считают, что у Anthropic основной фокус — англоязычные корпоративные клиенты и сценарии разработки кода, поэтому мотивации для оптимизации под множество языков недостаточно. В противовес этому OpenAI, по их мнению, лучше работает с языковым контентом: «ИИ должен быть равноправной демократичной технологией, но неанглийские пользователи в итоге платят за языковую дискриминацию».
Теперь эта дискуссия вокруг дизайна токенизатора — уже не просто техническая проблема, а показатель того, как в процессе глобального расширения ИИ-индустрии проявляется дисбаланс.
В этой статье «Claude тоже будет брать языковой налог?» исследование: при переводе с/на китайский, японский и корейский потребляется больше всего, почти до трёх раз больше токенов — впервые появилась на Блокчейн-новостях ABMedia.
Related News
BioMysteryBench: Mythos 解 специалистам — неразрешимая задача 29,6%
Оксфордский институт интернета: дружелюбное обучение повышает частоту ошибок ИИ на 7,43 процентных пункта
Вице-президент по глубокому обучению в Nvidia считает, что расходы на ИИ-вычисления превышают затраты на зарплаты персонала
Аналитики по полупроводникам настроены оптимистично по поводу рынка ИИ: «как минимум еще на три года» — передовая упаковка является главной «узкой» частью отрасли
Легендарный трейдер хедж-фонда рассказал о P/E американского рынка: тем, кто в ближайшие несколько лет будет покупать широкий рынок, будет очень трудно получить прибыль