Claude будет взимать языковой налог? Исследование: перевод контента на китайском, японском и корейском языках потребляет больше всего токенов — почти в три раза

Исследователь ИИ Aran Komatsuzaki недавно в X опубликовал экспериментальный анализ, разоблачающий серьёзную проблему с токенизаторами (tokenizer) у популярных больших языковых моделей (LLM) — так называемый «налог за неанглийские языки (non-English tax)». В частности, для материалов на языках китайском, японском и корейском в модели Claude от Anthropic приходится расходовать вплоть до почти трёх раз больше токенов, что вызвало бурные обсуждения в сообществе.

Метод эксперимента: количественно оценить разницу языковых издержек на основе классической статьи

Komatsuzaki взял в качестве материала классическую работу «The Bitter Lesson», перевёл её на китайский, хинди, арабский, корейский, японский и другие языки, а затем пропустил тексты через токенизаторы множества моделей, чтобы посчитать число потреблённых токенов. Эксперимент в качестве базового ориентира использует английскую версию OpenAI (1,0×), сравнивая относительную эффективность обработки разных языков через стандартизованные коэффициенты.

Количество токенов напрямую определяет стоимость использования API и задержку ответа: чем больше токенов, тем выше расходы и ниже скорость. Поэтому различия в эффективности токенизатора на практике означают разницу в толщине кошелька и качестве пользовательского опыта.

Komatsuzaki также приложил сайт, который он сам разработал, чтобы считать объём токенов:

AI тоже имеет расовую дискриминацию? Claude языковой налог самый высокий, первым страдает хинди

OpenAI vs. Anthropic: столбчатая диаграмма коэффициентов расхода токенов по языкам

Данные показывают, что у OpenAI коэффициенты по языкам в целом держатся в пределах 1,4×, тогда как разница у Anthropic (Claude) оказывается крайне заметной:

Хинди: 3,24× (Claude) против 1,37× (OpenAI)

Арабский: 2,86× (Claude) против 1,31× (OpenAI)

Русский: 2,04× (Claude) против 1,31× (OpenAI)

Китайский: 1,71× (Claude) против 1,15× (OpenAI)

Иными словами, если индийский разработчик использует API Claude для обработки контента на хинди, фактические расходы могут быть в три раза выше (или больше) по сравнению с той же задачей на английском, а скорость ответа дополнительно снижается из-за раздувания числа токенов.

Поперечное сравнение шести моделей: китайские локальные модели обгоняют, а Gemini показывает лучшие результаты

Тепловая карта: коэффициенты расхода токенов у шести моделей по языкам

Затем Komatsuzaki в следующем посте расширил сравнение, включив Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6 и другие модели. Результаты демонстрируют:

Gemini 3.1: 1,22× (самый дружелюбный к пользователям неанглийских языков)

Qwen 3.6: 1,23×

OpenAI: 1,33×

DeepSeek V4: 1,49×

Kimi K2.6: 1,76×

Anthropic: 2,07× (самый недружелюбный к пользователям неанглийских языков)

По данным видно, что токен-расход на китайском в Qwen (0,85×), DeepSeek (0,87×) и Kimi (0,81×) ниже английского базового ориентира, что указывает на глубокую оптимизацию локальных моделей под китайский. Сам Komatsuzaki в ответе признался: «Я не ожидал, что Claude будет настолько плохим и несбалансированным».

Тревога сообщества: «разрыв по стоимости» — серьёзная проблема на пути к популяризации ИИ

Результаты эксперимента вызвали сильный отклик в сообществе X: многие разработчики, использующие неанглийские языки, отмечают, что на практике обработка тех же документов на китайском или корейском с помощью Claude действительно стоит заметно дороже, чем с Gemini.

Споры также затронули технические причины: различия в эффективности токенизатора в основном связаны с тем, что тренировочные данные в значительной степени представлены английским контентом и латиницей, из-за чего модели хуже понимают другие системы письма — и на каждый символ или лексическую единицу уходит больше токенов. Даже несмотря на то, что пользователей, говорящих на хинди, в мире насчитывается несколько сотен миллионов, относительная редкость высококачественных обучающих материалов и сложная структура этого языка делает его самым дорогим для использования ИИ сегментом.

Некоторые пользователи считают, что у Anthropic основной фокус — англоязычные корпоративные клиенты и сценарии разработки кода, поэтому мотивации для оптимизации под множество языков недостаточно. В противовес этому OpenAI, по их мнению, лучше работает с языковым контентом: «ИИ должен быть равноправной демократичной технологией, но неанглийские пользователи в итоге платят за языковую дискриминацию».

Теперь эта дискуссия вокруг дизайна токенизатора — уже не просто техническая проблема, а показатель того, как в процессе глобального расширения ИИ-индустрии проявляется дисбаланс.

В этой статье «Claude тоже будет брать языковой налог?» исследование: при переводе с/на китайский, японский и корейский потребляется больше всего, почти до трёх раз больше токенов — впервые появилась на Блокчейн-новостях ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев