Message de Gate News, 29 avril — La chercheuse en IA Aran Komatsuzaki a mené une analyse comparative de l’efficacité de la tokenisation sur six grands modèles d’IA en traduisant le papier fondateur de Rich Sutton « The Bitter Lesson » dans neuf langues et en les traitant avec les tokenizers d’OpenAI, Gemini, Qwen, DeepSeek, Kimi et Claude. En utilisant le nombre de tokens de la version anglaise sur OpenAI comme base (1x), l’étude a révélé d’importantes disparités : traiter le même contenu en chinois nécessitait 1,65x tokens sur Claude, contre seulement 1,15x sur OpenAI. L’hindi a montré un résultat encore plus extrême sur Claude, dépassant la base de plus de 3x. Anthropic est arrivé en dernière position parmi les six modèles testés.
Critiquement, lorsque le même texte chinois identique a été traité sur différents modèles—tous mesurés par rapport à la même base anglaise—les résultats ont divergé de manière spectaculaire : Kimi n’a consommé que 0,81x tokens (même en dessous de l’anglais), Qwen 0,85x, tandis que Claude en demandait 1,65x. Cet écart révèle un problème pur d’efficacité de tokenisation, pas une question intrinsèque de langue. Les modèles chinois ont démontré une efficacité supérieure pour le traitement du chinois, ce qui suggère que la disparité provient d’optimisations du tokenizer plutôt que de la langue elle-même.
Les implications pratiques pour les utilisateurs sont considérables : une consommation accrue de tokens augmente directement les coûts des API, prolonge la latence des réponses des modèles et épuise plus rapidement les fenêtres de contexte. L’efficacité de la tokenisation dépend de la composition linguistique des données d’entraînement d’un modèle—les modèles entraînés principalement sur l’anglais compressent l’anglais plus efficacement, tandis que les langues moins représentées sont tokenisées en fragments plus petits et moins efficaces.
La conclusion de Komatsuzaki souligne un principe fondamental : la taille du marché détermine l’efficacité de la tokenisation. Les marchés plus vastes bénéficient d’une meilleure optimisation, tandis que les langues sous-représentées font face à des coûts de tokens nettement plus élevés.
Related News
AWS étend l’intégration d’OpenAI dans Amazon Bedrock
Rapport de recherche Crypto de a16z : le taux d’exploitation des vulnérabilités DeFi par des agents IA atteint 70%
NVIDIA annonce Nemotron 3 Nano Omni open source multi-modal