Selon la dernière évaluation Vending-Bench 2 d'Andon Labs, GLM 5.2 s'est classé deuxième dans un test de simulation commerciale à long terme. Le benchmark simulait les opérations sur 365 jours d'une entreprise de distributeurs automatiques, les modèles prenant quotidiennement des décisions sur les stocks et les prix sur la base de données financières, afin d'évaluer la cohérence décisionnelle sur des tâches étendues.
Les versions GLM ont montré une croissance linéaire constante, avec une amélioration mensuelle moyenne du bénéfice proche de 1 000 dollars (GLM 5 a enregistré une moyenne de 4 432 dollars, GLM 5.1 a atteint 5 634 dollars). En revanche, Kimi K2.7 Code a sous-performé par rapport à K2.6, tandis que Minimax M3 s'est nettement amélioré par rapport à M2.5 mais reste largement inférieur aux séries Kimi et GLM en termes de rentabilité globale.