Согласно последней оценке Vending-Bench 2 от Andon Labs, GLM 5.2 занял второе место в тесте долгосрочного бизнес-симулятора. Бенчмарк моделировал 365-дневную работу компании по продаже вендинговых автоматов, при этом модели ежедневно принимали решения о запасах и ценообразовании на основе финансовых данных для оценки согласованности решений в течение длительных задач.
Версии GLM продемонстрировали последовательный линейный рост, при этом среднемесячное улучшение прибыли составило около 1 000 долларов (GLM 5 показал среднюю прибыль 4 432 доллара, GLM 5.1 достиг 5 634 долларов). Напротив, Kimi K2.7 Code показал худшие результаты по сравнению с K2.6, в то время как Minimax M3 значительно улучшился по сравнению с M2.5, но остался существенно ниже обеих серий Kimi и GLM по общей прибыльности.