据 Andon Labs 最新的 Vending-Bench 2 评估,GLM 5.2 在长期业务模拟测试中排名第二。该基准模拟了一家自动售货机公司 365 天的运营,模型根据财务数据每日做出库存和定价决策,以评估模型在长期任务中的决策连贯性。
GLM 版本显示出持续的线性增长,平均每月利润提升接近 1000 美元(GLM 5 平均利润为 4432 美元,GLM 5.1 达到 5634 美元)。相比之下,Kimi K2.7 Code 表现不如 K2.6,而 Minimax M3 相比 M2.5 有显著提升,但在整体盈利能力上仍远低于 Kimi 和 GLM 系列。