根據 Sakana AI 與 KPMG Japan Azsa,兩家公司推出了 CoffeeBench,這是一個多智能體長期經濟學基準測試,已被 ICML 2026 的「Agentic AI 失敗模式」研討會接受。該框架模擬了一條咖啡供應鏈,包含兩名農民、兩名烘焙商和兩名零售商,要求每個 AI 模型在 90 天內透過價格協商、訂單交易和付款結算來經營烘焙業務。
主流模型的橫向評估揭示了不同的交易行為:GPT-5.5 和 Claude Opus 4.7 追求積極溝通,頻繁協商價格並執行交易以最大化銷售,而 Gemini 3.1 Pro 則表現出被動回應。值得注意的是,Kimi K2.6 發出了大量工具呼叫,但未能執行價格紀律,導致交易量高但利潤為零。Claude Haiku 4.5 表現出規劃與執行不一致,儘管制定了穩健的策略,卻反覆選擇不行動,最終因固定成本累積而蒙受巨額虧損。