Selon Sakana AI et KPMG Japan Azsa, les entreprises ont dévoilé CoffeeBench, un benchmark économique multi-agent à long horizon accepté par l'atelier Failure Modes in Agentic AI d'ICML 2025. Le framework simule une chaîne d'approvisionnement de café avec deux agriculteurs, deux torréfacteurs et deux détaillants, chaque modèle d'IA devant gérer une entreprise de torréfaction sur une période de 90 jours via des négociations de prix, des transactions de commandes et des règlements de paiement.
L'évaluation horizontale des modèles grand public a révélé des comportements commerciaux distincts : GPT-5.5 et Claude Opus 4.7 ont adopté une communication active, négociant fréquemment les prix et exécutant des échanges pour maximiser les ventes, tandis que Gemini 3.1 Pro a montré une réactivité passive. Notamment, Kimi K2.6 a effectué de nombreux appels d'outils mais n'a pas réussi à imposer une discipline de prix, ce qui a généré un volume de transactions élevé mais un bénéfice nul. Claude Haiku 4.5 a présenté un décalage entre planification et exécution, choisissant à plusieurs reprises l'inaction malgré des stratégies solides, pour finalement subir des pertes massives à mesure que les coûts fixes s'accumulaient.