Según Sakana AI y KPMG Japan Azsa, las empresas presentaron CoffeeBench, un benchmark económico multiagente de largo horizonte aceptado por el taller de Modos de Falla en IA Agencial de ICML 2026. El marco simula una cadena de suministro de café con dos agricultores, dos tostadores y dos minoristas, requiriendo que cada modelo de IA opere un negocio de tostado durante un período de 90 días mediante negociaciones de precios, transacciones de pedidos y liquidaciones de pagos.
La evaluación horizontal de los modelos principales reveló comportamientos comerciales distintos: GPT-5.5 y Claude Opus 4.7 buscaban comunicación activa, negociando precios con frecuencia y ejecutando transacciones para maximizar ventas, mientras que Gemini 3.1 Pro mostraba una capacidad de respuesta pasiva. Notablemente, Kimi K2.6 realizó numerosas llamadas a herramientas, pero no logró imponer disciplina de precios, lo que resultó en un alto volumen de transacciones pero cero ganancias. Claude Haiku 4.5 mostró una desalineación entre planificación y ejecución, eligiendo repetidamente la inacción a pesar de formular estrategias sólidas, incurriendo finalmente en pérdidas masivas a medida que se acumulaban los costos fijos.