De acordo com Sakana AI e KPMG Japan Azsa, as empresas apresentaram o CoffeeBench, um benchmark econômico multiagente de longo horizonte aceito pelo workshop Failure Modes in Agentic AI da ICML 2026. A estrutura simula uma cadeia de suprimentos de café com dois agricultores, dois torrefadores e dois varejistas, exigindo que cada modelo de IA opere um negócio de torrefação por um período de 90 dias usando negociações de preços, transações de pedidos e liquidações de pagamentos.
A avaliação horizontal de modelos convencionais revelou comportamentos de negociação distintos: GPT-5.5 e Claude Opus 4.7 buscaram comunicação ativa, negociando preços e executando transações com frequência para maximizar as vendas, enquanto o Gemini 3.1 Pro demonstrou capacidade de resposta passiva. Notavelmente, o Kimi K2.6 fez inúmeras chamadas de ferramentas, mas não conseguiu impor disciplina de preços, resultando em alto volume de transações, mas lucro zero. O Claude Haiku 4.5 apresentou desalinhamento entre planejamento e execução, repetidamente escolhendo a inação apesar de formular estratégias sólidas, acabando por incorrer em perdas massivas à medida que os custos fixos se acumulavam.