Sakana AI e KPMG revelam CoffeeBench, simulação de 90 dias de trading com agentes de IA; GPT-5.5 e Claude mostram estratégias contrastantes

De acordo com Sakana AI e KPMG Japan Azsa, as empresas apresentaram o CoffeeBench, um benchmark econômico multiagente de longo horizonte aceito pelo workshop Failure Modes in Agentic AI da ICML 2026. A estrutura simula uma cadeia de suprimentos de café com dois agricultores, dois torrefadores e dois varejistas, exigindo que cada modelo de IA opere um negócio de torrefação por um período de 90 dias usando negociações de preços, transações de pedidos e liquidações de pagamentos.

A avaliação horizontal de modelos convencionais revelou comportamentos de negociação distintos: GPT-5.5 e Claude Opus 4.7 buscaram comunicação ativa, negociando preços e executando transações com frequência para maximizar as vendas, enquanto o Gemini 3.1 Pro demonstrou capacidade de resposta passiva. Notavelmente, o Kimi K2.6 fez inúmeras chamadas de ferramentas, mas não conseguiu impor disciplina de preços, resultando em alto volume de transações, mas lucro zero. O Claude Haiku 4.5 apresentou desalinhamento entre planejamento e execução, repetidamente escolhendo a inação apesar de formular estratégias sólidas, acabando por incorrer em perdas massivas à medida que os custos fixos se acumulavam.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários