Sakana AI dan KPMG Meluncurkan CoffeeBench, Simulasi Perdagangan Agen AI Selama 90 Hari; GPT-5.5 dan Claude Menunjukkan Strategi yang Bertolak Belakang

Menurut Sakana AI dan KPMG Japan Azsa, perusahaan-perusahaan tersebut meluncurkan CoffeeBench, sebuah tolok ukur ekonomi multi-agen jangka panjang yang diterima oleh workshop Failure Modes in Agentic AI ICML 2026. Kerangka kerja ini mensimulasikan rantai pasokan kopi dengan dua petani, dua pemanggang, dan dua pengecer, yang mengharuskan setiap model AI mengoperasikan bisnis pemanggangan selama periode 90 hari dengan menggunakan negosiasi harga, transaksi pesanan, dan penyelesaian pembayaran.

Evaluasi horizontal terhadap model-model mainstream mengungkapkan perilaku perdagangan yang berbeda: GPT-5.5 dan Claude Opus 4.7 mengejar komunikasi aktif, sering melakukan negosiasi harga dan menjalankan perdagangan untuk memaksimalkan penjualan, sementara Gemini 3.1 Pro menunjukkan responsivitas pasif. Perlu dicatat, Kimi K2.6 melakukan banyak panggilan alat tetapi gagal menegakkan disiplin harga, menghasilkan volume transaksi tinggi namun keuntungan nol. Claude Haiku 4.5 menunjukkan ketidakselarasan perencanaan-eksekusi, berulang kali memilih tidak bertindak meskipun telah merumuskan strategi yang solid, yang akhirnya menyebabkan kerugian besar karena biaya tetap yang terakumulasi.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar