Lima Model AI Frontier Berbeda Pendapat pada 67% Klaim Pemeriksaan Fakta dalam Studi Terbaru

Menurut peneliti Kosta Jordanov di Lenz Research, lima model AI frontier berbeda pendapat pada 67% dari 1.000 klaim pemeriksaan fakta dunia nyata yang diuji bulan ini. Model-model tersebut—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro dengan Search, dan Sonar Pro—diminta untuk mengklasifikasikan klaim sebagai benar, sebagian besar benar, menyesatkan, atau salah. Pada 34% kasus, perbedaannya sangat tajam, dengan satu model menyebut klaim benar sementara model lain melabelinya salah.

Studi ini mengukur kesepakatan menggunakan alpha Krippendorff, yang memperoleh skor 0,639 pada skala di mana 1,0 menandakan kesepakatan sempurna; para peneliti umumnya menganggap skor di bawah 0,8 lemah. Kesepakatan sepenuhnya hanya terjadi pada 328 dari 1.000 klaim, dan yang menonjol, nol klaim menerima vonis “sebagian besar benar” secara bulat. Para peneliti menggunakan klaim yang diajukan oleh pengguna nyata ke platform pemeriksaan fakta Lenz, bukan benchmark standar, sehingga mengurangi kemungkinan model mempola-cocokkan terhadap data pelatihan.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
GateUser-84f1f85dvip
· 52menit yang lalu
Vibes 1000x 🤑
Lihat AsliBalas0
GateUser-84f1f85dvip
· 52menit yang lalu
Pegang Teguh HODL 💪
Lihat AsliBalas0
GateUser-84f1f85dvip
· 52menit yang lalu
Bull Run 🐂
Balas0
GateUser-84f1f85dvip
· 52menit yang lalu
Kera di 🚀
Lihat AsliBalas0