Kerangka BinEval menggunakan pertanyaan benar-salah untuk menilai AI secara otomatis, mengatasi masalah model juri yang melaporkan nilai penuh secara palsu dan kurangnya transparansi.

robot
Pembuatan abstrak sedang berlangsung
币界网消息,Kerangka BinEval secara otomatis memberikan skor AI melalui pertanyaan benar-salah, bertujuan untuk mengatasi masalah penilai palsu yang memberikan nilai sempurna dan ketidaktransparanan. Tim riset Capital One mengusulkan kerangka ini, yang memecah standar penilaian kompleks menjadi pertanyaan pilihan tunggal "ya atau tidak", memastikan model evaluasi menjawab satu per satu, dan akhirnya menghitung skor menggunakan proporsi jawaban yang benar. Dalam pengujian di tiga kumpulan data utama, kualitas penilaian BinEval yang menggunakan model besar seperti Claude Sonnet 4 cocok atau melampaui alat evaluasi utama seperti Unieval, terutama pandai dalam mengidentifikasi jawaban yang tampak lancar tetapi salah secara faktual. Ambil contoh evaluasi ringkasan yang melibatkan pencegatan pesawat, juri AI lama hanya melihat permukaan dan memberikan nilai sempurna 5,0, sementara BinEval mengidentifikasi empat kesalahan faktual melalui tujuh pertanyaan benar-salah dan memberikan skor 1,57, mendekati skor manusia 2,0. Eksperimen menunjukkan bahwa optimalisasi umpan balik dapat meningkatkan kepatuhan format dan struktur kalimat hingga 17 poin persentase, tetapi untuk kemampuan keras seperti batasan jumlah kata dan perhitungan matematis, alat optimalisasi masih tidak berdaya.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
L2NightCourier
· 53menit yang lalu
17% peningkatan format bagus, tetapi kendala jumlah kata tidak bisa diatasi — rasanya aturan keras lebih mudah diterapkan, pemahaman lunak sulit dilakukan.
Lihat AsliBalas0
WalletPermissionAdministrator
· 58menit yang lalu
Desain soal benar-salah memang cerdas, mengubah penilaian subjektif menjadi soal objektif yang dapat diaudit, dan ruang pelaporan palsu langsung dikompresi.
Lihat AsliBalas0
DepegDaydream
· 1jam yang lalu
Beberapa set data mendekati atau melampaui Unieval, kemampuan transfer ini ada sesuatu, bukan mainan overfitting.
Lihat AsliBalas0
ForkingDrama
· 1jam yang lalu
1.57 vs 5.0 perbedaan ini sangat nyata, teks halus yang tampak seperti ilusi akhirnya bisa terungkap.
Lihat AsliBalas0
MosaicBow
· 1jam yang lalu
Evaluasi penguraian tujuh pertanyaan, jauh lebih rinci daripada skala 1-5 yang umum, anotasi manusia 2.0 menunjukkan arah yang benar.
Lihat AsliBalas0
  • Disematkan