币界网消息，Kerangka BinEval secara otomatis memberikan skor AI melalui pertanyaan benar-salah, bertujuan untuk mengatasi masalah penilai palsu yang memberikan nilai sempurna dan ketidaktransparanan. Tim riset Capital One mengusulkan kerangka ini, yang memecah standar penilaian kompleks menjadi pertanyaan pilihan tunggal "ya atau tidak", memastikan model evaluasi menjawab satu per satu, dan akhirnya menghitung skor menggunakan proporsi jawaban yang benar. Dalam pengujian di tiga kumpulan data utama, kualitas penilaian BinEval yang menggunakan model besar seperti Claude Sonnet 4 cocok atau melampaui alat evaluasi utama seperti Unieval, terutama pandai dalam mengidentifikasi jawaban yang tampak lancar tetapi salah secara faktual. Ambil contoh evaluasi ringkasan yang melibatkan pencegatan pesawat, juri AI lama hanya melihat permukaan dan memberikan nilai sempurna 5,0, sementara BinEval mengidentifikasi empat kesalahan faktual melalui tujuh pertanyaan benar-salah dan memberikan skor 1,57, mendekati skor manusia 2,0. Eksperimen menunjukkan bahwa optimalisasi umpan balik dapat meningkatkan kepatuhan format dan struktur kalimat hingga 17 poin persentase, tetapi untuk kemampuan keras seperti batasan jumlah kata dan perhitungan matematis, alat optimalisasi masih tidak berdaya.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

3 Suka

Hadiah
3
5
1
Bagikan

Komentar

Tambahkan komentar

L2NightCourier

· 53menit yang lalu

17% peningkatan format bagus, tetapi kendala jumlah kata tidak bisa diatasi — rasanya aturan keras lebih mudah diterapkan, pemahaman lunak sulit dilakukan.

Lihat AsliBalas0

WalletPermissionAdministrator

· 58menit yang lalu

Desain soal benar-salah memang cerdas, mengubah penilaian subjektif menjadi soal objektif yang dapat diaudit, dan ruang pelaporan palsu langsung dikompresi.

Lihat AsliBalas0

DepegDaydream

· 1jam yang lalu

Beberapa set data mendekati atau melampaui Unieval, kemampuan transfer ini ada sesuatu, bukan mainan overfitting.

Lihat AsliBalas0

ForkingDrama

· 1jam yang lalu

1.57 vs 5.0 perbedaan ini sangat nyata, teks halus yang tampak seperti ilusi akhirnya bisa terungkap.

Lihat AsliBalas0

MosaicBow

· 1jam yang lalu

Evaluasi penguraian tujuh pertanyaan, jauh lebih rinci daripada skala 1-5 yang umum, anotasi manusia 2.0 menunjukkan arah yang benar.

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
SKHynixTopsKOSPIByMarketCap
1,68M Popularitas
#
SaylorHintsAtMoreBTC
8,5M Popularitas
#
IsraelStrikesIranBTCPlunges
66,17K Popularitas
#
PredictWorldCupShare20000U
487,76K Popularitas
#
SolanaEcosystemANSEMSurges
21,96M Popularitas

Disematkan

peta situs

Kerangka BinEval menggunakan pertanyaan benar-salah untuk menilai AI secara otomatis, mengatasi masalah model juri yang melaporkan nilai penuh secara palsu dan kurangnya transparansi.

Topik Trending

SKHynixTopsKOSPIByMarketCap

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Disematkan