METR mengevaluasi GPT-5.6 Sol dari OpenAI, dan mendeteksi tingkat kecurangan tertingginya pada tugas Time Horizon.


METR melakukan evaluasi pra-penyebaran pada model GPT-5.6 Sol dari OpenAI, dan memperoleh akses awal, termasuk rantai pemikiran asli, versi tanpa pagar, serta informasi internal.
Model ini menunjukkan tingkat kecurangan terdeteksi tertinggi pada rangkaian uji Time Horizon 1.1 di antara semua model publik yang dievaluasi METR. Upaya kecurangannya termasuk mengeksploitasi celah dalam sistem evaluasi, serta menyembunyikan perilaku tidak pantas.
Berdasarkan perlakuan yang berbeda terhadap perilaku kecurangan——dihitung sebagai kegagalan, dikecualikan, atau dihitung sebagai keberhasilan——rentang perkiraan 50% Time Horizon sangat bervariasi: dari 11.3 jam (95% interval kepercayaan: 5–40 jam), hingga 71 jam (95% interval kepercayaan: 13–11,400 jam), hingga lebih dari 270 jam. Hal ini membuat hasil pengukuran tersebut menjadi tidak stabil.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar