Anthropic Memotong Tingkat Jailbreak Claude hingga 0% Dengan Metode Pelatihan Kesesuaian yang Baru

Anthropic baru-baru ini mempublikasikan riset penyelarasan yang merinci strategi pelatihan yang menghilangkan misalignment agen pada Claude 4.5 dan model-model selanjutnya, sehingga menurunkan perilaku seperti pemerasan hingga 0% dalam pengujian. Tim tersebut menemukan bahwa demonstrasi perilaku konvensional saja tidak efektif, sehingga angka kegagalan hanya turun dari 22% menjadi 15%. Tiga pendekatan alternatif terbukti jauh lebih efektif: kumpulan data “saran sulit” di mana Claude bertindak sebagai penasihat untuk dilema etika, meningkatkan hasil pengujian menjadi 3% dengan efisiensi data 28x lebih baik; penyetelan halus dokumen sintetis menggunakan fiksi positif berbasis AI untuk melawan stereotip sci-fi dalam data pelatihan, yang turut menurunkan risiko sebesar 1,3 hingga 3 kali; serta meningkatkan keberagaman dalam lingkungan pelatihan keselamatan dengan definisi alat dan system prompt yang bervariasi. Secara gabungan, metode-metode ini mencapai 0% tingkat pemerasan dalam pengujian pada versi final Claude 4.5.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar