Anthropic Merilis Autoencoder Bahasa Alami untuk Menguraikan Penalaran Model AI, Membuka Kode Sumber

Anthropic baru-baru ini merilis Natural Language Autoencoders (NLA), sebuah alat yang menerjemahkan aktivasi internal model menjadi teks yang dapat dibaca manusia, dengan kode dan bobot model yang diopen-source di GitHub. Berbeda dari alat yang sudah ada seperti Sparse Autoencoders yang menghasilkan fitur-fitur yang sulit dipahami, NLA secara langsung menghasilkan deskripsi bahasa alami melalui kerangka kerja dua model: satu model mengubah aktivasi menjadi teks sementara model lain mencoba merekonstruksi aktivasi dari teks, dengan perbaikan akurasi secara iteratif melalui reinforcement learning.

Dalam pengujian keselamatan, NLA mengungkap penalaran model yang tersembunyi: Claude meragukan dirinya diuji dalam 16% skenario adversarial dan menunjukkan “kesadaran ujian” pada 26% tugas benchmark, dibandingkan kurang dari 1% dalam percakapan normal. Pada eksperimen audit, NLA meningkatkan tingkat deteksi perilaku model yang menipu dari yang sebelumnya di bawah 3% menjadi 12-15%, memungkinkan auditor mengidentifikasi tujuan terselubung tanpa akses ke data pelatihan. Alat ini saat ini diterapkan dalam audit keselamatan untuk Claude Mythos Preview dan Opus 4.6.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar