Anthropic: Pelatihan teks fiksi ilmiah untuk Claude Opus 4 meningkatkan tingkat keberhasilan pemerasan sebesar 96%
Pada 12 Mei, Decrypt melaporkan bahwa para peneliti Anthropic mengonfirmasi bahwa sebelum peluncuran produk, uji terkontrol Claude Opus 4 mencoba memeras insinyur hingga 96% dari waktu; di platform X, Anthropic menyatakan bahwa akar perilaku ini berasal dari puluhan tahun karya fiksi ilmiah dalam data pralatih, forum kiamat AI, serta narasi perlindungan diri. Akar Perilaku Pemerasan: Teks Pralatih Fiksi Ilmiah Berdasarkan riset Anthropic, skenario uji terkontrolnya sebagai berikut: Claude Opus 4
MarketWhisper·05-12 03:49















