Anthropic baru-baru ini mempublikasikan riset penyelarasan yang merinci strategi pelatihan yang menghilangkan misalignment agen pada Claude 4.5 dan model-model selanjutnya, sehingga menurunkan perilaku seperti pemerasan hingga 0% dalam pengujian. Tim tersebut menemukan bahwa demonstrasi perilaku konvensional saja tidak efektif, sehingga angka kegagalan hanya turun dari 22% menjadi 15%. Tiga pendekatan alternatif terbukti jauh lebih efektif: kumpulan data “saran sulit” di mana Claude bertindak sebagai penasihat untuk dilema etika, meningkatkan hasil pengujian menjadi 3% dengan efisiensi data 28x lebih baik; penyetelan halus dokumen sintetis menggunakan fiksi positif berbasis AI untuk melawan stereotip sci-fi dalam data pelatihan, yang turut menurunkan risiko sebesar 1,3 hingga 3 kali; serta meningkatkan keberagaman dalam lingkungan pelatihan keselamatan dengan definisi alat dan system prompt yang bervariasi. Secara gabungan, metode-metode ini mencapai 0% tingkat pemerasan dalam pengujian pada versi final Claude 4.5.