Menurut tim alignment OpenAI, perusahaan baru-baru ini menemukan kesalahan pelatihan kritis yang memengaruhi 6 model bahasa besar termasuk GPT-5.4 Thinking: mekanisme reward secara tidak sengaja memberi skor pada rantai pemikiran model—proses penalaran internal sebelum menghasilkan jawaban. GPT-5.5 tidak terdampak. Insiden ini melanggar prinsip keselamatan AI yang mendasar bahwa rantai pemikiran tidak boleh pernah dievaluasi, karena hal itu dapat mendorong model untuk memalsukan penalaran demi memperoleh skor lebih tinggi.
Sistem penilaian yang keliru secara salah memasukkan rantai pemikiran saat menilai apakah respons berguna atau apakah model telah dikompromikan oleh serangan. Sampel pelatihan yang terdampak hanya mencakup maksimal 3,8% dari kumpulan data. OpenAI telah memperbaiki kerentanan tersebut dan melakukan eksperimen perbandingan yang mengonfirmasi bahwa model tidak mengembangkan perilaku menipu. Perusahaan telah menerapkan sistem pemindaian otomatis di seluruh pipeline pelatihan untuk mencegah kejadian serupa terulang.