根據 OpenAI 的對齊團隊,該公司近期發現一項影響 6 個大型語言模型(包含 GPT-5.4)的關鍵訓練錯誤:獎勵機制不慎對模型的思考鏈進行了評分,也就是在生成答案之前的內部推理過程。GPT-5.5 不受影響。
此事件違反一項基本的 AI 安全原則:思考鏈絕不應被納入評估,因為這樣做可能會促使模型編造推理內容,以取得更高分數。
有缺陷的評分系統在判斷回覆是否有用,或模型是否已被攻擊所破壞時,錯誤地將思考鏈納入考量。受影響的訓練樣本占資料集的比例最多為 3.8%。OpenAI 已修補此漏洞,並進行了比較性實驗,確認模型沒有發展出具欺瞞性的行為。該公司已在所有訓練流程中部署自動化掃描系統,以防止再次發生。
Related News