OpenAI 的獎勵系統意外地在包含 GPT-5.4 的 6 個模型上為思考鏈打分

根據 OpenAI 的對齊團隊,該公司近期發現一項影響 6 個大型語言模型(包含 GPT-5.4)的關鍵訓練錯誤:獎勵機制不慎對模型的思考鏈進行了評分,也就是在生成答案之前的內部推理過程。GPT-5.5 不受影響。

此事件違反一項基本的 AI 安全原則:思考鏈絕不應被納入評估,因為這樣做可能會促使模型編造推理內容,以取得更高分數。

有缺陷的評分系統在判斷回覆是否有用,或模型是否已被攻擊所破壞時,錯誤地將思考鏈納入考量。受影響的訓練樣本占資料集的比例最多為 3.8%。OpenAI 已修補此漏洞,並進行了比較性實驗,確認模型沒有發展出具欺瞞性的行為。該公司已在所有訓練流程中部署自動化掃描系統,以防止再次發生。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆