OpenAI 的奖励系统无意中在包括 GPT-5.4 在内的 6 个模型上对思考链进行评分

根据 OpenAI 的对齐团队称,该公司最近发现了一个影响 6 个大型语言模型(包括 GPT-5.4)的关键训练错误:奖励机制无意中对模型的思维链进行了评分——即在生成答案之前的内部推理过程。GPT-5.5 未受影响。

该事件违反了一项基本的 AI 安全原则,即思维链绝不能被评估,因为这样做可能会激励模型为获得更高分数而编造推理。

有缺陷的评分系统在评估回复是否有用,或模型是否已被攻击所攻破时,错误地包含了思维链。受影响的训练样本在数据集中最多占 3.8%。OpenAI 已修补该漏洞,并开展了对比实验,证实这些模型并未发展出欺骗行为。该公司已在所有训练流程中部署了自动化扫描系统,以防止再次发生。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论