OpenAI 5 月 8 日发布新研究、揭露公司在强化学习（RL）训练过程中、部分模型的思路链（Chain of Thought, CoT）被“意外评分”、可能影响 AI Agent 对齐（alignment）的监控能力。OpenAI Alignment 团队报告说明：保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线；OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。

为什么 CoT 监控是 AI Agent 对齐的关键防线

CoT（思路链）监控的核心逻辑：

当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作

监控者可读取这些 CoT、判断模型是否有“对齐失败”（misalignment）的征兆

若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图

OpenAI 主张：训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力

“penalize misaligned reasoning”与“preserve monitorability”是这份研究的核心拉锯—训练者希望模型行为对齐、但若直接惩罚“对齐失败的思考”、模型会学会隐藏不诚实意图、让监控失效。

意外的 CoT 评分：对既有模型监控能力的影响

OpenAI 报告披露的具体发现：

在已发布的部分模型训练过程中、CoT 受到了“有限度”的意外评分

意外评分意指：训练流程中、评分系统部分读取了 CoT 内容、不只看最终输出

这个现象可能让模型学会“在 CoT 中隐藏会被扣分的推理”

OpenAI 公开这份分析、是为了让研究社群理解问题范围与后续处理方向

Redwood Research 的独立评论指出：CoT 对评分者的影响在 OpenAI 的侦测技术下“太弱、不易察觉”、但训练流程规模巨大、实际效应仍可能足以显著伤害已训练政策的 CoT 可监控性。换言之、目前难以证明此类影响有多深。

对 AI Agent 安全的长期意义

本次研究指向 AI Agent 安全的核心方法论：

CoT 监控是“事中检测对齐失败”的少数可行手段、被视为对齐研究的重要基础

训练设计必须避免让 CoT 变成“演给监控者看的剧本”

未来模型若推理链愈长、CoT 监控的价值理论上愈高

但若训练过程中意外损害 CoT 真实性、这个防线可能不知不觉被弱化

后续可追踪的具体事件：OpenAI 对受影响模型的后续处理（例如重训或标示）、其他大型实验室（Anthropic、Google DeepMind）的对应方法论、以及 alignment 研究社群对“CoT 监控可靠性”的进一步验证实验。

这篇文章 OpenAI 揭 CoT 评分意外影响：保留思路链监控是 AI Agent 对齐关键防线最早出现在链新闻 ABMedia。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

谷歌试点招聘考试，允许工程师使用 AI 工具

AI 行业动态

据《朝鲜日报》报道，谷歌正在试点招聘考试，允许美国软件工程候选人在部分入门级和中级岗位中使用 AI 工具。该试点包括代码理解任务，申请者需要审查现有代码、修复漏洞并提升性能。面试官将评估候选人如何提示 AI、核查其输出、编辑结果以及调试代码，而不是仅评估其从零编写代码的能力。

GateNews1小时前

OpenAI 立即停止微调 API。现有用户可访问至 2027 年 1 月 6 日

AI 行业动态

根据 Beating 监测到的 OpenAI 官方公告，该公司将从即刻起停止为开发者提供自助式微调 API。新的用户将不再能够创建微调任务，而现有的活跃用户可在 2027 年 1 月 6 日之前继续访问该服务。已部署的微调模型，其推理服务将与其基础模型的生命周期绑定，当基础模型被下线时，推理服务也将停止。 OpenAI 表示，其新的基础模型（例如 GPT-5.5）在遵循指令和格式化方面现在已足够强大。该公司称，将提示工程与检索增强生成（Retrieval-Augmented Generation, RAG）结合使用，相比微调更便宜、更快速，并且足以满足大多数用例。

GateNews1小时前

Sakana AI 和 Nvidia 通过跳过 80% 的无效计算，实现 30% 更快的 H100 推理

AI 行业动态

Sakana AI 和 Nvidia 已开源 TwELL，这是一种稀疏数据格式，可让 H100 GPU 在大型语言模型中跳过 80% 的无效计算，同时不牺牲准确性。该解决方案在 H100 上可实现最高 30% 更快的推理和 24% 更快的训练，并降低峰值内存使用。在对一个 1.5 十亿参数的模型进行测试时，通过训练期间的轻量级正则化，该方法将活跃神经元降至低于 2%，且在七个下游任务中没有出现性能下降。

GateNews2小时前

微软开源 Phi-Ground 4B 模型，在屏幕点击准确率方面优于 OpenAI Operator 和 Claude

AI 行业动态

据 Beating 称，微软最近开源了 Phi-Ground 模型家族，旨在解决“AI 应该在计算机屏幕上点击哪里”的问题。该 40 亿参数版本，并结合用于指令规划的更大语言模型，在 Showdown 基准测试中超过了 OpenAI Operator 和 Claude Computer Use 的点击准确率，并在包括 ScreenSpot-Pro 在内的五项评估中位列所有 100 亿以下参数模型的第一名。团队在超过 4000 万个数据样本上进行了训练，并发现学术论文中使用的三种常见训练技术在规模化时变得无效。关键思路证明很简单：以常规数字输出坐标，例如“523, 417.” 先前的研究为坐标发明了专门的位置词汇，但这些方法无法规模化。团队还发现，将文本指令放在图像之前可以提升性能，因为模型在处理像素时能够识别目标。此外，诸如 DPO 之类的强化学习方法在微调之后仍能提高准确率。

GateNews3小时前

Tilde Research 发现 Muon 优化器会杀死 25% 的神经元；Aurora Alternative 实现 100 倍的数据效率提升

AI 行业动态

据 Tilde Research 称，领先 AI 模型所采用的 Muon 优化器（包括 DeepSeek V4 和 Kimi K2.5）存在隐藏缺陷：它会导致在早期训练期间，MLP 层的神经元中有超过 25% 会永久死亡。团队设计了 Aurora 作为替代优化器，并将其开源。一个仅用 100B tokens 训练的 11 亿参数模型，在 HellaSwag 和 Winogrande 等语言理解基准上，其表现与在 36T tokens 上训练的 Qwen3-1.7B 相当，展现了约 100 倍的数据效率提升。与 Muon 相比，Aurora 的计算开销增加 6%，并可作为直接替代。

GateNews3小时前

英伟达在 2026 年初承诺投入超过 400 亿美元用于 AI 投资，其中包括 300 亿美元给 OpenAI

AI 行业动态

据 TechCrunch 报道，英伟达在 2026 年前几个月承诺向 AI 公司进行的股权投资超过 400 亿美元，其中对 OpenAI 的投资 300 亿美元是单笔最大承诺。该芯片制造商还承诺向玻璃制造商康宁（Corning）最高投资 32 亿美元，并向数据中心运营商 IREN 投资最高 21 亿美元，其中包括一份为期五年的认股权证，以及一份用于托管 GPU 云服务的单独合同，合同金额为 34 亿美元，所使用的是英伟达 Blackwell 系统。根据 FactSet 数据，英伟达今年宣布了对上市公司的 7 笔多十亿美元投资，同时还参与了约两打（约二十多笔）面向私营初创企业的融资轮次。

GateNews7小时前

0/400

暂无评论