Muon悄悄「饿死」25%的神经元:Aurora修复后数据效率翻百倍

区块律动

据动察 Beating 监测,Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Aurora 并开源。一个 1.1B 模型仅用约 100B token,就在 HellaSwag、Winogrande 等语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B。

问题出在 Muon 处理 MLP 权重矩阵时的一个数学特性上。训练初期,一部分神经元碰巧收到了较弱的梯度信号。AdamW 等传统优化器会逐参数归一化,自然拉平这种差异;但 Muon 的正交化步骤会把弱信号原封不动地传下去。弱的神经元持续得到弱更新,越来越沉默,形成「强者恒强」的死循环。到训练第 500 步,已有超过四分之一的神经元实质性死亡,白白浪费了参数容量。

此前的改进版 NorMuon 通过强制拉平每行更新幅度来缓解,但代价是破坏了更新矩阵的正交性(正交化让每步更新尽可能高效,是 Muon 的核心优势),损失了优化精度。Aurora 把「更新均匀」和「正交性」设为联合约束,用交替迭代同时满足两者:既让每个神经元都得到公平的学习机会,又不牺牲更新精度。

未调参的 Aurora 仅比 Muon 多 6% 计算开销,可直接替换。在 modded-nanoGPT 优化跑分中,Aurora 以 3175 步刷新了当前最优纪录。Aurora 的优势还会随 MLP 宽度增大而放大,扩展系数越高,改善越明显。

代码和 1.1B 预训练模型均已开源。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

谷歌试点招聘考试,允许工程师使用 AI 工具

据《朝鲜日报》报道,谷歌正在试点招聘考试,允许美国软件工程候选人在部分入门级和中级岗位中使用 AI 工具。该试点包括代码理解任务,申请者需要审查现有代码、修复漏洞并提升性能。面试官将评估候选人如何提示 AI、核查其输出、编辑结果以及调试代码,而不是仅评估其从零编写代码的能力。

GateNews19 分钟前

OpenAI 立即停止微调 API。现有用户可访问至 2027 年 1 月 6 日

根据 Beating 监测到的 OpenAI 官方公告,该公司将从即刻起停止为开发者提供自助式微调 API。新的用户将不再能够创建微调任务,而现有的活跃用户可在 2027 年 1 月 6 日之前继续访问该服务。已部署的微调模型,其推理服务将与其基础模型的生命周期绑定,当基础模型被下线时,推理服务也将停止。 OpenAI 表示,其新的基础模型(例如 GPT-5.5)在遵循指令和格式化方面现在已足够强大。该公司称,将提示工程与检索增强生成(Retrieval-Augmented Generation, RAG)结合使用,相比微调更便宜、更快速,并且足以满足大多数用例。

GateNews55 分钟前

Sakana AI 和 Nvidia 通过跳过 80% 的无效计算,实现 30% 更快的 H100 推理

Sakana AI 和 Nvidia 已开源 TwELL,这是一种稀疏数据格式,可让 H100 GPU 在大型语言模型中跳过 80% 的无效计算,同时不牺牲准确性。该解决方案在 H100 上可实现最高 30% 更快的推理和 24% 更快的训练,并降低峰值内存使用。在对一个 1.5 十亿参数的模型进行测试时,通过训练期间的轻量级正则化,该方法将活跃神经元降至低于 2%,且在七个下游任务中没有出现性能下降。

GateNews1小时前

微软开源 Phi-Ground 4B 模型,在屏幕点击准确率方面优于 OpenAI Operator 和 Claude

据 Beating 称,微软最近开源了 Phi-Ground 模型家族,旨在解决“AI 应该在计算机屏幕上点击哪里”的问题。该 40 亿参数版本,并结合用于指令规划的更大语言模型,在 Showdown 基准测试中超过了 OpenAI Operator 和 Claude Computer Use 的点击准确率,并在包括 ScreenSpot-Pro 在内的五项评估中位列所有 100 亿以下参数模型的第一名。 团队在超过 4000 万个数据样本上进行了训练,并发现学术论文中使用的三种常见训练技术在规模化时变得无效。关键思路证明很简单:以常规数字输出坐标,例如“523, 417.” 先前的研究为坐标发明了专门的位置词汇,但这些方法无法规模化。团队还发现,将文本指令放在图像之前可以提升性能,因为模型在处理像素时能够识别目标。此外,诸如 DPO 之类的强化学习方法在微调之后仍能提高准确率。

GateNews2小时前

Tilde Research 发现 Muon 优化器会杀死 25% 的神经元;Aurora Alternative 实现 100 倍的数据效率提升

据 Tilde Research 称,领先 AI 模型所采用的 Muon 优化器(包括 DeepSeek V4 和 Kimi K2.5)存在隐藏缺陷:它会导致在早期训练期间,MLP 层的神经元中有超过 25% 会永久死亡。团队设计了 Aurora 作为替代优化器,并将其开源。一个仅用 100B tokens 训练的 11 亿参数模型,在 HellaSwag 和 Winogrande 等语言理解基准上,其表现与在 36T tokens 上训练的 Qwen3-1.7B 相当,展现了约 100 倍的数据效率提升。与 Muon 相比,Aurora 的计算开销增加 6%,并可作为直接替代。

GateNews2小时前

英伟达在 2026 年初承诺投入超过 400 亿美元用于 AI 投资,其中包括 300 亿美元给 OpenAI

据 TechCrunch 报道,英伟达在 2026 年前几个月承诺向 AI 公司进行的股权投资超过 400 亿美元,其中对 OpenAI 的投资 300 亿美元是单笔最大承诺。该芯片制造商还承诺向玻璃制造商康宁(Corning)最高投资 32 亿美元,并向数据中心运营商 IREN 投资最高 21 亿美元,其中包括一份为期五年的认股权证,以及一份用于托管 GPU 云服务的单独合同,合同金额为 34 亿美元,所使用的是英伟达 Blackwell 系统。根据 FactSet 数据,英伟达今年宣布了对上市公司的 7 笔多十亿美元投资,同时还参与了约两打(约二十多笔)面向私营初创企业的融资轮次。

GateNews6小时前
评论
0/400
暂无评论