据动察 Beating 监测，Sakana AI 联合英伟达开源了名为 TwELL 的稀疏数据格式及配套加速内核，成功让 GPU 在运行大模型时，跳过那些「结果接近于零」的无效计算。这套方案在不损失模型准确率的前提下，让 H100 的推理速度最高提升 30%，训练最高提速 24%，并大幅节省峰值显存。

大模型的前馈层（FFN）吃掉了绝大部分的参数和算力。但实际上，每次生成文字时，这里有超过 80% 的神经元都处于「休眠状态」（激活值接近零），对最终结果毫无贡献。如果能跳过这些神经元，就能省下海量算力。然而，现代 GPU 天生只擅长计算整齐划一的密集矩阵，如果用传统方法去挑出散落的有用数据，光是来回寻找和读取数据的开销，就会把省下来的算力全搭进去。

TwELL 格式正是为了打破这个硬件魔咒。它完全顺着 GPU 的并行逻辑设计：不再像传统方法那样跨区域拼凑非零数据，而是把数据切成 GPU 最擅长处理的小方块（tile）。这样，GPU 的各个计算核心就能在本地直接打包有用的数据，彻底省去了耗时的全局显存读写，完美融入现代芯片的加速流水线。

在 15 亿参数模型的实测中，只需在训练时加一点轻微的正则化，就能把真正需要计算的神经元比例压低到不足 2%，且七项下游任务的表现均未下降。数据还揭示了一个规律：模型参数量越大，休眠的神经元就越多（20 亿参数模型的非零比例比 5 亿模型还要低 38%）。这意味着，在未来追求更大规模的大模型时，这套针对底层硬件的优化将释放出更可观的性能红利。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
104.07万热度
#
BTC重返8万
5945.03万热度
#
日本国债上链24小时交易
190.82万热度
#
韩国加密征税倒计时
255.44万热度
#
Polymarket每日热点
87.09万热度

Sakana AI联合英伟达：让GPU跳过大模型八成无效计算，H100推理提速30%

热门话题

Gate广场五月交易分享

BTC重返8万

日本国债上链24小时交易

韩国加密征税倒计时

Polymarket每日热点

置顶