币界网消息,Sakana AI联合英伟达开源了名为twell的稀疏数据格式及配套加速内核,成功让GPU在运行大模型时,跳过那些「结果接近于零」的无效计算。这套方案在不损失模型准确率的前提下,让H100的推理速度最高提升30%,训练最高提速24%,并大幅节省峰值显存。数据还揭示了一个规律:模型参数量越大,休眠的神经元就越多(20亿参数模型的非零比例比5亿模型还要低38%)。这意味着,在未来追求更大规模的大模型时,这套针对底层硬件的优化将释放出更可观的性能红利。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论