据 Beating 监测,Google 发布了一个名为 DiffusionGemma 的开源文本生成模型,它使用基于扩散的机制,通过并行块来生成文本,而不是以逐 token 的方式顺序生成。该 26B 参数模型在混合专家架构下,每次前向传递只激活 38 亿参数,实现了本地 GPU 推理 4 倍的速度提升。
在单块 NVIDIA H100 GPU 上,DiffusionGemma 的吞吐量超过每秒 1000 tokens,而消费级 RTX 5090 则超过每秒 700 tokens。经过 4-bit 浮点量化后,该模型所需显存低于 18GB。DiffusionGemma 权重现已在 Hugging Face 开源,并得到 MLX、vLLM、Unsloth 以及 NVIDIA NeMo 的支持。