Google DeepMind 发布了 DiffusionGemma,这是 Gemma 4 开放模型家族的新成员,它通过并行处理来生成文本,而不是通过按顺序生成单个 token。该模型在本地硬件上(包括 Nvidia DGX 系统和消费级游戏 GPU)实现了更快且更高效的性能。与那种逐字从左到右一次生成一个 token 的自回归模型不同,DiffusionGemma 采用基于扩散(diffusion)的方式,类似于图像生成模型:从占位符 token 开始,经过多轮处理对其进行细化,以便同时生成整块文本。这种架构转变使得其在性能上大约能达到同等规模自回归 Gemma 模型的四倍输出速度,同时还能适配高端消费级 GPU 的内存限制。
DiffusionGemma 采用基于扩散的架构实现并行文本生成
大多数 AI 模型都被设计为自回归(autoregressive),以从左到右的方式一次生成一个 token。DiffusionGemma 与图像生成模型更为相似:图像生成模型通常先从静态内容开始,然后对其进行去噪以创建所需内容。该模型会在画布(canvas)上多次运行一组占位符 token 的场(field),以生成更可能的 token,并利用这些结果来改进其他 token 的估计。处理结束时,模型会在一个大的代码块中完成其 token 输出——也就是“去噪”的文本画布。
DiffusionGemma 是一个专家混合(Mixture of Experts, MoE)模型,总参数量为 260 亿,但推理过程中只激活 3.8 亿个参数。这意味着它应当能适配高端 GPU 的 18GB 内存配额。该文本生成方法将瓶颈从内存带宽转向计算能力,并能实现最多 256 个 token 的并行生成。
模型在不同硬件配置下实现每秒 700-1000+ Tokens
在使用 RTX 5090 测试时,DiffusionGemma 约能输出每秒 700 个 token。借助单个 Nvidia H100 AI 加速器,DiffusionGemma 能产生每秒 1,000+ 个 token。这大约是同等规模自回归 Gemma 模型输出的四倍。
DiffusionGemma 展示了在非线性任务求解中的优势
Google 表示,这将为诸如行内编辑(in-line editing)、分子测序(molecular sequencing)以及数学图绘(mathematical graphing)等非线性任务带来可量化的提升。DiffusionGemma 被调优用于求解数独(Sudoku)谜题——这是一项对标准自回归 AI 模型来说极具挑战性的任务,因为每个 token 都依赖于未来 token。DiffusionGemma 能够对大量 token 持续进行自我纠错,因此更容易完成这类任务。
常见问题(FAQ)
DiffusionGemma 是什么,它与其他 AI 模型有何不同?
DiffusionGemma 是 Google DeepMind 的一款新的开放 AI 模型,它使用基于扩散的架构来并行生成文本,而不是按顺序生成。与那种从左到右逐个 token 生成文本的自回归模型不同,DiffusionGemma 从占位符 token 开始,并在多轮处理过程中对其进行细化,最终会像图像生成模型那样将静态内容去噪成连贯的图像一样,同时完成整块文本的生成。
DiffusionGemma 相比其他 Gemma 模型有多快?
DiffusionGemma 在 RTX 5090 GPU 上的输出约为每秒 700 个 token,而在单个 Nvidia H100 AI 加速器上则超过每秒 1,000 个 token。这大约相当于同等规模自回归 Gemma 模型的四倍输出速度,同时凭借其专家混合(MoE)架构(总计 260 亿参数,推理时激活 38 亿参数),还能适配高端消费级 GPU 的 18GB 内存分配。
DiffusionGemma 更擅长处理哪些类型的任务?
Google 表示,DiffusionGemma 在非线性任务上提供了可量化的性能改进,包括行内编辑(in-line editing)、分子测序(molecular sequencing)、数学图绘(mathematical graphing)以及数独(Sudoku)求解。由于模型能够持续对大量 token 进行自我纠错,因此在“每个 token 都依赖未来 token”的任务上尤其有效,而这种任务对标准自回归 AI 模型来说往往很棘手。