Google DeepMind 發布 DiffusionGemma,具備本地 AI 4 倍加速優勢

Google DeepMind 發布了 DiffusionGemma,這是 Gemma 4 開放模型家族中的新成員,能透過平行處理來生成文字,而不是像逐字元(token)序列生成那樣按順序產生。該模型在本地硬體上(包含 Nvidia DGX 系統與消費型遊戲用 GPU)能達到更快且更有效率的效能。與自回歸模型(autoregressive)從左到右一次產生一個 token 的方式不同,DiffusionGemma 採用類似影像生成模型的擴散(diffusion)方法:先從佔位 token 開始,並在多次通過(passes)中逐步精煉它們,以同時生成整段文字區塊。這種架構轉變使得輸出速度可達同規模自回歸 Gemma 模型的約四倍,同時能在高階消費型 GPU 的記憶體限制內運作。

DiffusionGemma 使用擴散式架構進行平行文字生成

多數 AI 模型都被設計成自回歸(autoregressive),也就是一次從左到右生成一個 token。DiffusionGemma 與影像生成模型有更多相似之處:影像生成模型會先從靜態內容開始,接著進行去噪(denoise)以產生所需內容。該模型會讓一組佔位 token 的場(field)在畫布上多次運行,以生成可能的 token,並利用這些 token 來改善對其他 token 的估計。流程結束時,模型會在一個大型區塊中完成其 token 輸出——也就是「去噪後」的文字畫布。

DiffusionGemma 是一個專家混合(Mixture of Experts,MoE)模型,共有 260 億(26 billion)個參數,但在推論(inference)時只啟用 38 億(3.8 billion)。這表示它應該能符合高階 GPU 18GB 記憶體的配置。這種文字生成方式將瓶頸從記憶體頻寬轉向運算(compute),可在平行模式下最多生成 256 個 token。

模型在不同硬體配置下達到每秒 700 到 1000+ 個 Tokens

在 RTX 5090 的測試中,DiffusionGemma 每秒可輸出約 700 個 tokens。使用單顆 Nvidia H100 AI 加速器時,DiffusionGemma 能產生每秒 1000+ 個 tokens。這大約是同規模自回歸 Gemma 模型輸出的四倍。

DiffusionGemma 展示在非線性任務解題上的優勢

Google 表示,這能在非線性任務(例如行內編輯、分子序列(molecular sequencing)與數學圖繪(mathematical graphing))上帶來可量化的提升。DiffusionGemma 針對解數獨(Sudoku)進行調校,因為對標準自回歸 AI 模型而言,這是一項特別具有挑戰性的任務:每個 token 依賴未來 token。DiffusionGemma 能持續對大量 token 進行自我修正,因此更容易解決這類問題。

FAQ

什麼是 DiffusionGemma?它與其他 AI 模型有何不同?

DiffusionGemma 是 Google DeepMind 推出的新開放式 AI 模型,採用擴散式架構來平行生成文字,而不是序列式地生成。與自回歸模型從左到右一次生成一個 token 的方式不同,DiffusionGemma 會先從佔位 token 開始,並在多次通過中對其逐步精煉,最後會同時完成整段文字區塊;其概念類似影像生成模型將靜態內容去噪成連貫的影像。

DiffusionGemma 相較於其他 Gemma 模型有多快?

在 RTX 5090 GPU 上,DiffusionGemma 每秒大約輸出 700 個 tokens;在單顆 Nvidia H100 AI 加速器上則超過 1000 個 tokens。這代表在符合高階消費型 GPU 18GB 記憶體配置的同時,其輸出速度約是同規模自回歸 Gemma 模型的四倍;原因在於其專家混合(Mixture of Experts)架構:總計 260 億參數,推論時啟用 38 億參數。

DiffusionGemma 擅長哪些類型的任務?

Google 表示,DiffusionGemma 在非線性任務上(包含行內編輯、分子序列、數學圖繪以及解數獨)能帶來可量化的效能改善。由於模型能持續對大量 token 進行自我修正,因此特別適合那些每個 token 都依賴未來 token 的任務;而這類任務對標準自回歸 AI 模型而言通常相當困難。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆