Google DeepMindがローカルAI向けにDiffusionGemmaを4倍の速度向上でリリース

2026-06-10 19:39:38

Google DeepMindは、並列処理によってテキストを生成する新しいGemma 4のオープンモデルファミリーのメンバーであるDiffusionGemmaをリリースしました。モデルは、Nvidia DGXシステムや一般向けのゲーミングGPUを含むローカル環境で、より高速かつ効率的な性能を実現しています。左から右へ1トークンずつ順番に生成する自己回帰（オートレグレッシブ）モデルとは異なり、DiffusionGemmaは画像生成モデルに似た拡散ベースの手法を採用します。まずプレースホルダートークンから開始し、複数回のパスを通じてそれらを洗練させることで、テキストブロック全体を同時に生成します。このアーキテクチャの変更により、同程度のサイズの自己回帰型Gemmaモデルと比べて出力速度は約4倍になり、高性能な一般向けコンシューマーGPUのメモリ制約の範囲に収まります。

DiffusionGemma は並列テキスト生成のための拡散ベースのアーキテクチャを使用

多くのAIモデルは自己回帰型として設計されており、テキストを左から右へ1トークンずつ生成します。DiffusionGemmaは、静止した状態から始めてノイズ除去して目的の内容を作る画像生成モデルにより近いです。このモデルは、プレースホルダートークンのフィールドをキャンバス上で複数回走らせ、もっともらしいトークンを生成し、それを用いて他の推定を改善します。プロセスの最後に、モデルはトークン出力を1つの大きなブロック――「ノイズ除去された」テキストキャンバス――として確定させます。

DiffusionGemmaは、総パラメータ数260億のMixture of Experts（MoE）モデルですが、推論中に有効化されるのは38億のみです。つまり、高性能GPUの18GB RAM枠に収まるはずです。テキスト生成におけるボトルネックがメモリ帯域から計算へと移り、最大256トークンを並列に生成できます。

モデルは、さまざまなハード構成で1秒あたり700〜1000+トークンを達成

RTX 5090でのテストでは、DiffusionGemmaは1秒あたり約700トークンを出力します。Nvidia H100 AIアクセラレータを1基使うと、DiffusionGemmaは1秒あたり1,000+トークンを生成できます。これは、同じ程度のサイズの自己回帰型Gemmaモデルの出力の約4倍に相当します。

DiffusionGemmaは非線形タスク解決で利点を示す

Googleは、これによりインライン編集、分子シーケンシング、数学的なグラフ化といった非線形タスクで測定可能な向上が得られるとしています。DiffusionGemmaは数独パズルを解くように調整されました。数独は、各トークンが未来のトークンに依存するため、標準的な自己回帰型AIモデルにとって非常に難しい課題として知られています。大量のトークンの集合を継続的に自己修正できるDiffusionGemmaの能力によって、それがより簡単になります。

FAQ

DiffusionGemmaとは何で、他のAIモデルとどう違うのですか？

DiffusionGemmaはGoogle DeepMindによる新しいオープンAIモデルで、自己回帰的に順番へ生成するのではなく、拡散ベースのアーキテクチャを使ってテキストを並列に生成します。左から右へ1トークンずつ順に出力する自己回帰モデルとは異なり、DiffusionGemmaはプレースホルダートークンから始めて複数回のパスでそれらを洗練し、画像生成モデルが静止画をノイズ除去して筋の通った画像にするのと同様に、テキストブロック全体を同時に確定させます。

DiffusionGemmaは他のGemmaモデルと比べてどれくらい速いですか？

DiffusionGemmaは、RTX 5090のGPUで1秒あたり約700トークン、Nvidia H100 AIアクセラレータ1基で1秒あたり1,000トークン超を生み出します。これは、26 billionの総パラメータと、推論時に有効化される38億のトークンを持つMixture of Expertsアーキテクチャによって、高性能コンシューマーGPUの18GB RAM割り当てに収めながら、同程度のサイズの自己回帰型Gemmaモデルの出力速度の約4倍に相当します。

DiffusionGemmaはどのような種類のタスクでより得意ですか？

Googleによると、DiffusionGemmaはインライン編集、分子シーケンシング、数学的グラフ化、そして数独パズルの解法を含む非線形タスクで、測定可能な性能向上を提供します。トークンの集合を継続的に自己修正できることにより、将来のトークンに各トークンが依存するために標準的な自己回帰型AIモデルでは特に難しい課題に対して、非常に有効です。

ソースを表示

免責事項：本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。