Google DeepMind publie DiffusionGemma avec un gain de vitesse 4x pour l’IA locale

2026-06-10 19:39:38

Google DeepMind a publié DiffusionGemma, un nouvel élément de la famille de modèles open Gemma 4 qui génère du texte via un traitement parallèle plutôt que par génération séquentielle de jetons. Le modèle obtient des performances plus rapides et plus efficaces sur du matériel local, y compris les systèmes Nvidia DGX et les GPU gaming grand public. Contrairement aux modèles autorégressifs qui produisent du texte de gauche à droite, un jeton à la fois, DiffusionGemma utilise une approche basée sur la diffusion similaire à celle des modèles de génération d’images : elle commence avec des jetons de remplacement, puis les affine en plusieurs passes afin de produire simultanément des blocs de texte entiers. Ce changement d’architecture permet d’atteindre environ quatre fois la vitesse de sortie de modèles Gemma autorégressifs de taille similaire, tout en tenant compte des contraintes de mémoire des GPU grand public haut de gamme.

DiffusionGemma utilise une architecture de diffusion pour la génération de texte en parallèle

La plupart des modèles d’IA sont conçus pour être autorégressifs, en générant du texte de gauche à droite, un jeton à la fois. DiffusionGemma a plus à voir avec les modèles de génération d’images, qui commencent par un contenu statique puis le débruitent pour créer le contenu souhaité. Le modèle fait passer un champ de jetons de remplacement sur la « toile » plusieurs fois pour générer des jetons probables et les utiliser ensuite pour améliorer l’estimation des autres. À la fin du processus, le modèle finalise ses sorties de jetons dans un grand bloc : la toile de texte « débruitée ».

DiffusionGemma est un modèle Mixture of Experts (MoE) avec un total de 26 milliards de paramètres, mais seulement 3,8 milliards sont activés pendant l’inférence. Cela signifie qu’il devrait tenir dans l’enveloppe de 18 Go de RAM d’un GPU haut de gamme. Cette approche déplace le goulot d’étranglement de la bande passante mémoire vers le calcul, en générant jusqu’à 256 jetons en parallèle.

Le modèle atteint 700-1000+ jetons par seconde sur diverses configurations matérielles

Lors des tests avec un RTX 5090, DiffusionGemma produit environ 700 jetons par seconde. Avec un seul accélérateur d’IA Nvidia H100, DiffusionGemma peut produire 1 000+ jetons par seconde. C’est environ quatre fois la sortie des modèles Gemma autorégressifs de taille similaire.

DiffusionGemma montre des avantages pour la résolution de tâches non linéaires

Google indique que cela apporte un gain mesurable dans des tâches non linéaires comme l’édition en ligne, le séquençage moléculaire et la représentation graphique mathématique. DiffusionGemma a été réglé pour résoudre des grilles de Sudoku, une tâche notoirement difficile pour les modèles d’IA autorégressifs standard, car chaque jeton dépend de jetons futurs. La capacité de DiffusionGemma à s’auto-corriger en continu de grands ensembles de jetons rend cela plus facile.

FAQ

Qu’est-ce que DiffusionGemma et en quoi diffère-t-il des autres modèles d’IA ?

DiffusionGemma est un nouveau modèle open AI de Google DeepMind qui utilise une architecture basée sur la diffusion pour générer du texte en parallèle plutôt qu’en séquentiel. Contrairement aux modèles autorégressifs qui produisent du texte un jeton à la fois de gauche à droite, DiffusionGemma commence avec des jetons de remplacement et les affine au fil de plusieurs passes, en finalisant simultanément des blocs de texte, de façon similaire à la manière dont les modèles de génération d’images débruitent une statique pour produire des images cohérentes.

À quelle vitesse DiffusionGemma est-il plus rapide que les autres modèles Gemma ?

DiffusionGemma produit environ 700 jetons par seconde sur un GPU RTX 5090 et plus de 1 000 jetons par seconde sur un seul accélérateur d’IA Nvidia H100. Cela représente environ quatre fois la vitesse de sortie des modèles Gemma autorégressifs de taille similaire, tout en entrant dans l’allocation de 18 Go de RAM des GPU grand public haut de gamme grâce à son architecture Mixture of Experts avec 26 milliards de paramètres au total et 3,8 milliards activés pendant l’inférence.

Quels types de tâches DiffusionGemma réalise-t-il mieux ?

Google indique que DiffusionGemma offre des améliorations de performance mesurables sur des tâches non linéaires, notamment l’édition en ligne, le séquençage moléculaire, la représentation graphique mathématique et la résolution de grilles de Sudoku. La capacité du modèle à s’auto-corriger en continu de grands ensembles de jetons le rend particulièrement efficace pour les tâches où chaque jeton dépend de jetons futurs, ce qui est notoirement difficile pour les modèles d’IA autorégressifs standard.

Afficher la source

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

Il y a 18h

Google lance Gemini 3.5 Live Translate, qui prend en charge plus de 70 langues pour la traduction de la parole en temps réel

Il y a 21h

La matrice D, soutenue par Microsoft, commence à expédier cette semaine la puce d’IA Corsair, en citant des gains de performance de 2x à 10x

06-09 15:22

Google lance la traduction vocale en temps réel de Gemini 3.5 du 9 juin