Google open-source le modèle DiffusionGemma : plus de 1 000 tokens par seconde sur H100, avec un gain de vitesse x4

D’après Beating monitoring, Google a publié un modèle open-source de génération de texte appelé DiffusionGemma, qui utilise un mécanisme de diffusion pour générer du texte en blocs parallèles plutôt que de manière séquentielle, token par token. Le modèle de 26B paramètres n’active que 3,8B paramètres par passe d’inférence grâce à une architecture mixture-of-experts, atteignant une amélioration de 4x de la vitesse en inférence locale sur GPU.

Sur un seul GPU NVIDIA H100, DiffusionGemma atteint plus de 1000 jetons par seconde, tandis que la RTX 5090 grand public dépasse 700 jetons par seconde. Après quantification en virgule flottante 4 bits, le modèle nécessite moins de 18GB de VRAM. Les poids de DiffusionGemma sont désormais open-sourcés sur Hugging Face et pris en charge par MLX, vLLM, Unsloth et NVIDIA NeMo.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire