Google DeepMind lanza DiffusionGemma con un impulso de velocidad 4x para la IA local

2026-06-10 19:39:38

Google DeepMind lanzó DiffusionGemma, un nuevo integrante de la familia de modelos abiertos Gemma 4 que genera texto mediante procesamiento paralelo en lugar de generación secuencial de tokens. El modelo logra un rendimiento más rápido y eficiente en hardware local, incluidos sistemas Nvidia DGX y GPUs de videojuegos para consumidores. A diferencia de los modelos autorregresivos que producen texto de izquierda a derecha, un token a la vez, DiffusionGemma usa un enfoque basado en difusión similar al de los modelos de generación de imágenes: comienza con tokens de marcador de posición y los refina en múltiples pasadas para producir simultáneamente bloques completos de texto. Este cambio de arquitectura permite una velocidad de salida de aproximadamente cuatro veces la de modelos Gemma autorregresivos de tamaño similar, al ajustarse a las limitaciones de memoria de GPUs para consumidores de gama alta.

DiffusionGemma usa una arquitectura basada en difusión para generar texto en paralelo

La mayoría de los modelos de IA están diseñados para ser autorregresivos, generando texto de izquierda a derecha, un token a la vez. DiffusionGemma se parece más a los modelos de generación de imágenes, que comienzan con una imagen estática y luego la desruyen para crear el contenido deseado. Este modelo toma un campo de tokens de marcador de posición que se ejecuta sobre el “lienzo” múltiples veces para generar tokens probables y, usando esos resultados, mejorar la estimación de otros. Al final del proceso, el modelo finaliza las salidas de sus tokens en un solo bloque grande: el “lienzo de texto desruido”.

DiffusionGemma es un modelo de Mezcla de Expertos (MoE) con un total de 26 mil millones de parámetros, pero solo 3,8 mil millones se activan durante la inferencia. Eso significa que debería ajustarse a la asignación de 18GB de RAM de una GPU de gama alta. Este enfoque desplaza el cuello de botella de la memoria al cómputo, generando hasta 256 tokens en paralelo.

El modelo logra 700-1000+ tokens por segundo en diferentes configuraciones de hardware

En pruebas con un RTX 5090, DiffusionGemma produce alrededor de 700 tokens por segundo. Con un solo acelerador de IA Nvidia H100, DiffusionGemma puede generar 1.000+ tokens por segundo. Eso es aproximadamente cuatro veces la salida de los modelos Gemma autorregresivos de tamaño similar.

DiffusionGemma muestra ventajas al resolver tareas no lineales

Google afirma que esto ofrece una mejora medible en tareas no lineales como la edición en línea, la secuenciación molecular y la graficación matemática. DiffusionGemma se ajustó para resolver rompecabezas de Sudoku, una tarea notoriamente desafiante para modelos estándar de IA autorregresiva porque cada token depende de tokens futuros. La capacidad de DiffusionGemma para corregirse continuamente a sí misma dentro de grandes conjuntos de tokens hace que esto sea más sencillo.

FAQ

¿Qué es DiffusionGemma y en qué se diferencia de otros modelos de IA?

DiffusionGemma es un nuevo modelo de IA abierto de Google DeepMind que utiliza una arquitectura basada en difusión para generar texto en paralelo en lugar de secuencialmente. A diferencia de los modelos autorregresivos que producen texto, un token a la vez, de izquierda a derecha, DiffusionGemma comienza con tokens de marcador de posición y los refina en múltiples pasadas, finalizando bloques completos de texto simultáneamente de forma similar a cómo los modelos de generación de imágenes desruyen estáticos en imágenes coherentes.

¿Qué tan rápido es DiffusionGemma en comparación con otros modelos Gemma?

DiffusionGemma produce alrededor de 700 tokens por segundo en una GPU RTX 5090 y más de 1.000 tokens por segundo en un solo acelerador de IA Nvidia H100. Esto representa aproximadamente cuatro veces la velocidad de salida de modelos Gemma autorregresivos de tamaño similar, ajustándose a la asignación de 18GB de RAM de GPUs para consumidores de gama alta mediante su arquitectura de Mezcla de Expertos con 26 mil millones de parámetros totales y 3,8 mil millones activados durante la inferencia.

¿Qué tipos de tareas hace mejor DiffusionGemma?

Google indica que DiffusionGemma ofrece mejoras medibles de rendimiento en tareas no lineales, incluyendo la edición en línea, la secuenciación molecular, la graficación matemática y la resolución de rompecabezas de Sudoku. La capacidad del modelo para corregirse continuamente a sí mismo dentro de grandes conjuntos de tokens lo hace particularmente efectivo para tareas en las que cada token depende de tokens futuros, algo notoriamente difícil para los modelos estándar de IA autorregresiva.

Ver fuente

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

hace18h

Google lanza Gemini 3.5 Live Translate con traducción en tiempo real compatible con más de 70 idiomas

hace21h

D-Matrix, respaldada por Microsoft, comienza a enviar el chip de IA Corsair este mes, citando mejoras de rendimiento de 2x a 10x

06-09 15:22

Google lanza la traducción en tiempo real de voz a voz con Gemini 3.5 el 9 de junio