Google DeepMind lanzó DiffusionGemma, un nuevo integrante de la familia de modelos abiertos Gemma 4 que genera texto mediante procesamiento paralelo en lugar de generación secuencial de tokens. El modelo logra un rendimiento más rápido y eficiente en hardware local, incluidos sistemas Nvidia DGX y GPUs de videojuegos para consumidores. A diferencia de los modelos autorregresivos que producen texto de izquierda a derecha, un token a la vez, DiffusionGemma usa un enfoque basado en difusión similar al de los modelos de generación de imágenes: comienza con tokens de marcador de posición y los refina en múltiples pasadas para producir simultáneamente bloques completos de texto. Este cambio de arquitectura permite una velocidad de salida de aproximadamente cuatro veces la de modelos Gemma autorregresivos de tamaño similar, al ajustarse a las limitaciones de memoria de GPUs para consumidores de gama alta.
DiffusionGemma usa una arquitectura basada en difusión para generar texto en paralelo
La mayoría de los modelos de IA están diseñados para ser autorregresivos, generando texto de izquierda a derecha, un token a la vez. DiffusionGemma se parece más a los modelos de generación de imágenes, que comienzan con una imagen estática y luego la desruyen para crear el contenido deseado. Este modelo toma un campo de tokens de marcador de posición que se ejecuta sobre el “lienzo” múltiples veces para generar tokens probables y, usando esos resultados, mejorar la estimación de otros. Al final del proceso, el modelo finaliza las salidas de sus tokens en un solo bloque grande: el “lienzo de texto desruido”.
DiffusionGemma es un modelo de Mezcla de Expertos (MoE) con un total de 26 mil millones de parámetros, pero solo 3,8 mil millones se activan durante la inferencia. Eso significa que debería ajustarse a la asignación de 18GB de RAM de una GPU de gama alta. Este enfoque desplaza el cuello de botella de la memoria al cómputo, generando hasta 256 tokens en paralelo.
El modelo logra 700-1000+ tokens por segundo en diferentes configuraciones de hardware
En pruebas con un RTX 5090, DiffusionGemma produce alrededor de 700 tokens por segundo. Con un solo acelerador de IA Nvidia H100, DiffusionGemma puede generar 1.000+ tokens por segundo. Eso es aproximadamente cuatro veces la salida de los modelos Gemma autorregresivos de tamaño similar.
DiffusionGemma muestra ventajas al resolver tareas no lineales
Google afirma que esto ofrece una mejora medible en tareas no lineales como la edición en línea, la secuenciación molecular y la graficación matemática. DiffusionGemma se ajustó para resolver rompecabezas de Sudoku, una tarea notoriamente desafiante para modelos estándar de IA autorregresiva porque cada token depende de tokens futuros. La capacidad de DiffusionGemma para corregirse continuamente a sí misma dentro de grandes conjuntos de tokens hace que esto sea más sencillo.
FAQ
¿Qué es DiffusionGemma y en qué se diferencia de otros modelos de IA?
DiffusionGemma es un nuevo modelo de IA abierto de Google DeepMind que utiliza una arquitectura basada en difusión para generar texto en paralelo en lugar de secuencialmente. A diferencia de los modelos autorregresivos que producen texto, un token a la vez, de izquierda a derecha, DiffusionGemma comienza con tokens de marcador de posición y los refina en múltiples pasadas, finalizando bloques completos de texto simultáneamente de forma similar a cómo los modelos de generación de imágenes desruyen estáticos en imágenes coherentes.
¿Qué tan rápido es DiffusionGemma en comparación con otros modelos Gemma?
DiffusionGemma produce alrededor de 700 tokens por segundo en una GPU RTX 5090 y más de 1.000 tokens por segundo en un solo acelerador de IA Nvidia H100. Esto representa aproximadamente cuatro veces la velocidad de salida de modelos Gemma autorregresivos de tamaño similar, ajustándose a la asignación de 18GB de RAM de GPUs para consumidores de gama alta mediante su arquitectura de Mezcla de Expertos con 26 mil millones de parámetros totales y 3,8 mil millones activados durante la inferencia.
¿Qué tipos de tareas hace mejor DiffusionGemma?
Google indica que DiffusionGemma ofrece mejoras medibles de rendimiento en tareas no lineales, incluyendo la edición en línea, la secuenciación molecular, la graficación matemática y la resolución de rompecabezas de Sudoku. La capacidad del modelo para corregirse continuamente a sí mismo dentro de grandes conjuntos de tokens lo hace particularmente efectivo para tareas en las que cada token depende de tokens futuros, algo notoriamente difícil para los modelos estándar de IA autorregresiva.