A Google DeepMind lançou o DiffusionGemma, um novo membro da família de modelos abertos Gemma 4 que gera texto através de processamento em paralelo em vez de geração sequencial de tokens. O modelo alcança um desempenho mais rápido e eficiente em hardware local, incluindo sistemas Nvidia DGX e GPUs gaming de consumo. Ao contrário dos modelos autorregressivos que produzem texto da esquerda para a direita, um token de cada vez, o DiffusionGemma utiliza uma abordagem baseada em difusão semelhante à geração de imagens: começa com tokens de placeholder e refina-os em múltiplas passagens para produzir blocos inteiros de texto em simultâneo. Esta mudança de arquitetura permite uma velocidade de saída de aproximadamente quatro vezes a de modelos Gemma autorregressivos de dimensão semelhante, ao mesmo tempo que cabe nas limitações de memória de GPUs de gama alta de consumo.
DiffusionGemma usa uma arquitetura baseada em difusão para geração de texto em paralelo
A maioria dos modelos de IA foi concebida para ser autorregressiva, gerando texto da esquerda para a direita, um token de cada vez. O DiffusionGemma tem mais em comum com modelos de geração de imagens, que começam com um conteúdo estático e depois o desruído para criar o conteúdo pretendido. Este modelo percorre várias vezes, sobre a “tela” (canvas), um conjunto de tokens placeholder para gerar tokens prováveis e, com eles, melhorar a estimativa dos restantes. No final do processo, o modelo finaliza as suas saídas de tokens num bloco único e grande — a tela de texto “desruída”.
O DiffusionGemma é um modelo Mixture of Experts (MoE) com um total de 26 mil milhões de parâmetros, mas apenas 3,8 mil milhões são ativados durante a inferência. Isso significa que deve caber na atribuição de 18GB de RAM de uma GPU de gama alta. Esta abordagem de geração de texto desloca o gargalo de largura de banda de memória para computação, gerando até 256 tokens em paralelo.
O modelo atinge 700-1000+ tokens por segundo em diferentes configurações de hardware
Em testes com um RTX 5090, o DiffusionGemma produz cerca de 700 tokens por segundo. Com um único acelerador de IA Nvidia H100, o DiffusionGemma consegue produzir 1.000+ tokens por segundo. Isso equivale a cerca de quatro vezes a saída dos modelos Gemma autorregressivos de dimensão semelhante.
DiffusionGemma demonstra vantagens na resolução de tarefas não-lineares
A Google afirma que isto oferece um impulso mensurável em tarefas não-lineares, como edição inline, sequenciação molecular e representação gráfica matemática. O DiffusionGemma foi ajustado para resolver puzzles de Sudoku, uma tarefa notoriamente difícil para modelos de IA autorregressivos padrão, porque cada token depende de tokens futuros. A capacidade do DiffusionGemma de se corrigir continuamente em grandes conjuntos de tokens torna isso mais fácil.
FAQ
O que é o DiffusionGemma e em que se diferencia de outros modelos de IA?
O DiffusionGemma é um novo modelo de IA aberto da Google DeepMind que utiliza uma arquitetura baseada em difusão para gerar texto em paralelo em vez de forma sequencial. Ao contrário dos modelos autorregressivos que geram texto um token de cada vez, da esquerda para a direita, o DiffusionGemma começa com tokens placeholder e refina-os em múltiplas passagens, finalizando blocos inteiros de texto em simultâneo, de forma semelhante a como os modelos de geração de imagens reduzem ruído do estático para criar imagens coerentes.
Quão rápido é o DiffusionGemma em comparação com outros modelos Gemma?
O DiffusionGemma produz cerca de 700 tokens por segundo numa GPU RTX 5090 e mais de 1.000 tokens por segundo num único acelerador de IA Nvidia H100. Isto representa aproximadamente quatro vezes a velocidade de saída de modelos Gemma autorregressivos de dimensão semelhante, ao mesmo tempo que cabe na alocação de 18GB de RAM de GPUs de gama alta de consumo, graças à sua arquitetura Mixture of Experts com 26 mil milhões de parâmetros no total e 3,8 mil milhões ativados durante a inferência.
Que tipos de tarefas o DiffusionGemma executa melhor?
A Google afirma que o DiffusionGemma oferece melhorias mensuráveis de desempenho em tarefas não-lineares, incluindo edição inline, sequenciação molecular, representação gráfica matemática e resolução de puzzles de Sudoku. A capacidade do modelo de se corrigir continuamente em grandes conjuntos de tokens torna-o particularmente eficaz para tarefas em que cada token depende de tokens futuros, algo notoriamente desafiante para modelos de IA autorregressivos padrão.