O Google DeepMind lança o DiffusionGemma com aumento de 4x na velocidade para IA local

A Google DeepMind lançou o DiffusionGemma, um novo integrante da família de modelos abertos Gemma 4 que gera texto por processamento paralelo, em vez de geração sequencial de tokens. O modelo alcança desempenho mais rápido e mais eficiente em hardware local, incluindo sistemas Nvidia DGX e GPUs gamer de consumo. Diferente dos modelos autorregressivos, que produzem texto da esquerda para a direita, um token de cada vez, o DiffusionGemma usa uma abordagem baseada em difusão semelhante à de modelos de geração de imagens: ele começa com tokens de placeholder e os refina em várias passagens para produzir blocos inteiros de texto simultaneamente. Essa mudança arquitetural permite uma velocidade de saída aproximadamente quatro vezes maior do que a de modelos Gemma autorregressivos de tamanho semelhante, ao mesmo tempo em que se encaixa nas limitações de memória de GPUs gamer de alto padrão.

DiffusionGemma usa uma arquitetura baseada em difusão para geração de texto em paralelo

A maioria dos modelos de IA é projetada para ser autorregressiva, gerando texto da esquerda para a direita, um token por vez. O DiffusionGemma tem mais em comum com modelos de geração de imagens, que começam com um conteúdo estático e depois o desfazem (denoise) para criar o conteúdo desejado. Este modelo executa um campo de tokens de placeholder sobre a “tela” (canvas) por várias vezes para gerar tokens prováveis e, com eles, melhorar a estimativa dos demais. Ao final do processo, o modelo finaliza as saídas de seus tokens em um único bloco grande — a “tela” de texto “desfazeira” (denoised).

O DiffusionGemma é um modelo Mixture of Experts (MoE) com um total de 26 bilhões de parâmetros, mas apenas 3,8 bilhões são ativados durante a inferência. Isso significa que ele deve caber na alocação de 18GB de RAM de uma GPU topo de linha. Essa abordagem para geração de texto desloca o gargalo de largura de banda de memória para computação, gerando até 256 tokens em paralelo.

O modelo atinge 700-1000+ tokens por segundo em diferentes configurações de hardware

Em testes com um RTX 5090, o DiffusionGemma produz cerca de 700 tokens por segundo. Com um único acelerador de IA Nvidia H100, o DiffusionGemma pode gerar 1.000+ tokens por segundo. Isso equivale a cerca de quatro vezes a saída dos modelos Gemma autorregressivos de tamanho semelhante.

DiffusionGemma mostra vantagens para resolver tarefas não lineares

O Google afirma que isso oferece um ganho mensurável em tarefas não lineares, como edição em linha, sequenciamento molecular e plotagem de grafos matemáticos. O DiffusionGemma foi ajustado para resolver quebra-cabeças de Sudoku, uma tarefa notoriamente difícil para modelos de IA autorregressivos padrão, porque cada token depende de tokens futuros. A capacidade do DiffusionGemma de se corrigir continuamente em grandes conjuntos de tokens torna essa abordagem mais simples.

FAQ

O que é DiffusionGemma e como ele se diferencia de outros modelos de IA?

DiffusionGemma é um novo modelo de IA aberto da Google DeepMind que usa uma arquitetura baseada em difusão para gerar texto em paralelo, em vez de sequencialmente. Diferente dos modelos autorregressivos, que produzem texto um token por vez da esquerda para a direita, o DiffusionGemma começa com tokens de placeholder e os refina em várias passagens, finalizando blocos inteiros de texto simultaneamente, de forma semelhante a como modelos de geração de imagens desfazem o estático para criar imagens coerentes.

Quão rápido o DiffusionGemma é em comparação com outros modelos Gemma?

O DiffusionGemma produz cerca de 700 tokens por segundo em uma GPU RTX 5090 e mais de 1.000 tokens por segundo em um único acelerador de IA Nvidia H100. Isso representa aproximadamente quatro vezes a velocidade de saída de modelos Gemma autorregressivos de tamanho semelhante, ao mesmo tempo em que se encaixa na alocação de 18GB de RAM de GPUs gamer de alto padrão, graças à sua arquitetura Mixture of Experts, com 26 bilhões de parâmetros no total e 3,8 bilhões ativados durante a inferência.

Que tipos de tarefas o DiffusionGemma executa melhor?

O Google afirma que o DiffusionGemma oferece melhorias mensuráveis de desempenho em tarefas não lineares, incluindo edição em linha, sequenciamento molecular, plotagem matemática de grafos e resolução de quebra-cabeças de Sudoku. A capacidade do modelo de se corrigir continuamente em grandes conjuntos de tokens o torna particularmente efetivo em tarefas em que cada token depende de tokens futuros — algo notoriamente desafiador para modelos de IA autorregressivos padrão.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários