O Google lançou o DiffusionGemma de código aberto, com velocidade 4 vezes maior, mas com qualidade inferior ao Gemma 4

DiffusionGemma

O Google DeepMind divulgou oficialmente e lançou como código aberto o DiffusionGemma em 10 de junho, como um novo membro da família de modelos de código aberto Gemma 4. O DiffusionGemma usa uma arquitetura de geração de texto por difusão, combinada com um design de Mixture of Experts (MoE). Em todos os testes de benchmark públicos já divulgados, as pontuações do DiffusionGemma ficam abaixo do Gemma 4 padrão.

Dados oficiais de testes de velocidade e especificações de hardware

Conforme os números de confirmação divulgados oficialmente pelo Google:

Teste de velocidade (Google oficial, sem validação de terceiros)

Nvidia RTX 5090 (nível consumidor): cerca de 700 tokens/segundo

Nvidia H100 (nível data center): ultrapassou 1.000 tokens/segundo

Multiplicador de avaliação própria: cerca de 4 vezes em relação a modelos Gemma de mesmo tamanho em execução auto-regressiva

Arquitetura e parâmetros

Quantidade total de parâmetros: 26 bilhões (26B)

Parâmetros ativos em inferência: 3,8 bilhões (3.8B)

Necessidade de VRAM: pode ser executado em placas de vídeo de ponta com 18GB de VRAM (especialmente as versões quantizadas)

Máximo de processamento paralelo: até 256 tokens ao mesmo tempo

Licença: Apache 2.0

Mecanismo de geração: principais diferenças entre difusão e auto-regressão

Os modelos auto-regressivos padrão geram palavra por palavra, em sequência: cada token depende do resultado do token anterior. O gargalo está na largura de banda da memória—para cada token emitido, é necessário ler os pesos do modelo na memória.

O fluxo do DiffusionGemma é diferente: primeiro, ele coloca tokens de posição por toda a área de saída, realiza várias rodadas de redução de ruído e, a cada rodada, faz com que todos os tokens em todas as posições sejam atualizados simultaneamente, corrigindo uns aos outros, até que todo o conteúdo convirja para a saída final. Esse modo de computação intensivo em paralelismo desloca o gargalo da largura de banda da memória para o poder de computação da GPU, aproveitando melhor a capacidade paralela das GPUs modernas.

O Google, na documentação oficial, dá exemplos de que o DiffusionGemma tem vantagens estruturais em tarefas de lógica não linear, como resolver Sudoku, porque tais tarefas frequentemente envolvem relações complexas de dependência entre posições, enquanto a forma linear de geração do modo auto-regressivo é naturalmente limitada.

Resultados dos benchmarks: todas as pontuações divulgadas ficam abaixo do Gemma 4

O Google confirmou, nos dados divulgados, que em todos os testes de benchmark públicos já publicados, a pontuação do DiffusionGemma fica abaixo do Gemma 4 padrão. Isso significa que o ganho de velocidade de 4 vezes vem acompanhado de uma queda sistemática na qualidade da geração. Um artigo da BlockTempo aponta que essa troca tem significados bem diferentes para diferentes cenários de aplicação: em situações sensíveis à latência ou que exigem grandes volumes de saída, a vantagem de velocidade é prática; em tarefas com exigência maior de qualidade, o Gemma 4 padrão ainda é mais confiável.

O Google também lista cenários de aplicação para o DiffusionGemma, incluindo: edição inline (in-line editing), geração de sequências moleculares, desenho matemático e tarefas não lineares que envolvem relações complexas de dependência lógica.

Perguntas frequentes

Qual é a diferença essencial nos mecanismos de geração entre o DiffusionGemma e modelos de linguagem auto-regressivos padrão?

Modelos auto-regressivos padrão geram de forma linear, um token por vez, e cada token depende do resultado do anterior. O DiffusionGemma primeiro preenche toda a área de saída com tokens de posição, realiza múltiplas rodadas de redução de ruído, faz com que todas as posições sejam atualizadas simultaneamente a cada rodada e, por fim, gera a redação inteira em uma única saída, tornando a lógica de geração mais parecida com a forma como o Stable Diffusion gera imagens.

Em que hardware o DiffusionGemma pode ser executado localmente?

De acordo com a explicação do Google, o DiffusionGemma pode ser executado em placas de vídeo de alto nível com 18GB de VRAM, especialmente nas versões quantizadas. Os testes oficiais do Google mostram que uma Nvidia RTX 5090 de nível consumidor pode chegar a cerca de 700 tokens por segundo, mas os números acima são autoavaliados pelo Google, não validação independente de terceiros.

Os números de velocidade do DiffusionGemma já foram validados por terceiros?

Ainda não. A BlockTempo afirma explicitamente que todos os números dos testes de velocidade vêm dos testes oficiais do Google, sem validação independente de terceiros; em cenários diferentes e com diferentes comprimentos de geração, as taxas reais de melhoria podem divergir dos números divulgados pelo Google.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários