A Google DeepMind Lança o DiffusionGemma com um Impulso de Velocidade 4x para IA Local

2026-06-10 19:39:38

A Google DeepMind lançou o DiffusionGemma, um novo membro da família de modelos abertos Gemma 4 que gera texto através de processamento em paralelo em vez de geração sequencial de tokens. O modelo alcança um desempenho mais rápido e eficiente em hardware local, incluindo sistemas Nvidia DGX e GPUs gaming de consumo. Ao contrário dos modelos autorregressivos que produzem texto da esquerda para a direita, um token de cada vez, o DiffusionGemma utiliza uma abordagem baseada em difusão semelhante à geração de imagens: começa com tokens de placeholder e refina-os em múltiplas passagens para produzir blocos inteiros de texto em simultâneo. Esta mudança de arquitetura permite uma velocidade de saída de aproximadamente quatro vezes a de modelos Gemma autorregressivos de dimensão semelhante, ao mesmo tempo que cabe nas limitações de memória de GPUs de gama alta de consumo.

DiffusionGemma usa uma arquitetura baseada em difusão para geração de texto em paralelo

A maioria dos modelos de IA foi concebida para ser autorregressiva, gerando texto da esquerda para a direita, um token de cada vez. O DiffusionGemma tem mais em comum com modelos de geração de imagens, que começam com um conteúdo estático e depois o desruído para criar o conteúdo pretendido. Este modelo percorre várias vezes, sobre a “tela” (canvas), um conjunto de tokens placeholder para gerar tokens prováveis e, com eles, melhorar a estimativa dos restantes. No final do processo, o modelo finaliza as suas saídas de tokens num bloco único e grande — a tela de texto “desruída”.

O DiffusionGemma é um modelo Mixture of Experts (MoE) com um total de 26 mil milhões de parâmetros, mas apenas 3,8 mil milhões são ativados durante a inferência. Isso significa que deve caber na atribuição de 18GB de RAM de uma GPU de gama alta. Esta abordagem de geração de texto desloca o gargalo de largura de banda de memória para computação, gerando até 256 tokens em paralelo.

O modelo atinge 700-1000+ tokens por segundo em diferentes configurações de hardware

Em testes com um RTX 5090, o DiffusionGemma produz cerca de 700 tokens por segundo. Com um único acelerador de IA Nvidia H100, o DiffusionGemma consegue produzir 1.000+ tokens por segundo. Isso equivale a cerca de quatro vezes a saída dos modelos Gemma autorregressivos de dimensão semelhante.

DiffusionGemma demonstra vantagens na resolução de tarefas não-lineares

A Google afirma que isto oferece um impulso mensurável em tarefas não-lineares, como edição inline, sequenciação molecular e representação gráfica matemática. O DiffusionGemma foi ajustado para resolver puzzles de Sudoku, uma tarefa notoriamente difícil para modelos de IA autorregressivos padrão, porque cada token depende de tokens futuros. A capacidade do DiffusionGemma de se corrigir continuamente em grandes conjuntos de tokens torna isso mais fácil.

FAQ

O que é o DiffusionGemma e em que se diferencia de outros modelos de IA?

O DiffusionGemma é um novo modelo de IA aberto da Google DeepMind que utiliza uma arquitetura baseada em difusão para gerar texto em paralelo em vez de forma sequencial. Ao contrário dos modelos autorregressivos que geram texto um token de cada vez, da esquerda para a direita, o DiffusionGemma começa com tokens placeholder e refina-os em múltiplas passagens, finalizando blocos inteiros de texto em simultâneo, de forma semelhante a como os modelos de geração de imagens reduzem ruído do estático para criar imagens coerentes.

Quão rápido é o DiffusionGemma em comparação com outros modelos Gemma?

O DiffusionGemma produz cerca de 700 tokens por segundo numa GPU RTX 5090 e mais de 1.000 tokens por segundo num único acelerador de IA Nvidia H100. Isto representa aproximadamente quatro vezes a velocidade de saída de modelos Gemma autorregressivos de dimensão semelhante, ao mesmo tempo que cabe na alocação de 18GB de RAM de GPUs de gama alta de consumo, graças à sua arquitetura Mixture of Experts com 26 mil milhões de parâmetros no total e 3,8 mil milhões ativados durante a inferência.

Que tipos de tarefas o DiffusionGemma executa melhor?

A Google afirma que o DiffusionGemma oferece melhorias mensuráveis de desempenho em tarefas não-lineares, incluindo edição inline, sequenciação molecular, representação gráfica matemática e resolução de puzzles de Sudoku. A capacidade do modelo de se corrigir continuamente em grandes conjuntos de tokens torna-o particularmente eficaz para tarefas em que cada token depende de tokens futuros, algo notoriamente desafiante para modelos de IA autorregressivos padrão.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

17h atrás

A Google lança o Gemini 3.5 com tradução em direto, suportando mais de 70 idiomas para tradução em tempo real de fala

20h atrás

A D-Matrix apoiada pela Microsoft começa a enviar o chip de IA Corsair este mês, citando ganhos de desempenho de 2x a 10x

06-09 15:22

A Google lança a tradução em tempo real de voz para voz com o Gemini 3.5 a 9 de junho

MNX angaria 6,4 milhões de dólares em pre-seed a uma avaliação $40M para a Exchange de Futuros de IA

Ethan Brooks5h atrás

O Google Gemini 3,5 melhora a tradução, chega ao fim das pausas na interpretação em tempo real em 70 línguas

Market Whisper18h atrás

Torneio alimentado por IA adapta estratégias de ataque em tempo real, demonstram investigadores

Oliver Grant06-09 19:12

A Google anuncia a tradução em tempo real do Gemini 3.5 para voz em mais de 70 línguas

Oliver Grant06-09 19:09

A Apple confirma que a IA do Siri é executada em servidores da Google, mantendo as alegações de privacidade

Oliver Grant06-09 13:20

Comentar

0/400

Nenhum comentário