De acordo com o monitoramento do Beating, o Google lançou um modelo de geração de texto open-source chamado DiffusionGemma, que usa um mecanismo baseado em difusão para gerar texto em blocos paralelos em vez de forma sequencial token por token. O modelo de 26B parâmetros ativa apenas 3,8B parâmetros por passagem direta sob uma arquitetura de mixture-of-experts, alcançando uma melhoria de 4x na inferência local na GPU.
Em uma única GPU NVIDIA H100, o DiffusionGemma atinge mais de 1000 tokens por segundo, enquanto a RTX 5090 de nível consumidor ultrapassa 700 tokens por segundo. Após quantização em ponto flutuante de 4-bit, o modelo exige menos de 18GB de VRAM. Os pesos do DiffusionGemma agora foram open-source no Hugging Face e têm suporte do MLX, vLLM, Unsloth e NVIDIA NeMo.