Google DeepMind выпускает DiffusionGemma с 4-кратным ускорением для Local AI

2026-06-10 19:39:38

Google DeepMind выпустила DiffusionGemma — новый участник семейства открытых моделей Gemma 4, который генерирует текст с помощью параллельной обработки, а не последовательной генерации токенов. Модель обеспечивает более быстрые и эффективные результаты на локальном оборудовании, включая системы Nvidia DGX и игровые видеокарты для потребителей. В отличие от авторегрессионных моделей, которые создают текст слева направо, по одному токену за раз, DiffusionGemma использует диффузионный подход, аналогичный моделям генерации изображений: она начинает с плейсхолдерных токенов и уточняет их в нескольких проходах, чтобы одновременно получать целые фрагменты текста. Такой архитектурный сдвиг позволяет добиться примерно в четыре раза большей скорости вывода по сравнению с авторегрессионными моделями Gemma аналогичного размера, при этом модель укладывается в ограничения по памяти высокопроизводительных потребительских GPU.

DiffusionGemma использует диффузионную архитектуру для параллельной генерации текста

Большинство моделей ИИ спроектированы как авторегрессионные: они генерируют текст слева направо, по одному токену за раз. DiffusionGemma больше похожа на модели генерации изображений: они начинают со статичного изображения, а затем «денойзят» его, чтобы получить нужный контент. Эта модель прогоняет поле плейсхолдерных токенов по «холсту» несколько раз, чтобы сгенерировать наиболее вероятные токены, а затем использует их для уточнения оценки остальных. В конце процесса модель финализирует вывод токенов одним большим блоком — «денойзенным» текстовым холстом.

DiffusionGemma — модель Mixture of Experts (MoE) с общей численностью 26 миллиардов параметров, но при инференсе активируется только 3,8 миллиарда. Это означает, что она должна поместиться в отведении 18 ГБ оперативной памяти GPU высокого класса. Такой подход к генерации текста переносит узкое место с пропускной способности памяти на вычисления, позволяя генерировать до 256 токенов параллельно.

Модель достигает 700–1000+ токенов в секунду на разных конфигурациях оборудования

В тестировании с RTX 5090 DiffusionGemma выдает около 700 токенов в секунду. С одним ускорителем Nvidia H100 AI DiffusionGemma может выдавать 1 000+ токенов в секунду. Это примерно в четыре раза больше, чем скорость вывода у авторегрессионных моделей Gemma сопоставимого размера.

DiffusionGemma демонстрирует преимущества в решении нелинейных задач

Google утверждает, что это дает измеримый прирост в нелинейных задачах, таких как редактирование «на месте», молекулярное секвенирование и математическое графическое построение. DiffusionGemma настраивали для решения задач судоку — крайне сложной для стандартных авторегрессионных моделей ИИ, потому что каждый токен зависит от будущих токенов. Способность DiffusionGemma непрерывно самокорректировать большие наборы токенов делает такую задачу проще.

FAQ

Что такое DiffusionGemma и чем она отличается от других моделей ИИ?

DiffusionGemma — это новая открытая AI-модель от Google DeepMind, которая использует диффузионную архитектуру для параллельной генерации текста вместо последовательной. В отличие от авторегрессионных моделей, которые генерируют текст по одному токену за раз слева направо, DiffusionGemma начинает с плейсхолдерных токенов и уточняет их в несколько проходов, финализируя целые блоки текста одновременно — аналогично тому, как модели генерации изображений переводят статичное в связные изображения путем денойза.

Насколько быстро работает DiffusionGemma по сравнению с другими моделями Gemma?

DiffusionGemma выдает около 700 токенов в секунду на GPU RTX 5090 и более 1 000 токенов в секунду на одном ускорителе Nvidia H100 AI. Это примерно в четыре раза превышает скорость вывода авторегрессионных моделей Gemma сопоставимого размера, при этом модель укладывается в выделение 18 ГБ оперативной памяти для GPU высокого класса для потребителей благодаря архитектуре Mixture of Experts: 26 миллиардов параметров всего и 3,8 миллиарда активируется при инференсе.

Для каких типов задач DiffusionGemma подходит лучше всего?

Google заявляет, что DiffusionGemma дает измеримые улучшения в нелинейных задачах, включая редактирование на месте, молекулярное секвенирование, математическое графическое построение и решение судоку. Способность модели непрерывно самокорректировать большие наборы токенов делает ее особенно эффективной для задач, где каждый токен зависит от будущих токенов — это, как известно, трудно для стандартных авторегрессионных моделей ИИ.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

19ч назад

Google запускает Gemini 3.5 Live Translate с поддержкой более 70 языков для перевода речи в реальном времени

22ч назад

Поддерживаемая Microsoft D-Matrix начала поставки чипа Corsair AI уже в этом месяце, заявив о приросте производительности в 2–10 раз

06-09 15:22

Google запускает Gemini 3.5 с переводом голоса в реальном времени на голос 9 июня

Связанные статьи

MNX привлекла 6,4 млн $ на pre-seed на $40M -оценке для AI Futures Exchange

Ethan Brooks7ч назад

Обновление перевода Google Gemini 3.5: остановка задержек в синхронном переводе на 70 языках в реальном времени

Market Whisper20ч назад