Google DeepMind выпустила DiffusionGemma — новый участник семейства открытых моделей Gemma 4, который генерирует текст с помощью параллельной обработки, а не последовательной генерации токенов. Модель обеспечивает более быстрые и эффективные результаты на локальном оборудовании, включая системы Nvidia DGX и игровые видеокарты для потребителей. В отличие от авторегрессионных моделей, которые создают текст слева направо, по одному токену за раз, DiffusionGemma использует диффузионный подход, аналогичный моделям генерации изображений: она начинает с плейсхолдерных токенов и уточняет их в нескольких проходах, чтобы одновременно получать целые фрагменты текста. Такой архитектурный сдвиг позволяет добиться примерно в четыре раза большей скорости вывода по сравнению с авторегрессионными моделями Gemma аналогичного размера, при этом модель укладывается в ограничения по памяти высокопроизводительных потребительских GPU.
DiffusionGemma использует диффузионную архитектуру для параллельной генерации текста
Большинство моделей ИИ спроектированы как авторегрессионные: они генерируют текст слева направо, по одному токену за раз. DiffusionGemma больше похожа на модели генерации изображений: они начинают со статичного изображения, а затем «денойзят» его, чтобы получить нужный контент. Эта модель прогоняет поле плейсхолдерных токенов по «холсту» несколько раз, чтобы сгенерировать наиболее вероятные токены, а затем использует их для уточнения оценки остальных. В конце процесса модель финализирует вывод токенов одним большим блоком — «денойзенным» текстовым холстом.
DiffusionGemma — модель Mixture of Experts (MoE) с общей численностью 26 миллиардов параметров, но при инференсе активируется только 3,8 миллиарда. Это означает, что она должна поместиться в отведении 18 ГБ оперативной памяти GPU высокого класса. Такой подход к генерации текста переносит узкое место с пропускной способности памяти на вычисления, позволяя генерировать до 256 токенов параллельно.
Модель достигает 700–1000+ токенов в секунду на разных конфигурациях оборудования
В тестировании с RTX 5090 DiffusionGemma выдает около 700 токенов в секунду. С одним ускорителем Nvidia H100 AI DiffusionGemma может выдавать 1 000+ токенов в секунду. Это примерно в четыре раза больше, чем скорость вывода у авторегрессионных моделей Gemma сопоставимого размера.
DiffusionGemma демонстрирует преимущества в решении нелинейных задач
Google утверждает, что это дает измеримый прирост в нелинейных задачах, таких как редактирование «на месте», молекулярное секвенирование и математическое графическое построение. DiffusionGemma настраивали для решения задач судоку — крайне сложной для стандартных авторегрессионных моделей ИИ, потому что каждый токен зависит от будущих токенов. Способность DiffusionGemma непрерывно самокорректировать большие наборы токенов делает такую задачу проще.
FAQ
Что такое DiffusionGemma и чем она отличается от других моделей ИИ?
DiffusionGemma — это новая открытая AI-модель от Google DeepMind, которая использует диффузионную архитектуру для параллельной генерации текста вместо последовательной. В отличие от авторегрессионных моделей, которые генерируют текст по одному токену за раз слева направо, DiffusionGemma начинает с плейсхолдерных токенов и уточняет их в несколько проходов, финализируя целые блоки текста одновременно — аналогично тому, как модели генерации изображений переводят статичное в связные изображения путем денойза.
Насколько быстро работает DiffusionGemma по сравнению с другими моделями Gemma?
DiffusionGemma выдает около 700 токенов в секунду на GPU RTX 5090 и более 1 000 токенов в секунду на одном ускорителе Nvidia H100 AI. Это примерно в четыре раза превышает скорость вывода авторегрессионных моделей Gemma сопоставимого размера, при этом модель укладывается в выделение 18 ГБ оперативной памяти для GPU высокого класса для потребителей благодаря архитектуре Mixture of Experts: 26 миллиардов параметров всего и 3,8 миллиарда активируется при инференсе.
Для каких типов задач DiffusionGemma подходит лучше всего?
Google заявляет, что DiffusionGemma дает измеримые улучшения в нелинейных задачах, включая редактирование на месте, молекулярное секвенирование, математическое графическое построение и решение судоку. Способность модели непрерывно самокорректировать большие наборы токенов делает ее особенно эффективной для задач, где каждый токен зависит от будущих токенов — это, как известно, трудно для стандартных авторегрессионных моделей ИИ.