Google DiffusionGemma: генерация текста из шума и 4x ускорение

Google выпустила модель DiffusionGemma, использующую диффузионный метод вместо посимвольной генерации. Это позволяет обрабатывать 256 токенов параллельно и ускорять работу на GPU до 4 раз.

Оглавление

Архитектурные особенности и производительность
Области применения и компромиссы качества

Компания Google выпустила экспериментальную языковую модель с открытыми весами под названием DiffusionGemma, которая отказывается от традиционного посимвольного формирования предложений в пользу диффузионного метода. Как сообщает The Decoder, этот инструмент генерирует текст не последовательно, а целыми блоками по 256 токенов, фактически «проявляя» смысл из исходного цифрового шума.

Большинство современных нейросетей работают по авторегрессионному принципу, предсказывая каждое следующее слово на основе предыдущих, что напоминает кропотливое нанизывание бусин на нить. DiffusionGemma заимствует логику у генераторов изображений: она берет массив случайных данных и за несколько проходов очищает его, пока не возникнет связный фрагмент текста, что позволяет значительно ускорить работу на специализированном оборудовании.

Архитектурные особенности и производительность

В основе модели лежит архитектура Mixture-of-Experts (MoE), где из общего числа в 26 миллиардов параметров в каждый конкретный момент времени активируются лишь 3,8 миллиарда. Такая избирательность позволяет модели в квантованном виде умещаться в 18 ГБ видеопамяти, что делает её доступной для владельцев флагманских потребительских видеокарт. В разработке и оптимизации проекта принимала участие компания Nvidia.

Основной прирост скорости достигается за счет параллелизма: пока обычные модели простаивают в ожидании данных из памяти, DiffusionGemma максимально нагружает вычислительные ядра графического процессора. По данным разработчиков, на видеокартах серии GeForce RTX 5090 скорость генерации превышает 700 токенов в секунду, что в локальном однопользовательском режиме почти в четыре раза быстрее классических аналогов сопоставимого размера.

Однако стоит заметить, что этот выигрыш актуален именно для локального использования на дискретных ускорителях. В облачных сервисах, где видеокарты и так загружены множеством параллельных запросов от разных пользователей, диффузионный подход может оказаться менее экономически эффективным, на что прямо указывают представители Google в технической документации.

Области применения и компромиссы качества

За впечатляющую скорость приходится платить качеством: DiffusionGemma пока уступает стандартным моделям в точности и литературности изложения. Тем не менее, её «нелинейная» природа открывает двери для задач, которые плохо даются обычным нейросетям. Поскольку модель видит весь блок текста целиком, она способна эффективно редактировать уже написанное или вставлять пропущенные фрагменты в середину кода.

Технология идеально подходит для заполнения пробелов в коде или структурах данных, где контекст справа так же важен, как и слева. Однако пока модель напоминает болид Формулы-1, заправленный низкооктановым бензином: скорость на высоте, но на поворотах логики её ощутимо заносит. Это важный шаг к нелинейному ИИ, но для написания эссе лучше оставить старую добрую авторегрессию.

Примером специфической эффективности стало решение задач Sudoku. Обычные языковые модели часто ошибаются в таких головоломках, так как цифра в первой клетке жестко зависит от того, что будет стоять в последней. Специально дообученная версия DiffusionGemma справляется с этим значительно лучше благодаря способности учитывать взаимосвязи между всеми элементами блока одновременно.

Google сделала веса модели доступными на платформе Hugging Face под лицензией Apache 2.0. Поддержка инструмента реализована в популярных библиотеках Transformers, vLLM и MLX. Для исследователей также предложен инструментарий Hackable Diffusion на базе JAX, позволяющий экспериментировать с процессами очистки текста от шума и адаптировать модель под узкоспециализированные научные задачи.

Новости

Вышла экспериментальная модель DiffusionGemm от Google — она генерирует текст через диффузию

Архитектурные особенности и производительность

Области применения и компромиссы качества

Еще интереснее

Стоимость генерации в GPT-5.6 может отличаться в разы из-за 3 моделей и уровней мышления

Новая GPT-5.6 Sol демонстрирует производительность Claude Fable 5 за треть от его стоимости

Meta* представила модель Muse Spark 1.1, оптимизированную под агентов

xAI представила Grok 4.5 — модель уровня GPT 5.5, но в разы дешевле

Оставить комментарий