NVIDIA DFlash: ускорение вывода LLM в 15 раз

NVIDIA открыла исходный код DFlash — технологии, которая заменяет последовательное спекулятивное декодирование параллельной генерацией блоков, ускоряя инференс до 15 раз.

Исследователи NVIDIA представили DFlash — легковесную модель диффузионного преобразования, предназначенную для радикального ускорения работы больших языковых моделей (LLM). Как сообщает Open Source For You, этот инструмент позволяет увеличить скорость генерации текста в 15 раз, заменяя привычное последовательное составление черновиков параллельной генерацией блоков токенов.

В отличие от стандартного спекулятивного декодирования, где вспомогательная модель все равно предсказывает токены по одному, DFlash предугадывает сразу целый блок будущих данных за один проход. Этот метод позволяет графическим процессорам работать эффективнее, снижая задержки без ущерба для качества ответов основной модели, что особенно критично в задачах программирования и рассуждения.

Вместе с исходным кодом NVIDIA опубликовала 20 готовых чекпоинтов на платформе Hugging Face. Разработка уже поддерживает популярные семейства моделей, включая Llama, Gemma, Qwen и Kimi K2.6. Для инженеров это означает возможность перейти на новый метод декодирования простой сменой конфигурации в привычных фреймворках.

Интеграция и технические показатели

Технология DFlash интегрирована с ведущими открытыми библиотеками для инференса, такими как vLLM и SGLang. Тесты, проведенные на системах NVIDIA DGX B300 с архитектурой Blackwell, показали впечатляющую производительность: при использовании модели gpt-oss-120B скорость достигла 500–600 токенов в секунду на одного пользователя.

Если сравнивать с существующими решениями, DFlash демонстрирует преимущество не только над стандартным авторегрессионным выводом, но и над современными методами вроде EAGLE-3, превосходя их по пропускной способности в 1.5 раза. В развертываниях через vLLM прирост производительности составил до 5.8 раза, что делает инструмент крайне перспективным для создания быстрых ИИ-агентов.

DFlash обходит фундаментальное ограничение последовательного вывода, но реальная выгода для индустрии упирается в необходимость обучения специфических диффузионных ‘черновиков’ под каждую конкретную архитектуру. Это создает очередной слой технического долга и привязки к вычислительным мощностям NVIDIA, превращая открытость кода в элегантный способ продать побольше чипов Blackwell. Впрочем, 15-кратное ускорение — это тот аргумент, против которого бессилен даже самый скептичный системный архитектор.

Для внедрения DFlash в существующие пайплайны разработчикам предложены готовые рецепты развертывания на GPU серий Blackwell и Hopper. Поддержка также реализована в библиотеке TensorRT-LLM, что позволяет использовать открытые чекпоинты в высоконагруженных корпоративных системах с минимальными затратами на адаптацию кода.

Хотя технология обещает значительный прорыв в интерактивности ИИ, стоит учитывать, что максимальная эффективность достигается на специфическом оборудовании последнего поколения. Тем не менее, публикация таких инструментов в открытом доступе задает новый стандарт для индустрии, заставляя конкурентов искать способы оптимизации вывода, выходящие за рамки простого наращивания количества транзисторов.