Ускоренный инференс LLM с NVIDIA Dynamo на Google Cloud

Google Cloud анонсировала рецепт дезагрегированного инференса LLM с NVIDIA Dynamo на AI Hypercomputer, позволяющий значительно ускорить обработку запросов за счет разделения вычислительных фаз.

Оглавление

Проблема традиционного инференса
Архитектурное решение
Ключевые компоненты системы
Практическая реализация
Преимущества подхода

Google Cloud Blog передает, что компания анонсировала новый рецепт для дезагрегированного инференса с использованием платформы NVIDIA Dynamo на своей инфраструктуре AI Hypercomputer. Решение позволяет значительно повысить эффективность выполнения LLM-моделей за счет разделения вычислительных фаз на специализированные пулы GPU.

Проблема традиционного инференса

Классические GPU-архитектуры, отлично справляющиеся с обучением моделей, сталкиваются с фундаментальными ограничениями при инференсе. Многоуровневый характер генеративных запросов требует одновременной обработки вычислительно интенсивного префилла и ограниченной памятью генерации токенов на одном оборудовании, что создает конфликт ресурсов и снижает общую эффективность.

Архитектурное решение

Новый подход физически разделяет две ключевые фазы инференса:

Префилл-фаза: обработка входного промпта, требует максимальной параллельной вычислительной мощности
Декод-фаза: генерация ответа токен за токеном, критична к скорости доступа к памяти

Ключевые компоненты системы

Решение развертывается на инфраструктуре Google Cloud с использованием:

Google Kubernetes Engine (GKE) для оркестрации отдельных нод-пулов
Экземпляров A3 Ultra с GPU NVIDIA H200
NVIDIA Dynamo как inference-сервера с интеллектуальным роутингом
vLLM inference engine с оптимизацией PagedAttention

Архитектура сервера Dynamo с рабочими процессами prefill и decode для инференса LLM

Дезагрегация инференса — это не просто инженерное улучшение, а фундаментальный сдвиг в архитектуре обслуживания LLM. Вместо того чтобы заставлять дорогостоящие GPU простаивать в ожидании памяти или вычислений, мы наконец-то начинаем обращаться с ними как со специализированными инструментами. Жаль только, что для использования всей этой магии нужно разбираться в Kubernetes лучше, чем средний data scientist.

Практическая реализация

Рецепт включает четкую последовательность шагов для развертывания:

Первоначальная настройка переменных окружения и секретов
Установка платформы Dynamo и CRD
Деплой inference-бэкенда для конкретной модели
Обработка inference-запросов

Поддерживаются как single-node конфигурации (4 GPU для префилла + 4 GPU для декода), так и multi-node развертывания. Текущая реализация оптимизирована для модели Llama-3.3-70B-Instruct, но в будущем планируется поддержка дополнительных GPU и inference-движков.

Диаграмма архитектуры распределенного инференса NVIDIA Dynamo

Преимущества подхода

Дезагрегированная архитектура позволяет:

Масштабировать каждую фазу независимо по требованию
Избегать блокировок между вычислительно сложными и ограниченными памятью задачами
Достигать значительно более высокой общей пропускной способности
Максимально утилизировать дорогостоящие GPU-ресурсы

Решение особенно актуально для продуктивных сред с высокими требованиями к задержкам и пропускной способности, где традиционные подходы уже не справляются с нагрузкой.

Новости

Google Cloud представила рецепт ускоренного инференса LLM с NVIDIA Dynamo

Проблема традиционного инференса

Архитектурное решение

Ключевые компоненты системы

Практическая реализация

Преимущества подхода

Еще интереснее

Стартап экс-главы Intel начал выпуск чиплетов, которые подводят энергию к ИИ-чипам

NVIDIA презентовала новые технологии для суперкомпьютеров нового поколения

Почему суперкомпьютеры перешли на GPU-ускорение для научных прорывов

ParallelKittens открывает новые возможности для многопроцессорных AI-систем

Оставить комментарий