Оглавление

Google Cloud Blog передает, что компания анонсировала новый рецепт для дезагрегированного инференса с использованием платформы NVIDIA Dynamo на своей инфраструктуре AI Hypercomputer. Решение позволяет значительно повысить эффективность выполнения LLM-моделей за счет разделения вычислительных фаз на специализированные пулы GPU.

Проблема традиционного инференса

Классические GPU-архитектуры, отлично справляющиеся с обучением моделей, сталкиваются с фундаментальными ограничениями при инференсе. Многоуровневый характер генеративных запросов требует одновременной обработки вычислительно интенсивного префилла и ограниченной памятью генерации токенов на одном оборудовании, что создает конфликт ресурсов и снижает общую эффективность.

Архитектурное решение

Новый подход физически разделяет две ключевые фазы инференса:

  • Префилл-фаза: обработка входного промпта, требует максимальной параллельной вычислительной мощности
  • Декод-фаза: генерация ответа токен за токеном, критична к скорости доступа к памяти

Ключевые компоненты системы

Решение развертывается на инфраструктуре Google Cloud с использованием:

  • Google Kubernetes Engine (GKE) для оркестрации отдельных нод-пулов
  • Экземпляров A3 Ultra с GPU NVIDIA H200
  • NVIDIA Dynamo как inference-сервера с интеллектуальным роутингом
  • vLLM inference engine с оптимизацией PagedAttention
Архитектура сервера Dynamo с рабочими процессами prefill и decode для инференса LLM

Дезагрегация инференса — это не просто инженерное улучшение, а фундаментальный сдвиг в архитектуре обслуживания LLM. Вместо того чтобы заставлять дорогостоящие GPU простаивать в ожидании памяти или вычислений, мы наконец-то начинаем обращаться с ними как со специализированными инструментами. Жаль только, что для использования всей этой магии нужно разбираться в Kubernetes лучше, чем средний data scientist.

Практическая реализация

Рецепт включает четкую последовательность шагов для развертывания:

  1. Первоначальная настройка переменных окружения и секретов
  2. Установка платформы Dynamo и CRD
  3. Деплой inference-бэкенда для конкретной модели
  4. Обработка inference-запросов

Поддерживаются как single-node конфигурации (4 GPU для префилла + 4 GPU для декода), так и multi-node развертывания. Текущая реализация оптимизирована для модели Llama-3.3-70B-Instruct, но в будущем планируется поддержка дополнительных GPU и inference-движков.

Диаграмма архитектуры распределенного инференса NVIDIA Dynamo

Преимущества подхода

Дезагрегированная архитектура позволяет:

  • Масштабировать каждую фазу независимо по требованию
  • Избегать блокировок между вычислительно сложными и ограниченными памятью задачами
  • Достигать значительно более высокой общей пропускной способности
  • Максимально утилизировать дорогостоящие GPU-ресурсы

Решение особенно актуально для продуктивных сред с высокими требованиями к задержкам и пропускной способности, где традиционные подходы уже не справляются с нагрузкой.