Оглавление

Рынок AI-инференса стремительно догоняет по объему инвестиций обучение моделей, и ключевым вызовом становится эффективное управление вычислительными ресурсами. Новое исследование демонстрирует революционный подход к оптимизации инфраструктуры для больших языковых моделей.

Проблема длинных контекстов в AI-инференсе

С ростом популярности агентного ИИ и поддержки больших контекстных окон (до 100K токенов и более) значительно возрастает стоимость вычислений на этапе «префилла» — первоначальной обработки контекста. Время до первого токена (TTFT) может достигать десятков секунд, что ухудшает пользовательский опыт.

KV Cache (кэш ключ-значение) — это оптимизационная техника для Transformer-архитектур, которая хранит вычисленные векторы Key и Value после обработки контекста, избегая их повторного вычисления при генерации последующих токенов. Однако для масштабных рабочих нагрузок с множеством пользователей размер KV Cache может превышать доступную память HBM или оперативную память сервера.

Решение: внешний KV Cache на Managed Lustre

Google Cloud предлагает использовать Managed Lustre в качестве высокопроизводительного внешнего хранилища для KV Cache. Этот подход позволяет разгрузить дорогостоящие GPU-ресурсы, перенеся часть вычислений на ввод-вывод.

Экспериментальные результаты впечатляют:

  • Снижение общей стоимости владения (TCO) на 35%
  • Уменьшение количества требуемых GPU на 43% для той же рабочей нагрузки
  • Увеличение общей пропускной способности инференса на 75%
  • Сокращение среднего времени до первого токена на 44%

Подход с внешним KV Cache — это не просто оптимизация, а фундаментальный сдвиг в архитектуре AI-инфраструктуры. Вместо наращивания дорогостоящей GPU-мощи мы учимся эффективнее распределять нагрузку между вычислительными ресурсами и системами хранения. Особенно иронично, что решение пришло из мира HPC, где Lustre давно используется для высокопроизводительных вычислений — очередное подтверждение, что лучшие инновации часто находятся на стыке технологий.

Технические детали и бенчмарки

Тестирование проводилось на инфраструктуре Google Cloud A3-Ultra (8x H200 GPU) с моделью Deepseek-R1. Рабочая нагрузка имитировала обслуживание запросов с контекстом в 50K токенов и высоким процентом попаданий в кэш (около 75%). Общий размер KV Cache составлял примерно 3.4 TiB.

Ключевые преимущества Managed Lustre для этой задачи:

  • Масштабируемость за пределами возможностей локальной памяти
  • Высокая пропускная способность для параллельных операций ввода-вывода
  • Возможность совместного использования кэша между несколькими узлами
  • Интеграция с локальными SSD на GPU-машинах

Экономический анализ

Модель TCO учитывает как стоимость вычислений (A3-Ultra VMs с H200 GPU), так и стоимость хранения (Managed Lustre с производительностью 1000 MB/s на TiB). Для достижения цели в 1 миллион токенов в секунду потребовалось 73 машины A3-Ultra с емкостью Lustre 18 TiB на машину.

Основная экономия достигается за счет более эффективного использования GPU-ресурсов. Разгрузка KV Cache на внешнее хранилище позволяет обслуживать больше запросов на одном акселераторе, что напрямую сокращает капитальные затраты.

По материалам Google Cloud.