Оглавление
Рынок AI-инференса стремительно догоняет по объему инвестиций обучение моделей, и ключевым вызовом становится эффективное управление вычислительными ресурсами. Новое исследование демонстрирует революционный подход к оптимизации инфраструктуры для больших языковых моделей.
Проблема длинных контекстов в AI-инференсе
С ростом популярности агентного ИИ и поддержки больших контекстных окон (до 100K токенов и более) значительно возрастает стоимость вычислений на этапе «префилла» — первоначальной обработки контекста. Время до первого токена (TTFT) может достигать десятков секунд, что ухудшает пользовательский опыт.
KV Cache (кэш ключ-значение) — это оптимизационная техника для Transformer-архитектур, которая хранит вычисленные векторы Key и Value после обработки контекста, избегая их повторного вычисления при генерации последующих токенов. Однако для масштабных рабочих нагрузок с множеством пользователей размер KV Cache может превышать доступную память HBM или оперативную память сервера.
Решение: внешний KV Cache на Managed Lustre
Google Cloud предлагает использовать Managed Lustre в качестве высокопроизводительного внешнего хранилища для KV Cache. Этот подход позволяет разгрузить дорогостоящие GPU-ресурсы, перенеся часть вычислений на ввод-вывод.
Экспериментальные результаты впечатляют:
- Снижение общей стоимости владения (TCO) на 35%
- Уменьшение количества требуемых GPU на 43% для той же рабочей нагрузки
- Увеличение общей пропускной способности инференса на 75%
- Сокращение среднего времени до первого токена на 44%
Подход с внешним KV Cache — это не просто оптимизация, а фундаментальный сдвиг в архитектуре AI-инфраструктуры. Вместо наращивания дорогостоящей GPU-мощи мы учимся эффективнее распределять нагрузку между вычислительными ресурсами и системами хранения. Особенно иронично, что решение пришло из мира HPC, где Lustre давно используется для высокопроизводительных вычислений — очередное подтверждение, что лучшие инновации часто находятся на стыке технологий.
Технические детали и бенчмарки
Тестирование проводилось на инфраструктуре Google Cloud A3-Ultra (8x H200 GPU) с моделью Deepseek-R1. Рабочая нагрузка имитировала обслуживание запросов с контекстом в 50K токенов и высоким процентом попаданий в кэш (около 75%). Общий размер KV Cache составлял примерно 3.4 TiB.
Ключевые преимущества Managed Lustre для этой задачи:
- Масштабируемость за пределами возможностей локальной памяти
- Высокая пропускная способность для параллельных операций ввода-вывода
- Возможность совместного использования кэша между несколькими узлами
- Интеграция с локальными SSD на GPU-машинах
Экономический анализ
Модель TCO учитывает как стоимость вычислений (A3-Ultra VMs с H200 GPU), так и стоимость хранения (Managed Lustre с производительностью 1000 MB/s на TiB). Для достижения цели в 1 миллион токенов в секунду потребовалось 73 машины A3-Ultra с емкостью Lustre 18 TiB на машину.
Основная экономия достигается за счет более эффективного использования GPU-ресурсов. Разгрузка KV Cache на внешнее хранилище позволяет обслуживать больше запросов на одном акселераторе, что напрямую сокращает капитальные затраты.
По материалам Google Cloud.
Оставить комментарий