Google Cloud Managed Lustre снижает стоимость AI-инференса на 35%

Google Cloud Managed Lustre позволяет снизить стоимость AI-инференса на 35% через вынос KV Cache во внешнее хранилище, сократив потребность в GPU на 43%.

Оглавление

Проблема длинных контекстов в AI-инференсе
Решение: внешний KV Cache на Managed Lustre
Технические детали и бенчмарки
Экономический анализ

Рынок AI-инференса стремительно догоняет по объему инвестиций обучение моделей, и ключевым вызовом становится эффективное управление вычислительными ресурсами. Новое исследование демонстрирует революционный подход к оптимизации инфраструктуры для больших языковых моделей.

Проблема длинных контекстов в AI-инференсе

С ростом популярности агентного ИИ и поддержки больших контекстных окон (до 100K токенов и более) значительно возрастает стоимость вычислений на этапе «префилла» — первоначальной обработки контекста. Время до первого токена (TTFT) может достигать десятков секунд, что ухудшает пользовательский опыт.

KV Cache (кэш ключ-значение) — это оптимизационная техника для Transformer-архитектур, которая хранит вычисленные векторы Key и Value после обработки контекста, избегая их повторного вычисления при генерации последующих токенов. Однако для масштабных рабочих нагрузок с множеством пользователей размер KV Cache может превышать доступную память HBM или оперативную память сервера.

Решение: внешний KV Cache на Managed Lustre

Google Cloud предлагает использовать Managed Lustre в качестве высокопроизводительного внешнего хранилища для KV Cache. Этот подход позволяет разгрузить дорогостоящие GPU-ресурсы, перенеся часть вычислений на ввод-вывод.

Экспериментальные результаты впечатляют:

Снижение общей стоимости владения (TCO) на 35%
Уменьшение количества требуемых GPU на 43% для той же рабочей нагрузки
Увеличение общей пропускной способности инференса на 75%
Сокращение среднего времени до первого токена на 44%

Подход с внешним KV Cache — это не просто оптимизация, а фундаментальный сдвиг в архитектуре AI-инфраструктуры. Вместо наращивания дорогостоящей GPU-мощи мы учимся эффективнее распределять нагрузку между вычислительными ресурсами и системами хранения. Особенно иронично, что решение пришло из мира HPC, где Lustre давно используется для высокопроизводительных вычислений — очередное подтверждение, что лучшие инновации часто находятся на стыке технологий.

Технические детали и бенчмарки

Тестирование проводилось на инфраструктуре Google Cloud A3-Ultra (8x H200 GPU) с моделью Deepseek-R1. Рабочая нагрузка имитировала обслуживание запросов с контекстом в 50K токенов и высоким процентом попаданий в кэш (около 75%). Общий размер KV Cache составлял примерно 3.4 TiB.

Ключевые преимущества Managed Lustre для этой задачи:

Масштабируемость за пределами возможностей локальной памяти
Высокая пропускная способность для параллельных операций ввода-вывода
Возможность совместного использования кэша между несколькими узлами
Интеграция с локальными SSD на GPU-машинах

Экономический анализ

Модель TCO учитывает как стоимость вычислений (A3-Ultra VMs с H200 GPU), так и стоимость хранения (Managed Lustre с производительностью 1000 MB/s на TiB). Для достижения цели в 1 миллион токенов в секунду потребовалось 73 машины A3-Ultra с емкостью Lustre 18 TiB на машину.

Основная экономия достигается за счет более эффективного использования GPU-ресурсов. Разгрузка KV Cache на внешнее хранилище позволяет обслуживать больше запросов на одном акселераторе, что напрямую сокращает капитальные затраты.

По материалам Google Cloud.

Новости

Google Cloud снижает стоимость ИИ-инференса на 35% через внешний KV Cache

Проблема длинных контекстов в AI-инференсе

Решение: внешний KV Cache на Managed Lustre

Технические детали и бенчмарки

Экономический анализ

Еще интереснее

Открытый стандарт RISC-V может стать темной лошадкой в гонке ИИ-чипов

Google Cloud назван лидером в отчете Forrester Wave об инфраструктуре для ИИ

Google Cloud выпускает Cluster Director для автоматизации AI и HPC кластеров

Прогресс в разработке AGI есть, несмотря на существование ограничений по «железу»

Оставить комментарий