Google запускает промышленные решения для ML-инференса

Google Cloud анонсировала коммерческую доступность GKE Inference Gateway с новыми функциями оптимизации производительности и стоимости ML-инференса.

Оглавление

Производительность инференса на новом уровне
Экономика вычислений: меньше железа, больше эффективности
Подход, основанный на данных, к выбору инфраструктуры

Google Cloud сообщает, что их инфраструктурные решения для машинного обучения достигли стадии промышленной готовности. GKE Inference Gateway и сопутствующие инструменты теперь доступны для коммерческого использования, предлагая предприятиям готовые механизмы для развертывания и оптимизации ML-моделей в производственной среде.

Производительность инференса на новом уровне

Ключевое нововведение — балансировка нагрузки с учетом префиксов, система интеллектуальной маршрутизации запросов. Технология анализирует префиксы входящих запросов и направляет их на те же акселераторы, где уже обрабатывались аналогичные данные. Это позволяет повторно использовать кэш ключ-значение (KV cache), избегая повторных вычислений фазы предварительного заполнения.

В результате время до первого токена (TTFT) сокращается на до 96% при пиковой нагрузке для нагрузок с повторяющимися префиксами. Для пользователей это означает практически мгновенные ответы в чат-ботах и других интерактивных приложениях.

Диаграмма архитектуры AI Hypercomputer для масштабирования машинного обучения

Экономика вычислений: меньше железа, больше эффективности

Второй важный аспект — раздельное обслуживание, архитектура раздельного выполнения фаз предварительного заполнения и декодирования. Эти этапы имеют принципиально разные требования к ресурсам:

Предварительное заполнение: вычислительно интенсивная, требует мощных вычислений
Декодирование: интенсивная по памяти, зависит от скорости доступа к памяти

Раздельное масштабирование этих фаз позволяет увеличить пропускную способность на 60% по сравнению с традиционным подходом.

Анонс общего доступа к шлюзу инференса GKE для масштабирования машинного обучения

Для ускорения загрузки больших моделей (сотни гигабайт) теперь доступна интеграция с Run:ai model streamer и Google Cloud Storage. Пропускная способность до памяти акселераторов достигает 5.4 GiB/s, что сокращает время загрузки моделей в 4.9 раза.

График сравнения производительности префиксно-ориентированной балансировки нагрузки

Подход, основанный на данных, к выбору инфраструктуры

GKE Inference Quickstart решает классическую проблему ML-инженеров: как выбрать оптимальную конфигурацию железа и софта под конкретную задачу. Сервис предлагает рекомендации на основе:

Бенчмарков GPU и TPU против популярных моделей (Llama, Mixtral, Gemma)
Более 100 тестов в неделю на различных конфигурациях
Анализа стоимости и профилей задержек для разных сценариев

Google фактически монетизирует свой внутренний опыт эксплуатации Gemini и YouTube, предлагая тем же инструментарием воспользоваться внешним клиентам. Интересно наблюдать, как инфраструктурные решения из категории «магии» превращаются в товарные продукты с измеримыми KPI. Впрочем, заявленные 96% улучшения задержки звучат слишком оптимистично — на практике всё зависит от конкретной нагрузки и характера нагрузки.

График сокращения времени загрузки модели vLLM, показывающий улучшение в 4.9 раза

Новые возможности GKE Inference Gateway и Quickstart доступны уже сегодня. Для компаний, развертывающих ML-модели в производственной среде, это может означать существенную экономию на инфраструктуре и улучшение пользовательского опыта.