Оглавление

Google представил новую функцию для своей платформы машинного обучения Vertex AI — кэширование контекста, которое обещает значительно снизить затраты и ускорить обработку длинных промптов в языковых моделях. Технология позволяет повторно использовать уже обработанные части контекста между различными запросами, что особенно актуально для приложений с большими объемами текста.

Как работает кэширование контекста

Новая функция работает по принципу разделения промпта на статическую и динамическую части. Статическая часть (например, инструкции системы или справочная информация) обрабатывается один раз и сохраняется в кэше, в то время как динамическая часть (пользовательские запросы) обрабатывается отдельно для каждого вызова модели.

Это позволяет существенно сократить объем вычислений при многократных запросах к одной и той же базе знаний или набору инструкций. По заявлению Google, технология может снизить затраты на обработку до 80% для определенных типов рабочих нагрузок.

Технические преимущества

  • Снижение задержек — ускорение обработки запросов за счет исключения повторных вычислений
  • Экономия затрат — значительное уменьшение расходов на токены для длинных промптов
  • Масштабируемость — возможность эффективно работать с большими объемами контекста
  • Совместимость — поддержка моделей Gemini 1.5 Flash и Gemini 1.5 Pro

Практическое применение

Технология особенно полезна для:

  • Чат-ботов с обширной базой знаний
  • Систем поддержки клиентов
  • Анализа документов с постоянными инструкциями
  • Приложений RAG (Retrieval-Augmented Generation)

Кэширование контекста — это именно тот тип оптимизаций, который действительно важен для промышленного внедрения ИИ. Вместо погони за очередными рекордами производительности, Google сосредоточился на решении реальных проблем разработчиков — стоимости и скорости. Интересно, что подобные оптимизации становятся новым полем битвы облачных провайдеров: кто сможет предложить более эффективную и дешевую инфраструктуру для работы с языковыми моделями.

Рыночный контекст

С запуском этой функции Google укрепляет позиции Vertex AI в конкурентной борьбе с Amazon Bedrock и Azure AI Services. Особенность подхода Google — глубокая интеграция кэширования в собственную инфраструктуру, что может дать преимущество в производительности по сравнению с решениями конкурентов.

Функция уже доступна в предварительном просмотре и поддерживает работу с контекстом до 128 тысяч токенов для Gemini 2.5 Pro и 1 миллиона токенов для Gemini 2.5 Flash.

По материалам Google Cloud Blog.