Оглавление

Инфраструктурный провайдер Baseten достиг значительного прорыва в производительности AI-инференса, сообщает Google Cloud Blog. Компания демонстрирует улучшение соотношения цена/производительность для высоконагруженных задач на 225%, и на 25% для чувствительных к задержкам сценариев.

Аппаратная оптимизация с новейшими GPU NVIDIA

Ключевым фактором успеха стало использование виртуальных машин Google Cloud A4 на архитектуре NVIDIA Blackwell. Baseten эффективно использует весь спектр GPU — от NVIDIA T4 до флагманских B200.

  • Три популярные open-source модели — DeepSeek V3, DeepSeek R1 и Llama 4 Maverick — теперь работают с рекордной эффективностью
  • Для кастомных развертываний доступны выделенные инстансы на B200 с аналогичной надежностью

Программный стек для максимальной производительности

Аппаратные улучшения подкреплены оптимизированным софтверным стеком в рамках Google Cloud AI Hypercomputer.

  • TensorRT-LLM увеличил пропускную способность для клиента Writer на 60%
  • NVIDIA Dynamo снизил задержки для моделей логического вывода типа DeepSeek R1
  • Применяются техники объединения ядер и оптимизации иерархии памяти

История успеха Baseten демонстрирует классическую истину: магия происходит на стыке железа и софта. Их достижение — не просто обновление железа, а глубокая системная оптимизация. Интересно, сколько стартапов сейчас пересматривают свои инфраструктурные решения, увидев эти цифры. В мире AI-инференса 225% — это не улучшение, это смена парадигмы.

Отказоустойчивая архитектура для критичных сервисов

Baseten работает в мультиоблачной среде с автоматическим переключением при сбоях. Dynamic Workload Scheduler от Google Cloud стал ключевым элементом отказоустойчивости.

«Наша автоматическая система перемещает нагрузки на другие ресурсы, включая Google Cloud DWS, и в течение минут всё снова работает», — отмечает Колин МакГрат, глава инфраструктуры Baseten.

Практические применения для индустрии

Достигнутая эффективность открывает новые возможности для внедрения AI в промышленную эксплуатацию:

  • Агентные рабочие процессы в финансовых сервисах
  • Генерация аудио и видео контента в реальном времени
  • Ускоренная обработка документов в здравоохранении

Начать работу с платформой Baseten можно через Google Cloud Marketplace, а технические детали архитектуры описаны в их блоге.