Оглавление
Инфраструктурный провайдер Baseten достиг значительного прорыва в производительности AI-инференса, сообщает Google Cloud Blog. Компания демонстрирует улучшение соотношения цена/производительность для высоконагруженных задач на 225%, и на 25% для чувствительных к задержкам сценариев.
Аппаратная оптимизация с новейшими GPU NVIDIA
Ключевым фактором успеха стало использование виртуальных машин Google Cloud A4 на архитектуре NVIDIA Blackwell. Baseten эффективно использует весь спектр GPU — от NVIDIA T4 до флагманских B200.
- Три популярные open-source модели — DeepSeek V3, DeepSeek R1 и Llama 4 Maverick — теперь работают с рекордной эффективностью
- Для кастомных развертываний доступны выделенные инстансы на B200 с аналогичной надежностью
Программный стек для максимальной производительности
Аппаратные улучшения подкреплены оптимизированным софтверным стеком в рамках Google Cloud AI Hypercomputer.
- TensorRT-LLM увеличил пропускную способность для клиента Writer на 60%
- NVIDIA Dynamo снизил задержки для моделей логического вывода типа DeepSeek R1
- Применяются техники объединения ядер и оптимизации иерархии памяти
История успеха Baseten демонстрирует классическую истину: магия происходит на стыке железа и софта. Их достижение — не просто обновление железа, а глубокая системная оптимизация. Интересно, сколько стартапов сейчас пересматривают свои инфраструктурные решения, увидев эти цифры. В мире AI-инференса 225% — это не улучшение, это смена парадигмы.
Отказоустойчивая архитектура для критичных сервисов
Baseten работает в мультиоблачной среде с автоматическим переключением при сбоях. Dynamic Workload Scheduler от Google Cloud стал ключевым элементом отказоустойчивости.
«Наша автоматическая система перемещает нагрузки на другие ресурсы, включая Google Cloud DWS, и в течение минут всё снова работает», — отмечает Колин МакГрат, глава инфраструктуры Baseten.
Практические применения для индустрии
Достигнутая эффективность открывает новые возможности для внедрения AI в промышленную эксплуатацию:
- Агентные рабочие процессы в финансовых сервисах
- Генерация аудио и видео контента в реальном времени
- Ускоренная обработка документов в здравоохранении
Начать работу с платформой Baseten можно через Google Cloud Marketplace, а технические детали архитектуры описаны в их блоге.
Оставить комментарий