Kubernetes

Новости

Kubernetes prefill и decode

Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode

Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.

ScaleOps оптимизирует локальную инфраструктуру

ScaleOps запускает платформу по оптимизации локальной ИИ-инфраструктуры в компаниях

ScaleOps представила продукт для оптимизации GPU-инфраструктуры в корпоративных AI-развертываниях. Решение сокращает затраты на GPU на 50-70% и повышает эффективность использования ресурсов.

Databricks и балансировка нагрузки Kubernetes

Databricks создала клиентскую систему балансировки нагрузки для Kubernetes

Databricks разработала клиентскую систему балансировки нагрузки для Kubernetes, решающую проблемы стандартных механизмов при работе с высоконагруженными gRPC-сервисами.

Solo.io запускает Kagent для управления AI-агентами в Kubernetes

Solo.io представляет Kagent Enterprise — платформу для управления AI-агентами в Kubernetes, решающую проблемы масштабирования и безопасности в продакшен-среде.