Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode
Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.
Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.
Индустрия ИИ переходит от обучения моделей к инференсу, что ставит под угрозу монополию Nvidia и требует новых архитектурных решений.
Intel расширила возможности проекта LLM-Scaler, добавив поддержку моделей семейства Qwen3.5 и ASR-модели для распознавания речи. Обновление позволяет запускать современные нейросети на потребительских видеокартах Arc с использованием vLLM и Docker.
Google Cloud анонсировал общедоступную версию Flex-start VMs — виртуальных машин с очередью доступа к GPU продолжительностью до двух часов для ML-задач.