GPU

Новости

Kubernetes prefill и decode

Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode

Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.

Доминирование Nvidia заканчивается

Доминирование Nvidia на рынке обучения ИИ не гарантирует успех в эру инференса

Индустрия ИИ переходит от обучения моделей к инференсу, что ставит под угрозу монополию Nvidia и требует новых архитектурных решений.

Qwen в LLM-Scaler для Arc

Intel расширяет поддержку моделей Qwen в стеке LLM-Scaler для графики Arc

Intel расширила возможности проекта LLM-Scaler, добавив поддержку моделей семейства Qwen3.5 и ASR-модели для распознавания речи. Обновление позволяет запускать современные нейросети на потребительских видеокартах Arc с использованием vLLM и Docker.

Google Cloud запускает виртуальные машины Flex-start VMs

Google Cloud запускает виртуальные машины Flex-start для доступа к дефицитным GPU

Google Cloud анонсировал общедоступную версию Flex-start VMs — виртуальных машин с очередью доступа к GPU продолжительностью до двух часов для ML-задач.