Старый серверный чип NVIDIA Tesla V100 удивляет в тестах на инференсе LLM
Энтузиасты адаптировали серверную NVIDIA Tesla V100 для домашнего ПК, достигнув скорости в 130 токенов в секунду, что выше показателей современных RTX 3060.
Энтузиасты адаптировали серверную NVIDIA Tesla V100 для домашнего ПК, достигнув скорости в 130 токенов в секунду, что выше показателей современных RTX 3060.
Стартап Unsloth представил кастомные ядра CUDA, которые позволяют дообучать крупные языковые модели вроде Qwen3.6-27B на обычных игровых видеокартах с 24 ГБ памяти.
Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.
Индустрия ИИ переходит от обучения моделей к инференсу, что ставит под угрозу монополию Nvidia и требует новых архитектурных решений.
Intel расширила возможности проекта LLM-Scaler, добавив поддержку моделей семейства Qwen3.5 и ASR-модели для распознавания речи. Обновление позволяет запускать современные нейросети на потребительских видеокартах Arc с использованием vLLM и Docker.
Google Cloud анонсировал общедоступную версию Flex-start VMs — виртуальных машин с очередью доступа к GPU продолжительностью до двух часов для ML-задач.