Архивы GPU

Старый серверный чип NVIDIA Tesla V100 удивляет в тестах на инференсе LLM

Энтузиасты адаптировали серверную NVIDIA Tesla V100 для домашнего ПК, достигнув скорости в 130 токенов в секунду, что выше показателей современных RTX 3060.

Unsloth представил библиотеку, позволяющую дообучать LLM даже на домашнем компьютере

Стартап Unsloth представил кастомные ядра CUDA, которые позволяют дообучать крупные языковые модели вроде Qwen3.6-27B на обычных игровых видеокартах с 24 ГБ памяти.

Разделение инференса LLM: как Kubernetes адаптируют под специфику стадий prefill и decode

Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.

Доминирование Nvidia на рынке обучения ИИ не гарантирует успех в эру инференса

Индустрия ИИ переходит от обучения моделей к инференсу, что ставит под угрозу монополию Nvidia и требует новых архитектурных решений.

Intel расширяет поддержку моделей Qwen в стеке LLM-Scaler для графики Arc

Intel расширила возможности проекта LLM-Scaler, добавив поддержку моделей семейства Qwen3.5 и ASR-модели для распознавания речи. Обновление позволяет запускать современные нейросети на потребительских видеокартах Arc с использованием vLLM и Docker.

Google Cloud запускает виртуальные машины Flex-start VMs

Google Cloud запускает виртуальные машины Flex-start для доступа к дефицитным GPU

Google Cloud анонсировал общедоступную версию Flex-start VMs — виртуальных машин с очередью доступа к GPU продолжительностью до двух часов для ML-задач.

Новости

GPU