Компания AMD представила специализированный плагин vLLM-ATOM, призванный радикально оптимизировать инференс (вывод) популярных больших языковых моделей на аппаратных решениях серии Instinct. Как сообщает издание Wccftech, программное дополнение ориентировано на работу с новейшими ускорителями MI350 и MI400, обеспечивая бесшовную интеграцию с фреймворком vLLM.
Разработчики создали vLLM-ATOM как промежуточный слой, который позволяет использовать специфические аппаратные возможности архитектуры CDNA без необходимости ждать, пока соответствующие обновления будут приняты в основной код (upstream) vLLM. Это дает инженерам возможность эксплуатировать такие форматы, как FP4 на чипах MI355X, практически сразу после их выхода на рынок, что значительно сокращает время окупаемости дорогостоящего «железа».
Архитектурные особенности и интеграция
Инструментарий vLLM-ATOM функционирует как прозрачный бэкенд, не требующий от пользователя переучивания или изменения привычных команд и API. Вся магия оптимизации происходит на уровне низкоуровневых ядер, в то время как уровень управления запросами и кэшем KV остается на стороне стандартного vLLM. В основе системы лежат три ключевых компонента:
- vLLM: отвечает за планирование запросов и совместимость с OpenAI API.
- ATOM Plugin: берет на себя регистрацию платформы и маршрутизацию оптимизированных моделей.
- AITER: библиотека низкоуровневых ядер для реализации таких техник, как Flash Attention и квантованный GEMM.
Список поддерживаемых моделей впечатляет своей актуальностью. Плагин адаптирован для работы с архитектурами на базе MoE (смесь экспертов) и MLA, включая DeepSeek-V3, DeepSeek-R1, а также перспективные разработки вроде Kimi-K2 и gpt-oss-120b. Особое внимание уделено гибридным моделям и мультимодальным системам (VLM) из семейства Qwen 3.5.
«vLLM-ATOM доказывает, что специфическая для оборудования оптимизация и совместимость с фреймворками не исключают друг друга. Используя встроенный механизм плагинов vLLM, ATOM предоставляет нативные ядра оптимизации AMD, сохраняя при этом полный набор функций vLLM, на которые полагаются промышленные развертывания LLM», — Пресс-служба AMD
Технологический контекст и рыночные перспективы
Для сообщества разработчиков важно, что ATOM выступает своего рода «песочницей». После того как новые методы оптимизации и ядра стабилизируются внутри плагина, они постепенно переносятся в основной репозиторий ROCm. Таким образом, AMD создает эффективный цикл эволюции софта, который не тормозится бюрократией крупных open-source проектов.
Пока NVIDIA доминирует за счет монолитности экосистемы, AMD вынуждена маневрировать, предлагая костыли, пусть и высокотехнологичные. Стратегия рабочая, но она лишь подчеркивает фрагментацию: пока вы ждете апстрима, ваш стек держится на плагинах. Хороший темп, но архитектурная целостность все еще под вопросом.
Внедрение vLLM-ATOM открывает путь к масштабируемым вычислениям на уровне целых стоек (rack-scale inference) для моделей следующего поколения. Несмотря на техническое изящество решения, конечный успех будет зависеть от того, насколько быстро компания сможет убедить корпоративный сектор в стабильности подобных «внешних» оптимизаций по сравнению с нативными решениями конкурентов.
Оставить комментарий