Оглавление

Архитектура Mixture of Experts копирует эффективность человеческого мозга, активируя только нужных «экспертов» для каждого токена ИИ. Это позволяет генерировать токены быстрее и эффективнее, без пропорционального роста вычислений. В топ-10 самых умных открытых моделей все используют эту архитектуру, включая DeepSeek-R1 от DeepSeek AI, Kimi K2 Thinking от Moonshot AI, gpt-oss-120B от OpenAI и Mistral Large 3 от Mistral AI.

Однако масштабирование таких моделей в продакшене требует мощной аппаратной оптимизации, как в системах NVIDIA GB200 NVL72, где Kimi K2 Thinking работает в 10 раз быстрее, чем на HGX H200.

Что такое MoE и почему она стала стандартом для передовых моделей?

Ранее индустрия полагалась на плотные модели, задействующие все параметры — сотни миллиардов — для каждого токена. Это требовало огромных ресурсов, затрудняя масштабирование. Архитектура смеси экспертов работает иначе: модель состоит из специализированных экспертов, а роутер активирует только релевантных для конкретного токена. Хотя общий объем параметров может достигать сотен миллиардов, для одного токена используются лишь десятки миллиардов.

Диаграмма, иллюстрирующая тенденцию внедрения смеси экспертов в передовых моделях искусственного интеллекта с начала 2025 года

Источник: blogs.nvidia.com

Как мозг использует разные зоны для задач, модели смеси экспертов выбирают экспертов через роутер для каждого токена. Это повышает интеллект и адаптивность без роста затрат, делая архитектуру фундаментом для эффективных систем ИИ, оптимизированных по производительности на доллар и ватт.

Неудивительно, что смесь экспертов стала выбором для передовых моделей: более 60% открытых релизов с начала года используют эту архитектуру, увеличив интеллект моделей почти в 70 раз с раннего 2023 года.

Сравнение производительности, демонстрирующее 10-кратный рост в моделях смеси экспертов на GB200 NVL72

Источник: blogs.nvidia.com

С раннего 2025 года почти все ведущие модели применяют дизайн смеси экспертов.

«Наша пионерская работа с открытой архитектурой смеси экспертов, начатая с Mixtral 8x7B два года назад, делает продвинутый интеллект доступным и устойчивым для широкого спектра приложений,» — сказал Гийом Лампль, соучредитель и главный ученый Mistral AI. — «Архитектура смеси экспертов в Mistral Large 3 позволяет масштабировать системы ИИ до большего быстродействия и эффективности, резко снижая потребление энергии и вычислений.»

Преодоление узких мест масштабирования смеси экспертов с помощью экстремального кодзайна

Передовые модели смеси экспертов слишком велики для одного GPU, поэтому эксперты распределяют по нескольким устройствам — экспертный параллелизм. Но на платформах вроде H200 возникают проблемы: ограничения памяти, когда параметры экспертов загружаются динамично, и латентность при коммуникации между GPU. Решение — экстремальный кодзайн в NVIDIA GB200 NVL72: 72 GPU Blackwell объединены в единую систему с 1,4 экзафлопсами производительности ИИ и 30 ТБ общей памяти, соединенные NVLink с пропускной способностью 130 ТБ/с.

Это позволяет масштабировать экспертный параллелизм до 72 GPU, решая узкие места:

  • Снижение числа экспертов на GPU: Распределение по 72 GPU уменьшает нагрузку на память каждого устройства, высвобождая место для большего числа одновременных пользователей и длинных входных последовательностей.
  • Ускорение коммуникаций экспертов: Эксперты общаются мгновенно через NVLink, а переключатель NVLink берет на себя часть вычислений для объединения информации.

Другие оптимизации, такие как фреймворк NVIDIA Dynamo для распределенного обслуживания, формат NVFP4 для точности и эффективности, плюс открытые фреймворки вроде TensorRT-LLM, SGLang и vLLM, усиливают производительность. GB200 NVL72 развертывается через облачных провайдеров, включая Amazon Web Services, CoreWeave и Microsoft Azure.

Источник новости: NVIDIA.