Inception Labs представила Mercury 2 — диффузионную LLM с 10× ускорением

Inception Labs представила Mercury 2 — диффузионную языковую модель, работающую быстрее классических LLM. Архитектура параллельной генерации может изменить подход к инференсу и обучению ИИ-агентов.

Стартап Inception Labs представил Mercury 2 — большую языковую модель (LLM), построенную на базе архитектуры диффузии вместо традиционного авторегрессионного подхода. Как сообщает The New Stack, новая разработка демонстрирует скорость генерации свыше 1000 токенов в секунду, что в 5–10 раз превышает показатели оптимизированных моделей от OpenAI, Anthropic и Google.

В отличие от стандартных LLM, которые работают по принципу «продвинутого автозаполнения», генерируя текст последовательно слева направо, диффузионные модели формируют ответ итеративно. Процесс начинается с грубого приближения, которое уточняется параллельно, что позволяет максимально эффективно использовать вычислительную мощность GPU. По словам генерального директора Inception Labs Стефано Эрмона, авторегрессионные системы часто ограничены пропускной способностью памяти, тогда как диффузия опирается на математические вычисления.

Технологический стек и рыночное позиционирование

Разработчики Mercury 2 не претендуют на конкуренцию с тяжеловесами вроде GPT-4 или Claude 3 Opus. Текущая итерация модели сопоставима по качеству ответов с «легкими» версиями конкурентов — Claude Haiku и Gemini Flash. Однако архитектурное преимущество делает Mercury 2 крайне перспективной для задач Reinforcement Learning (обучения с подкреплением), где именно скорость инференса является критическим узким местом.

Проект поддерживается корпорацией Nvidia, которая выступает инвестором стартапа и помогает в оптимизации движка обслуживания моделей. Стефано Эрмон, получивший награду Best Paper на ICML 2024 за работы в области текстовой диффузии, отмечает, что их решение — единственная на рынке диффузионная LLM, готовая к промышленной эксплуатации, в то время как аналогичные разработки Google DeepMind остаются экспериментальными.

Диффузия в текстах — эффектный инженерный маневр, решающий проблему последовательного инференса, но скорость не заменяет когнитивную глубину. Mercury 2 хороша в узких сценариях, где важен темп, однако реальный вызов лежит в сохранении когерентности на длинных контекстах без авторегрессионного «поводка». Пока это лишь быстрый спринтер на короткие дистанции, а не замена фундаментальным моделям.

В настоящий момент Mercury 2 доступна через API, совместимый с протоколами OpenAI. В ближайших планах компании значится интеграция с облачной платформой AWS Bedrock, что должно упростить внедрение технологии в корпоративном секторе, ориентированном на высокопроизводительные системы рассуждения (reasoning models).

Стратегическая ставка Inception Labs на параллелизацию вычислений выглядит логичной в эпоху дефицита вычислительных мощностей. Если стартапу удастся масштабировать качество ответов без потери скоростных преимуществ, диффузионный подход может стать серьезной альтернативой доминирующим сегодня архитектурам в сегменте операционных и диалоговых ИИ-агентов.