Inception Mercury

Inception Labs Mercury — это семейство диффузионных языковых моделей нового поколения, которые генерируют текст и код не по одному токену, как классические трансформеры, а через параллельное «черновик и доработка» за несколько шагов. За счёт такого подхода Mercury достигает скорости свыше тысячи токенов в секунду на стандартных графических процессорах, что делает его особенно удобным для живого чата, автодополнения кода и любых сценариев, где критична минимальная задержка.

Mercury доступен через веб‑песочницу и API Inception Labs, а также интегрирован в облачные платформы уровня Amazon Bedrock, что позволяет использовать его и как готового ассистента, и как базовую модель в собственных продуктах. Более новая версия Mercury 2 усиливает способности к рассуждению и агентным сценариям, поэтому модель подходит как для разработчиков, строящих инструменты и агенты поверх API, так и для компаний, которым нужен быстрый, управляемый и масштабируемый языковой движок в продакшене.

Ключевые особенности:

Диффузионная архитектура для параллельной генерации и доработки текста вместо последовательного «по одному токену».
Очень высокая скорость вывода (порядка тысяч токенов в секунду) при качестве, сопоставимом с оптимизированными фронтир‑LLM.
Специализированные варианты Mercury Coder для автодополнения кода, генерации функций и решения задач программирования.
Поддержка сложных промптов: few‑shot, chain‑of‑thought, заполнение пропусков в середине текста и структурированный вывод.
Заточен под агентные сценарии и длинные цепочки вызовов, где важна низкая латентность каждого шага.
Доступ через веб‑интерфейс, публичное API и корпоративные развёртывания (включая интеграцию с облачными провайдерами).
Фокус на продакшене: совместимость с существующими пайплайнами дообучения, настройкой под доменные данные и требования бизнеса.

Основные ссылки:

Новости

Диффузионная языковая модель Mercury 2 от Inception обещает генерацию в 10 раз быстрее конкурентов

Inception Labs представила Mercury 2 — диффузионную языковую модель, работающую быстрее классических LLM. Архитектура параллельной генерации может изменить подход к инференсу и обучению ИИ-агентов.