Оглавление

Стартап Liquid AI, основанный учёными из MIT, опубликовал детальный 51-страничный технический отчёт о своей архитектуре Liquid Foundation Models 2 (LFM2). Вместо того чтобы просто выложить веса модели, компания раскрыла полный рецепт — от поиска архитектуры на целевом железе до стратегии обучения и постобработки, — создавая тем самым открытый blueprint для корпораций, желающих строить свои собственные небольшие, но эффективные модели с нуля.

Архитектура, заточенная под реальные ограничения, а не лабораторные бенчмарки

Отчёт начинается с прагматичного тезиса: реальные системы упираются в бюджет задержек, потолок памяти и тепловые ограничения, особенно на мобильных устройствах и ноутбуках. В ответ на это Liquid AI проводила поиск архитектуры непосредственно на целевом железе — процессорах Snapdragon и Ryzen. Результатом стала гибридная архитектура, доминируемая блоками gated short convolution с небольшим количеством слоёв grouped-query attention (GQA). Этот простой и стабильный дизайн обеспечивает предсказуемую производительность на устройствах.

Для инженерных команд это даёт три ключевых преимущества:

  • Предсказуемость. Архитектура остаётся единой для моделей от 350 млн до 2.6 млрд параметров.
  • Портативность. Плотные (dense) и MoE-варианты используют один и тот же каркас, упрощая развёртывание на разнородном парке устройств.
  • Возможность работы на устройстве. Пропускная способность на CPU примерно в 2 раза выше, чем у сопоставимых открытых моделей, что снижает необходимость в облачных вычислениях для рутинных задач.

Здесь кроется тонкая ирония: пока гиганты вроде OpenAI и Google соревнуются в параметрах, Liquid AI делает ставку на инженерную дисциплину. Их подход — это антитеза «лабораторному» ИИ, который молча предполагает доступ к кластеру из H100. Вместо академической новизны они оптимизируют под реальные корпоративные сценарии параметры latency, memory, thermals. Это напоминает, что будущее ИИ в продакшене определяется не только чистой мощностью, но и умением вписаться в существующие инфраструктурные рамки.

Конвейер обучения, нацеленный на надёжность в продакшене

Команда компенсировала меньший масштаб моделей (от 350M до 1.2B параметров) не brute force, а структурными решениями:

  • Предобучение на 10–12 триллионах токенов с дополнительной фазой mid-training для расширения контекстного окна.
  • Цель дистилляции знаний decoupled Top-K, которая обходит нестабильность стандартного подхода.
  • Трёхэтапная постобработка (SFT, выравнивание предпочтений, слияние моделей) для улучшения следования инструкциям и работы с инструментами.

Суть в том, что LFM2 ведёт себя не как «крошечный LLM», а как практичный агент, способный работать с JSON-схемами и многоходовыми диалогами — именно то, что нужно для корпоративных автоматизаций.

Мультимодальность, построенная вокруг эффективности токенов

Варианты LFM2-VL (для зрения) и LFM2-Audio (для аудио) демонстрируют подход, ориентированный на экономию токенов, а не на впечатляющие демо. Например, визуальный энкодер SigLIP2 подключён через коннектор, который агрессивно сокращает количество визуальных токенов с помощью PixelUnshuffle. Для аудио используется раздельный путь для эмбеддингов и генерации, что позволяет работать в реальном времени на скромных CPU.

Это открывает практические сценарии: анализ документов прямо на полевых устройствах, локальная транскрипция аудио для соблюдения приватности, мультимодальные агенты, работающие в строгих рамках задержки.

Retrieval-модели для агентских систем, а не для унаследованного поиска

LFM2-ColBERT — это модель для поиска информации (retrieval) с поздним взаимодействием, оптимизированная под небольшой footprint. Она позволяет организовать быстрый локальный поиск по документам на том же устройстве, где работает основная модель, что критично для агентских систем, требующих минимальной задержки и максимальной приватности данных.

Зарождающийся blueprint для гибридных корпоративных архитектур

В совокупности отчёт LFM2 намечает контуры будущего корпоративного стека ИИ: гибридная локально-облачная оркестрация. Небольшие, быстрые модели на устройствах берут на себя критичные ко времени задачи (восприятие, форматирование, вызов инструментов), в то время как крупные облачные модели подключаются для сложных рассуждений по требованию.

Эта тенденция подпитывается несколькими факторами:

  • Контроль затрат. Локальный инференс избегает непредсказуемых облачных счетов.
  • Детерминированная задержка. Отсутствие сетевого дрожания критично для агентских workflow.
  • Соответствие регуляциям. Локальное исполнение упрощает работу с персональными данными и требованиями резидентности данных.
  • Устойчивость. Система деградирует при потере облачного соединения.

Стратегический вывод прост: ИИ на устройстве теперь — это осознанный архитектурный выбор, а не вынужденный компромисс в качестве. Публикация подробного отчета компанией Liquid AI ускоряет этот переход, давая корпорациям инструмент для построения собственных, независимых и эффективных решений.

По сообщению VentureBeat, это может стать поворотным моментом в демократизации enterprise-ИИ.