Оглавление
- Архитектура, заточенная под реальные ограничения, а не лабораторные бенчмарки
- Конвейер обучения, нацеленный на надёжность в продакшене
- Мультимодальность, построенная вокруг эффективности токенов
- Retrieval-модели для агентских систем, а не для унаследованного поиска
- Зарождающийся blueprint для гибридных корпоративных архитектур
Стартап Liquid AI, основанный учёными из MIT, опубликовал детальный 51-страничный технический отчёт о своей архитектуре Liquid Foundation Models 2 (LFM2). Вместо того чтобы просто выложить веса модели, компания раскрыла полный рецепт — от поиска архитектуры на целевом железе до стратегии обучения и постобработки, — создавая тем самым открытый blueprint для корпораций, желающих строить свои собственные небольшие, но эффективные модели с нуля.
Архитектура, заточенная под реальные ограничения, а не лабораторные бенчмарки
Отчёт начинается с прагматичного тезиса: реальные системы упираются в бюджет задержек, потолок памяти и тепловые ограничения, особенно на мобильных устройствах и ноутбуках. В ответ на это Liquid AI проводила поиск архитектуры непосредственно на целевом железе — процессорах Snapdragon и Ryzen. Результатом стала гибридная архитектура, доминируемая блоками gated short convolution с небольшим количеством слоёв grouped-query attention (GQA). Этот простой и стабильный дизайн обеспечивает предсказуемую производительность на устройствах.
Для инженерных команд это даёт три ключевых преимущества:
- Предсказуемость. Архитектура остаётся единой для моделей от 350 млн до 2.6 млрд параметров.
- Портативность. Плотные (dense) и MoE-варианты используют один и тот же каркас, упрощая развёртывание на разнородном парке устройств.
- Возможность работы на устройстве. Пропускная способность на CPU примерно в 2 раза выше, чем у сопоставимых открытых моделей, что снижает необходимость в облачных вычислениях для рутинных задач.
Здесь кроется тонкая ирония: пока гиганты вроде OpenAI и Google соревнуются в параметрах, Liquid AI делает ставку на инженерную дисциплину. Их подход — это антитеза «лабораторному» ИИ, который молча предполагает доступ к кластеру из H100. Вместо академической новизны они оптимизируют под реальные корпоративные сценарии параметры latency, memory, thermals. Это напоминает, что будущее ИИ в продакшене определяется не только чистой мощностью, но и умением вписаться в существующие инфраструктурные рамки.
Конвейер обучения, нацеленный на надёжность в продакшене
Команда компенсировала меньший масштаб моделей (от 350M до 1.2B параметров) не brute force, а структурными решениями:
- Предобучение на 10–12 триллионах токенов с дополнительной фазой mid-training для расширения контекстного окна.
- Цель дистилляции знаний decoupled Top-K, которая обходит нестабильность стандартного подхода.
- Трёхэтапная постобработка (SFT, выравнивание предпочтений, слияние моделей) для улучшения следования инструкциям и работы с инструментами.
Суть в том, что LFM2 ведёт себя не как «крошечный LLM», а как практичный агент, способный работать с JSON-схемами и многоходовыми диалогами — именно то, что нужно для корпоративных автоматизаций.
Мультимодальность, построенная вокруг эффективности токенов
Варианты LFM2-VL (для зрения) и LFM2-Audio (для аудио) демонстрируют подход, ориентированный на экономию токенов, а не на впечатляющие демо. Например, визуальный энкодер SigLIP2 подключён через коннектор, который агрессивно сокращает количество визуальных токенов с помощью PixelUnshuffle. Для аудио используется раздельный путь для эмбеддингов и генерации, что позволяет работать в реальном времени на скромных CPU.
Это открывает практические сценарии: анализ документов прямо на полевых устройствах, локальная транскрипция аудио для соблюдения приватности, мультимодальные агенты, работающие в строгих рамках задержки.
Retrieval-модели для агентских систем, а не для унаследованного поиска
LFM2-ColBERT — это модель для поиска информации (retrieval) с поздним взаимодействием, оптимизированная под небольшой footprint. Она позволяет организовать быстрый локальный поиск по документам на том же устройстве, где работает основная модель, что критично для агентских систем, требующих минимальной задержки и максимальной приватности данных.
Зарождающийся blueprint для гибридных корпоративных архитектур
В совокупности отчёт LFM2 намечает контуры будущего корпоративного стека ИИ: гибридная локально-облачная оркестрация. Небольшие, быстрые модели на устройствах берут на себя критичные ко времени задачи (восприятие, форматирование, вызов инструментов), в то время как крупные облачные модели подключаются для сложных рассуждений по требованию.
Эта тенденция подпитывается несколькими факторами:
- Контроль затрат. Локальный инференс избегает непредсказуемых облачных счетов.
- Детерминированная задержка. Отсутствие сетевого дрожания критично для агентских workflow.
- Соответствие регуляциям. Локальное исполнение упрощает работу с персональными данными и требованиями резидентности данных.
- Устойчивость. Система деградирует при потере облачного соединения.
Стратегический вывод прост: ИИ на устройстве теперь — это осознанный архитектурный выбор, а не вынужденный компромисс в качестве. Публикация подробного отчета компанией Liquid AI ускоряет этот переход, давая корпорациям инструмент для построения собственных, независимых и эффективных решений.
По сообщению VentureBeat, это может стать поворотным моментом в демократизации enterprise-ИИ.
Оставить комментарий