Оглавление

Новый игрок на поле физического ИИ

Allen Institute for AI (AI2) представил MolmoAct 7B — открытую модель для пространственного мышления роботов, напрямую конкурирующую с разработками Nvidia и Google. Модель основана на открытой платформе Molmo и работает под лицензией Apache 2.0, а обучающие данные доступны по CC BY-4.0.

Архитектура пространственного мышления

MolmoAct классифицируется как Action Reasoning Model, способный:

  • Анализировать действия в трёхмерном пространстве
  • Генерировать «пространственные токены» через векторно-квантованный вариационный автоэнкодер
  • Оценивать расстояния между объектами и строить траектории движения
Сравнение производительности модели MolmoAct на графике

Ключевое отличие от визуально-языковых моделей — токены основаны на геометрических структурах, а не текстовых описаниях. По заявлению AI2, модель адаптируется к разным типам роботов (манипуляторы, гуманоиды) при минимальном дообучении.

Технические показатели

В бенчмарках MolmoAct 7B показал 72.1% успешности задач, опередив аналоги от Google, Microsoft и Nvidia.

Открытость MolmoAct — ключевой фактор: модель и данные под свободными лицензиями создают основу для быстрого прогресса в робототехнике. Однако тестовые среды искусственны — реальные кухни или склады с их хаосом станут настоящим экзаменом. Конкуренция между AI2, Google и Nvidia здесь полезна, но ждать универсальных роботов-помощников пока рано. Интересно, как модель адаптируется к дешёвым «железкам» вроде робота Hugging Face за $299 — это и будет проверка на массовость.

Экспертные оценки

Алан Ферн из Oregon State University называет разработку «важным шагом вперёд», но отмечает ограниченность тестовых сред. Сооснователь Gather AI Даниэль Матурана подчёркивает ценность открытых данных для научных лабораторий и энтузиастов.

Эволюция физического ИИ

Тренд на интеграцию языковых моделей в робототехнику набирает обороты:

  • Google SayCan для планирования последовательностей действий
  • Meta (признана экстремистской) и NYU OK-Robot для манипуляции объектами
  • Nvidia Cosmos-Transfer1 для гиперреалистичного обучения

Как отмечает Ферн, «большие модели физического интеллекта всё ещё в зачаточном состоянии», оставляя простор для прорывов.

По материалам VentureBeat.