Оглавление

Компания Skywork выпустила открытую модель Matrix-Game 2.0 для генерации интерактивных видео с поддержкой управления в реальном времени. Как сообщает The Decoder, разработка создана как открытая альтернатива проприетарной системе Genie 3 от Google DeepMind.

Модель генерирует видео со скоростью 25 кадров в секунду, поддерживает длительную согласованность сцен и реагирует на действия с клавиатуры и мыши. Пользователи могут свободно перемещаться по виртуальным мирам — от городских пейзажей до дикой природы и полос препятствий в стиле Temple Run.

Технические особенности

Архитектура основана на авторегрессивной диффузии с 1.8 миллиардами параметров. Модуль «мышь/клавиатура-в-кадр» напрямую преобразует действия пользователя в визуальные изменения. Для обучения использовано 1,200 часов данных из Unreal Engine и GTA 5.

По сравнению с открытым конкурентом Oasis, Matrix-Game 2.0 обеспечивает:

  • Более высокое качество изображения
  • Улучшенную согласованность окружения
  • Точную реакцию на пользовательский ввод

Физика и применение

Модель адаптируется к различным визуальным стилям без дополнительной настройки. Персонажи демонстрируют физически правдоподобное поведение, взаимодействуя с объектами окружения.

Потенциальные сферы применения включают:

  • Прототипирование игр
  • Обучение ИИ-агентов
  • Симуляцию сред для автономного вождения
  • Исследования пространственного интеллекта

Открытый выпуск таких инструментов — важный шаг для индустрии. Matrix-Game 2.0, хоть и уступает Genie 3 в стабильности (в демо на 10-й секунде внезапно появляется озеро вместо гор), делает передовые технологии генерации миров доступными каждому разработчику. Особенно ценно, что Skywork предоставила готовый пайплайн для локального развёртывания — в условиях ограниченного доступа к облачным API в некоторых регионах это критически важно. Главный вопрос: смогут ли энтузиасты довести модель до коммерческого качества, используя лишь открытые данные?

Модель доступна бесплатно на Hugging Face и GitHub с полным инференс-пайплайном, поддержкой FlashAttention и инструкциями по интеграции в рабочие процессы.