Оглавление

Китайский технологический гигант Tencent выпустил открытую систему Hunyuan-GameCraft, которая преобразует статичные изображения в полностью интерактивные трехмерные сцены с управлением от первого лица. В отличие от обычных генераторов видео, эта система позволяет пользователям свободно перемещаться по сгенерированному миру с помощью клавиш WASD или стрелок, сообщает The Decoder.

Техническая архитектура интерактивности

Система построена на базе открытой текстово-видео модели Tencent HunyuanVideo. GameCraft поддерживает пять степеней свободы:

  • Три оси перемещения (вперед/назад, влево/вправо, вверх/вниз)
  • Две оси вращения для осмотра окружения

Специальный энкодер действий преобразует клавиатурный ввод в численные значения, понятные видео-генератору. Система также учитывает продолжительность нажатия клавиш для контроля скорости движения.

Гибридное обучение для длинных последовательностей

Для поддержания качества видео в длительных сессиях GameCraft использует методику Hybrid History-Conditioned Training. Вместо генерации всего видео сразу, модель создает сегменты длиной примерно 1.3 секунды, учитывая предыдущие фрагменты.

Бинарная маска указывает системе, какие части кадра уже существуют, а какие нужно сгенерировать. Этот подход сочетает историческую консистентность с отзывчивостью на новые команды пользователя.

Масштаб обучения и производительность

Система обучалась на более чем миллионе записей геймплея из 100+ AAA-игр, включая Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Обучение проводилось в две фазы на 192 GPU Nvidia H20.

Ключевые технические характеристики:

  • Скорость рендеринга: 6.6 кадров в секунду
  • Время отклика на ввод: менее 5 секунд
  • Внутренняя обработка: 25 fps сегментами по 33 кадра
  • Разрешение: 720p

Для ускорения генерации Tencent добавила Phased Consistency Model, которая пропускает промежуточные шаги диффузионного процесса, увеличивая скорость вывода в 10-20 раз.

Технически впечатляюще, но практическая ценность пока под вопросом. 720p и 6.6 FPS — это демо-уровень, а не готовый продукт. Ключевой прорыв здесь — не качество картинки, а архитектура интерактивности. В отличие от статичных генераторов типа Midjourney, это шаг к настоящим AI-симуляторам. Жду, когда подобные модели научатся генерировать не просто визуал, игрушечную физику и простейшие взаимодействия.

Полный код и веса модели доступны на GitHub, веб-демо находится в разработке. GameCraft присоединяется к растущему полю интерактивных AI-миров, где уже представлены Google DeepMind’s Genie 3 и открытый Matrix-Game 2.0 от Skywork.