Оглавление
Китайский технологический гигант Tencent выпустил открытую систему Hunyuan-GameCraft, которая преобразует статичные изображения в полностью интерактивные трехмерные сцены с управлением от первого лица. В отличие от обычных генераторов видео, эта система позволяет пользователям свободно перемещаться по сгенерированному миру с помощью клавиш WASD или стрелок, сообщает The Decoder.
Техническая архитектура интерактивности
Система построена на базе открытой текстово-видео модели Tencent HunyuanVideo. GameCraft поддерживает пять степеней свободы:
- Три оси перемещения (вперед/назад, влево/вправо, вверх/вниз)
- Две оси вращения для осмотра окружения
Специальный энкодер действий преобразует клавиатурный ввод в численные значения, понятные видео-генератору. Система также учитывает продолжительность нажатия клавиш для контроля скорости движения.
Гибридное обучение для длинных последовательностей
Для поддержания качества видео в длительных сессиях GameCraft использует методику Hybrid History-Conditioned Training. Вместо генерации всего видео сразу, модель создает сегменты длиной примерно 1.3 секунды, учитывая предыдущие фрагменты.
Бинарная маска указывает системе, какие части кадра уже существуют, а какие нужно сгенерировать. Этот подход сочетает историческую консистентность с отзывчивостью на новые команды пользователя.
Масштаб обучения и производительность
Система обучалась на более чем миллионе записей геймплея из 100+ AAA-игр, включая Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Обучение проводилось в две фазы на 192 GPU Nvidia H20.
Ключевые технические характеристики:
- Скорость рендеринга: 6.6 кадров в секунду
- Время отклика на ввод: менее 5 секунд
- Внутренняя обработка: 25 fps сегментами по 33 кадра
- Разрешение: 720p
Для ускорения генерации Tencent добавила Phased Consistency Model, которая пропускает промежуточные шаги диффузионного процесса, увеличивая скорость вывода в 10-20 раз.
Технически впечатляюще, но практическая ценность пока под вопросом. 720p и 6.6 FPS — это демо-уровень, а не готовый продукт. Ключевой прорыв здесь — не качество картинки, а архитектура интерактивности. В отличие от статичных генераторов типа Midjourney, это шаг к настоящим AI-симуляторам. Жду, когда подобные модели научатся генерировать не просто визуал, игрушечную физику и простейшие взаимодействия.
Полный код и веса модели доступны на GitHub, веб-демо находится в разработке. GameCraft присоединяется к растущему полю интерактивных AI-миров, где уже представлены Google DeepMind’s Genie 3 и открытый Matrix-Game 2.0 от Skywork.
Оставить комментарий