Оглавление
Компания Tencent представила систему HunyuanWorld-Voyager, которая создает пространственно согласованные 3D-сцены из единственной фотографии, полностью обходясь без традиционных конвейеров 3D-моделирования. Технология сочетает RGB-данные с информацией о глубине и использует эффективный по памяти «мировой кэш» для генерации видео с пользовательским движением камеры.
Как работает технология
Пользователь загружает фотографию и задает траекторию движения камеры через сцену. Voyager затем генерирует непрерывное видео, симулирующее движение камеры, что значительно упрощает создание виртуальных 3D-окружений без сложного моделирования и технической настройки.
Основой системы является совместная генерация RGB и глубины (RGB-D). Глубинная информация помогает Voyager оценивать расстояния в сцене и избегать распространенных ошибок при просмотре объектов под нестандартными углами.
Память для 3D-миров
«Мировой кэш» Voyager сохраняет ранее увиденные и сгенерированные регионы сцены, обновляясь по мере движения камеры. Когда скрытые части окружения вновь появляются в поле зрения, система восстанавливает их из кэша. Избыточные данные удаляются для оптимизации памяти, что обеспечивает стабильность длинных путей камеры и геометрическую согласованность.
Tencent обучила Voyager на большом наборе данных реальных видео и сцен Unreal Engine, каждый элемент которого размечен оцененными позами камеры и метрической глубиной. Такой подход помог модели научиться тому, как камеры движутся в реальных пространствах и как объекты выглядят с разных углов.
Производительность и практическое применение
По словам Tencent, Voyager показала высокие результаты в нескольких категориях бенчмарка WorldScore, включая контроль камеры и пространственную согласованность. Практическое преимущество совместной генерации RGB и глубины заключается в том, что система может выводить прямые 3D-реконструкции — например, облака точек или гауссовы прокси — с минимальной необходимостью постобработки.
Tencent сообщает, что Voyager также может извлекать 3D-объекты из одиночных изображений, анализировать глубину в видео и переносить стили с сохранением геометрической структуры. Код и веса для инференса публично доступны. Tencent указывает 60 ГБ GPU RAM как минимальное требование для вывода в разрешении 540p.
Технология выглядит впечатляюще на бумаге, но ключевой вопрос — как она справляется с реальными сложными сценами. Совместная генерация RGB-D и интеллектуальное кэширование действительно решают фундаментальные проблемы согласованности в нейросетевой 3D-генерации. Однако требования к видеопамяти (60 ГБ!) сразу отсекают большинство студий и независимых разработчиков. Это типичная история — сначала исследовательская демка для H100, а через год-два оптимизированная версия для 4090.
Экосистема HunyuanWorld
Voyager разработан как дополнение к HunyuanWorld 1.0. Если первая версия фокусировалась на семантических, слоистых 3D-меш-представлениях с экспортом сеток и интерактивностью, но сталкивалась с проблемами диапазона исследования и закрытых областей, то Voyager решает эти проблемы через связку RGB-глубины и мировой кэш, делая возможными более длинные и согласованные пути камеры.
Конкурирующие подходы
Другие системы выбирают иные подходы. Genie 3 от Google нацелен на интерактивные миры, где пользователи запускают «события мира» через текст. Google заявляет о согласованности сцены в течение нескольких минут, но доступ сейчас ограничен исследовательским превью.
Mirage 2 от Dynamics Lab также предлагает браузерные интерактивные демо с клавиатурным и текстовым вводом. Если эти системы фокусируются на живом игровом процессе, интерактивности и тренировке роботов, то Voyager ориентирован на видеопроизводство и конвейеры 3D-контента.
По материалам The Decoder.
Оставить комментарий