Исследователи из Microsoft Research в сотрудничестве с учеными из нескольких университетов представили Mirage — новую модель мира для генерации видео, которая решает одну из самых раздражающих проблем нейросетей: потерю пространственной согласованности. Как сообщает The Decoder, система получила постоянную память, позволяющую ей «помнить», как выглядели объекты, оставшиеся за пределами кадра при движении виртуальной камеры.
В отличие от существующих решений, которые полагаются на ресурсоемкое создание 3D-облаков точек из пикселей, Mirage хранит данные непосредственно в латентном пространстве диффузионной модели. Этот архитектурный маневр позволил увеличить скорость генерации видео до 10,5 раз и сократить потребление памяти в 55 раз по сравнению с аналогичными методами, использующими классический рендеринг.
Преодоление «двойного узкого места»
До сих пор видеомодели часто страдали своего рода пространственной деменцией: если камера отворачивалась от угла комнаты, а затем возвращалась обратно, мебель могла изменить форму, а текстуры — «поплыть». Системы вроде Voyager или WonderWorld пытались исправить это через 3D-облака точек, однако Microsoft указывает на проблему «двойного узкого места»: постоянная конвертация данных из внутреннего пространства модели в пиксельное и обратно поглощает вычислительные мощности и приводит к потере точности.
Разработчики Mirage пошли по пути наименьшего сопротивления, который оказался наиболее эффективным. Вместо того чтобы сохранять видимые цвета, система кэширует внутренние признаки, которые диффузионная модель уже использует для построения изображения. Каждому такому признаку присваивается координата в 3D-пространстве, превращая его в запись в пространственной памяти.
Процесс работы модели выстроен циклично: Mirage начинает с первого кадра, заполняя кэш, а затем для каждого нового сегмента видео извлекает нужные данные из памяти, генерирует кадры и записывает обновленную информацию обратно. При этом система оснащена фильтром, который отсекает движущиеся объекты и небо, сохраняя в долгосрочной памяти только стабильную геометрию сцены, что предотвращает накопление визуального мусора.
Перенос памяти в латентное пространство — это элегантный инженерный хак, который убирает лишнюю прослойку в виде тяжелого RGB-рендеринга. Однако отсеивание динамических объектов превращает Mirage в инструмент для «пустых декораций», где любая активность за пределами движения камеры становится для модели проблемой. Это отличный шаг для архитектурной визуализации, но до полноценной симуляции живого мира, где объекты взаимодействуют друг с другом, еще далеко — пока мы просто научились не двигать мебель в пустой комнате.
Эффективность и перспективы технологии
На тестах бенчмарка WorldScore модель Mirage показала результаты, значительно превосходящие Spatia и общие генераторы видео, такие как Wan2.1. Особенно это заметно в сценариях с «замкнутой петлей», когда камера совершает полный круг и возвращается в исходную точку — именно здесь ошибки позиционирования в обычных моделях становятся критическими.
В качестве фундамента исследователи использовали открытую модель Wan2.2 от Alibaba, дополнив её специализированным модулем и проведя дообучение с помощью LoRA-адаптеров. Это подтверждает тренд на модульность в разработке ИИ: вместо создания гигантов с нуля, инженеры предпочитают «навешивать» специфические навыки на уже существующие архитектуры.
Несмотря на впечатляющую оптимизацию ресурсов, разработчики признают ограничения: текущая версия Mirage сознательно игнорирует динамический контент на границах сегментов. Это означает, что в оживленных сценах преимущество пространственной памяти нивелируется. Решение проблемы хранения динамики станет следующим этапом в развитии моделей мира, которые постепенно превращаются из простых генераторов роликов в полноценные интерактивные симуляторы.
Оставить комментарий