Оглавление

Исследователи Microsoft Research разработали RenderFormer — первую нейросетевую архитектуру, способную полностью заменить традиционный конвейер 3D-рендеринга. Модель показывает, что нейросети могут обрабатывать произвольные 3D-сцены с глобальным освещением без использования лучевой трассировки или растеризации. Работа принята на SIGGRAPH 2025 и доступна в открытом исходном коде.

Архитектура, основанная на токенах

RenderFormer представляет всю 3D-сцену с помощью треугольных токенов, каждый из которых кодирует пространственное положение, нормаль поверхности и физические свойства материала: диффузный цвет, зеркальный цвет и шероховатость. Освещение также моделируется как треугольные токены со значениями эмиссии.

Диаграмма архитектуры RenderFormer: треугольная сетка, карта лучей камеры, трансформеры и декодер

Для описания направления обзора модель использует токены лучевых пучков, производные от карты лучей — каждый пиксель выходного изображения соответствует одному из этих лучей. Для повышения вычислительной эффективности пиксели группируются в прямоугольные блоки, что позволяет обрабатывать все лучи в блоке одновременно.

Двухкомпонентная архитектура трансформера

Архитектура RenderFormer построена вокруг двух трансформеров: для независимых от вида и зависимых от вида эффектов.

  • Независимый от вида трансформер захватывает информацию сцены, не связанную с точкой обзора, такую как тени и диффузный транспорт света, используя самовнимание между треугольными токенами
  • Зависимый от вида трансформер моделирует эффекты видимости, отражений и бликов через перекрестное внимание между треугольными и лучевыми токенами

Дополнительные эффекты в пространстве изображения, такие как сглаживание и экранные отражения, обрабатываются с помощью самовнимания среди токенов лучевых пучков.

Таблица сравнительного анализа производительности разных вариантов нейросетевой архитектуры

Это первый случай, когда нейросеть учится полному конвейеру рендеринга, а не просто дорисовывает детали или улучшает существующее изображение. Технически впечатляет, но практическое применение пока под вопросом — 205 миллионов параметров и требования к вычислениям делают технологию доступной только для крупных студий с серьезным железом.

Методология обучения и данные

RenderFormer обучался на наборе данных Objaverse, содержащем более 800 000 аннотированных 3D-объектов. Исследователи создали четыре шаблона сцен, заполняя каждый 1-3 случайно выбранными объектами и материалами. Сцены рендерились в высоком динамическом диапазоне с использованием рендерера Blender Cycles при различных условиях освещения и углах камеры.

Базовая модель из 205 миллионов параметров обучалась в две фазы с использованием оптимизатора AdamW:

  1. 500 000 шагов при разрешении 256×256 с до 1536 треугольников
  2. 100 000 шагов при разрешении 512×512 с до 4096 треугольников
Результаты визуализации внимания с разными настройками шероховатости чайника

Модель поддерживает произвольный треугольный ввод и хорошо обобщается на сложные реальные сцены. Как показано на иллюстрациях, она точно воспроизводит тени, диффузное затенение и зеркальные блики.

По сообщению Microsoft Research, работа открывает новые возможности для нейросетевого рендеринга и может найти применение в игровой индустрии, архитектурной визуализации и кинопроизводстве.