Оглавление

Исследователи из MIT CSAIL и Toyota Research Institute разработали инструмент, который использует генеративный искусственный интеллект для создания реалистичных виртуальных сред обучения роботов. Новая система под названием «steerable scene generation» генерирует цифровые сцены кухонь, гостиных и ресторанов, где симулированные роботы могут взаимодействовать с моделями реальных объектов.

Проблема обучения роботов

В отличие от языковых моделей вроде ChatGPT, которые обучаются на триллионах текстовых данных из интернета, роботам для обучения нужны демонстрации — по сути, коллекции «обучающих видео», которые показывают системы каждое движение задачи. Сбор таких демонстраций на реальных роботах требует много времени и не обеспечивает идеальной повторяемости.

Инженеры пытались решить эту проблему, генерируя симуляции с помощью ИИ (которые часто не отражают реальную физику) или вручную создавая каждую цифровую среду с нуля. Оба подхода имеют серьезные ограничения.

Инновационное решение

Система обучалась на более чем 44 миллионах 3D-комнат, заполненных моделями объектов вроде столов и тарелок. Инструмент размещает существующие активы в новых сценах, а затем дорабатывает каждую из них в физически точную, реалистичную среду.

«Управляемая генерация сцен» создает эти 3D-миры, «направляя» диффузионную модель — систему ИИ, которая генерирует визуал из случайного шума — к сцене из повседневной жизни. Исследователи использовали эту генеративную систему для «вписывания» среды, заполняя определенные элементы по всей сцене.

Технические детали

Основная стратегия системы — «поиск по дереву Монте-Карло» (MCTS), где модель создает серию альтернативных сцен, заполняя их разными способами для достижения конкретной цели. Этот же метод использовался программой ИИ AlphaGo для победы над человеческими оппонентами в игре Го.

Применение MCTS к генерации сцен — технически элегантное решение. Это как если бы архитектор мог мгновенно протестировать тысячи вариантов расстановки мебели, прежде чем выбрать оптимальный. Хотя метод требует значительных вычислительных ресурсов, он позволяет создавать сцены сложнее, чем те, на которых обучалась исходная модель — в одном эксперименте система разместила 34 объекта на столе после обучения на сценах со средним количеством 17 объектов.

Система также позволяет генерировать разнообразные тренировочные сценарии через обучение с подкреплением — по сути, обучая диффузионную модель выполнять задачу методом проб и ошибок.

Точность и возможности

Пользователи могут напрямую управлять системой, вводя конкретные визуальные описания (например, «кухня с четырьмя яблоками и миской на столе»). Инструмент точно следовал пользовательским запросам в 98% случаев при построении сцен полок кладовой и в 86% для беспорядочных обеденных столов. Оба показателя как минимум на 10% лучше, чем у сравнимых методов вроде «MiDiffusion» и «DiffuScene».

Система также может завершать конкретные сцены через подсказки или легкие указания (например, «придумай другую расстановку сцены, используя те же объекты»). По сути, она «заполняет пробелы», размещая предметы в пустых пространствах, но сохраняя остальную часть сцены.

Перспективы применения

Такие обширные сцены становятся испытательными полигонами, где можно записывать взаимодействие виртуального робота с разными предметами. Например, машина может аккуратно размещать вилки и ножи в держателе для столовых приборов — задача, которая требует точного понимания физики и пространственных отношений.

Ключевое преимущество проекта — способность создавать множество сцен, которые робототехники могут реально использовать. Как отмечает ведущий автор исследования Николас Пфафф: «Наши методы позволяют выйти за пределы широкого распределения и выбирать из „лучшего“. Другими словами, генерировать разнообразные, реалистичные и соответствующие задачам сцены, в которых мы действительно хотим тренировать наших роботов».

По материалам MIT News