Оглавление

Исследователи из Массачусетского технологического института создали революционную систему, позволяющую роботам создавать точные 3D-карты сложных сред за считанные секунды. Новая методика объединяет современные модели машинного обучения с классическими подходами компьютерного зрения.

Траектория полета дрона и частично созданная 3D-модель офисного пространства
Источник: news.mit.edu

Проблема масштабирования в робототехнике

Современные системы одновременной локализации и картографирования (SLAM) сталкиваются с фундаментальным ограничением — даже лучшие модели могут обрабатывать лишь около 60 изображений за раз. В реальных сценариях, таких как поисково-спасательные операции в разрушенных шахтах, роботу требуется обрабатывать тысячи изображений при быстром перемещении по изменчивой среде.

«Для выполнения сложных задач роботам нужны более сложные картографические представления окружающего мира. Но при этом мы не хотим усложнять практическую реализацию этих карт», — отмечает Доминик Маджио, ведущий автор исследования.

Инновационный подход: сборка из фрагментов

Вместо создания единой карты всей среде система генерирует меньшие подсети, которые затем «склеиваются» в единую 3D-реконструкцию. Хотя модель по-прежнему обрабатывает лишь несколько изображений одновременно, система может воссоздавать крупные сцены значительно быстрее за счет объединения подсетей.

Ключевым прорывом стало решение проблемы деформации подсетей. Традиционные методы выравнивания через повороты и трансляции оказались неэффективными из-за искажений, вносимых моделями машинного обучения — стены в подсетях могли быть слегка изогнутыми или растянутыми.

Ирония в том, что «простое» решение оказалось сложным в реализации. Исследователям пришлось копаться в научных работах по компьютерному зрению 1980-х годов, чтобы понять, почему первоначальные попытки не сработали. Это прекрасный пример того, как классические методы могут дополнять современные подходы ИИ, создавая действительно практичные решения.

Гибкая математическая модель

Используя идеи из классического компьютерного зрения, команда разработала гибкий математический метод, способный представлять все деформации в подсетях. Применяя математические преобразования к каждой подсети, этот подход позволяет выравнивать их с учетом неоднозначностей.

Система обладает несколькими ключевыми преимуществами:

  • Не требует калибровки камер
  • Не нуждается в экспертной настройке сложной реализации
  • Работает «из коробки»
  • Обрабатывает произвольное количество изображений

Практическое применение

Разработка открывает новые возможности для:

  • Поисково-спасательных роботов в катастрофических сценариях
  • Расширенной реальности для носимых устройств VR
  • Промышленных роботов на складах
  • Автономных систем навигации

Исследование будет представлено на Конференции по нейронным системам обработки информации (NeurIPS). Работа демонстрирует, как сочетание современных методов ИИ с проверенными временем подходами может решать реальные проблемы робототехники.

По материалам MIT News