Робототехника долгое время оставалась заложницей ручного труда: инженерам приходилось буквально за руку водить манипуляторы, настраивать алгоритмы вознаграждения и вручную сбрасывать окружение после каждой неудачи. Исследователи из Nvidia, Университета Карнеги — Меллона и Калифорнийского университета в Беркли решили переложить эту рутину на плечи нейросетей. Как сообщает издание The Decoder, новый проект ENPIRE позволяет роботам обучаться сложным навыкам манипуляции практически без участия человека.
Система построена на элегантном цикле обратной связи, где ИИ-агент выступает одновременно в роли программиста, исследователя и контролера ОТК. Вместо того чтобы ждать указаний от инженера, ENPIRE самостоятельно анализирует видеоуроки, пишет код для функций вознаграждения и выбирает наиболее подходящий метод обучения, будь то подражание действиям человека или метод проб и ошибок.
Автономия на уровне кода и логики
Процесс развертывания системы делится на два этапа, где первый требует лишь минимального присмотра. Агент получает видео с примерами успешных и провальных действий, после чего самостоятельно создает инструменты оценки. Например, при обучении вставке штифта в разъем, ИИ скомбинировал данные о высоте захвата, визуальном выравнивании и расчетной силе давления. Эти критерии позволяют системе понимать, достигнута ли цель, не отвлекая разработчика от более важных дел.
На втором этапе автономия становится абсолютной: агент изучает научные статьи, выдвигает гипотезы и напрямую правит тренировочный код. В экспериментах участвовали такие модели, как Codex на базе GPT-5.5, Claude Code с Opus 4.7 и Kimi Code. Примечательно, что Codex показал лучшие результаты, демонстрируя более глубокое понимание нюансов физического взаимодействия в коде.
Переход от жестко заданных алгоритмов к автономным кодинг-агентам в робототехнике — это не просто оптимизация, а смена парадигмы. Однако за 99% успеха в тестах вроде Push-T скрывается колоссальный расход токенов и времени на «раздумья» ИИ. Пока агент читает логи и переписывает функции, дорогостоящее железо простаивает, превращая вычислительную эффективность в узкое место, которое может стать фатальным при масштабировании на реальные производства.
Флот роботов и магия контроля версий
Особый интерес вызывает подход к масштабированию: исследователи задействовали парк из восьми двухманипуляторных станций YAM. Каждый робот оснащен собственным вычислительным узлом и локальным ИИ-агентом. Вместо сложной централизованной системы управления, роботы координируют свои действия через Git — стандартный инструмент контроля версий, знакомый любому программисту. Если один агент находит удачное решение, он фиксирует его, и «рецепт успеха» мгновенно становится доступен остальным участникам флота.
Результаты такой коллективной работы впечатляют, хотя и заставляют задуматься о цене прогресса. Использование восьми агентов позволило сократить время обучения тесту Push-T с пяти часов до двух. В задаче по вставке штифтов флот достиг стопроцентного успеха в два раза быстрее, чем традиционные методы с участием человека. Похоже, коллективный разум ИИ-агентов справляется с поиском оптимальных стратегий эффективнее, чем целая команда инженеров.
- Push-T: перемещение Т-образного блока в целевую зону с точностью до 99%.
- Разрезание стяжек: координация двух камер позволила снизить время реакции до 150 миллисекунд.
- Установка GPU: навыки, полученные при работе со штифтами, успешно перенеслись на задачу сборки серверного оборудования.
Несмотря на успехи, реальный мир остается суровым критиком: условия трения, динамика объектов и непредсказуемость физики все еще ставят в тупик даже продвинутые модели. Исследователи признают, что эффективность использования роботов падает с ростом размера флота, так как агенты тратят все больше времени на чтение чужих логов и суммаризацию результатов. Тем не менее, ENPIRE наглядно демонстрирует, что путь к по-настоящему умным машинам лежит через их способность самостоятельно писать свою историю — и свой код.
Оставить комментарий