Оглавление

Команда Multi-X из исследовательского центра Oppo выпустила в открытый доступ проект X-OmniClaw. Это автономный агент для операционной системы Android, который способен управлять приложениями, используя камеру, экран и голосовой ввод непосредственно на физическом устройстве. Как сообщает The Decoder, ключевым отличием разработки является отказ от облачной виртуализации в пользу локального исполнения большинства задач.

В отличие от существующих решений, которые запускают Android в облачных инстансах и тем самым ограничивают доступ к аппаратным датчикам, X-OmniClaw функционирует в реальной среде смартфона. Это позволяет системе взаимодействовать с объектами через камеру в реальном времени, обрабатывать личные фотографии во время простоя и выполнять команды, которые ранее требовали сложной цепочки облачных вычислений.

Архитектура локального восприятия и памяти

Разработчики реализовали трехуровневую систему восприятия, объединяющую визуальные, текстовые и звуковые сигналы в единый конвейер. Когда пользователь задает вопрос, глядя на объект через объектив камеры, мультимодальная модель сначала интерпретирует сцену и только затем формирует структурированный запрос для выполнения действий внутри приложений.

Интересным решением выглядит модуль долгосрочной памяти. В моменты, когда смартфон не используется, X-OmniClaw анализирует локальную галерею, превращая изображения в текстовые описания объектов и событий. Эти данные сохраняются в обычном Markdown-файле, который служит базой знаний для агента. Такой подход позволяет избежать постоянной передачи «тяжелых» графических данных в облако, сохраняя приватность пользователя на уровне устройства.

Клонирование действий и практическое применение

Вместо того чтобы каждый раз заново планировать маршрут кликов по интерфейсу, агент обучается «клонировать» поведение пользователя. Система извлекает команды запуска конкретных страниц приложений (deeplinks) и при повторном запросе переходит к ним напрямую. Это значительно ускоряет работу и снижает вероятность ошибок, которые часто возникают при последовательной имитации нажатий на экран.

  • Сравнение цен: агент может распознать товар через камеру, самостоятельно открыть маркетплейс, прокрутить результаты и озвучить стоимость.
  • Решение задач: в режиме ScreenAvatar система способна последовательно выполнять упражнения в образовательных приложениях, выбирая верные ответы.
  • Работа с медиа: по голосовой команде ИИ находит нужные фото в галерее и автоматически отправляет их в видеоредактор для создания ролика.

 Пока Oppo не представит полностью интегрированную on-device модель, способную заменить «облачное топливо», мы будем видеть лишь впечатляющие демо, которые спотыкаются о задержки сети и непредсказуемость сторонних интерфейсов. Это шаг вперед, но шаг с тяжелым рюкзаком зависимостей.

Технологически X-OmniClaw базируется на кодовой базе HermesApp и дополняет такие проекты, как UI-TARS от ByteDance. Использование структурных данных XML вместе с распознаванием образов позволяет агенту уверенно ориентироваться даже в перегруженных рекламой интерфейсах, где чисто визуальные модели часто допускают промахи. Исходный код и сопутствующие материалы проекта уже опубликованы на платформе GitHub.