Oppo представила X-OmniClaw: ИИ-агент для Android

Oppo выпустила открытый ИИ-агент X-OmniClaw, который работает непосредственно на Android-смартфонах, используя камеру и экран для выполнения задач в приложениях.

Оглавление

Архитектура локального восприятия и памяти
Клонирование действий и практическое применение

Команда Multi-X из исследовательского центра Oppo выпустила в открытый доступ проект X-OmniClaw. Это автономный агент для операционной системы Android, который способен управлять приложениями, используя камеру, экран и голосовой ввод непосредственно на физическом устройстве. Как сообщает The Decoder, ключевым отличием разработки является отказ от облачной виртуализации в пользу локального исполнения большинства задач.

В отличие от существующих решений, которые запускают Android в облачных инстансах и тем самым ограничивают доступ к аппаратным датчикам, X-OmniClaw функционирует в реальной среде смартфона. Это позволяет системе взаимодействовать с объектами через камеру в реальном времени, обрабатывать личные фотографии во время простоя и выполнять команды, которые ранее требовали сложной цепочки облачных вычислений.

Архитектура локального восприятия и памяти

Разработчики реализовали трехуровневую систему восприятия, объединяющую визуальные, текстовые и звуковые сигналы в единый конвейер. Когда пользователь задает вопрос, глядя на объект через объектив камеры, мультимодальная модель сначала интерпретирует сцену и только затем формирует структурированный запрос для выполнения действий внутри приложений.

Интересным решением выглядит модуль долгосрочной памяти. В моменты, когда смартфон не используется, X-OmniClaw анализирует локальную галерею, превращая изображения в текстовые описания объектов и событий. Эти данные сохраняются в обычном Markdown-файле, который служит базой знаний для агента. Такой подход позволяет избежать постоянной передачи «тяжелых» графических данных в облако, сохраняя приватность пользователя на уровне устройства.

Клонирование действий и практическое применение

Вместо того чтобы каждый раз заново планировать маршрут кликов по интерфейсу, агент обучается «клонировать» поведение пользователя. Система извлекает команды запуска конкретных страниц приложений (deeplinks) и при повторном запросе переходит к ним напрямую. Это значительно ускоряет работу и снижает вероятность ошибок, которые часто возникают при последовательной имитации нажатий на экран.

Сравнение цен: агент может распознать товар через камеру, самостоятельно открыть маркетплейс, прокрутить результаты и озвучить стоимость.
Решение задач: в режиме ScreenAvatar система способна последовательно выполнять упражнения в образовательных приложениях, выбирая верные ответы.
Работа с медиа: по голосовой команде ИИ находит нужные фото в галерее и автоматически отправляет их в видеоредактор для создания ролика.

Пока Oppo не представит полностью интегрированную on-device модель, способную заменить «облачное топливо», мы будем видеть лишь впечатляющие демо, которые спотыкаются о задержки сети и непредсказуемость сторонних интерфейсов. Это шаг вперед, но шаг с тяжелым рюкзаком зависимостей.

Технологически X-OmniClaw базируется на кодовой базе HermesApp и дополняет такие проекты, как UI-TARS от ByteDance. Использование структурных данных XML вместе с распознаванием образов позволяет агенту уверенно ориентироваться даже в перегруженных рекламой интерфейсах, где чисто визуальные модели часто допускают промахи. Исходный код и сопутствующие материалы проекта уже опубликованы на платформе GitHub.

Новости

Oppo представила X-OmniClaw: ИИ-агент для Android, работающий с локальными сенсорами

Архитектура локального восприятия и памяти

Клонирование действий и практическое применение

Еще интереснее

Проект Mesh LLM позволяет интегрировать локальные GPU в единую вычислительную сеть

Глава Apple Silicon объяснил, почему Mac mini стал фаворитом для работы с ИИ-агентами

NVIDIA предлагает новую бизнес-модель — строить ИИ-фабрики для облачных вычислений

OpenAI и Broadcom представили чип Jalapeño для работы с нейросетями

Оставить комментарий