Оглавление
Hugging Face сообщает о выпуске революционной методологии обучения, которая превращает компактные визуальные языковые модели в полноценных агентов для автоматизации работы с графическими интерфейсами. Технология Smol2Operator демонстрирует, как даже небольшие модели могут освоить сложные навыки взаимодействия с GUI.
Новый подход к автоматизации интерфейсов
Автоматизация графических пользовательских интерфейсов долгое время оставалась одной из самых сложных задач компьютерного зрения. Разработка моделей, способных видеть и взаимодействовать с интерфейсами, открывает возможности для создания ИИ-агентов, способных навигировать в мобильных, десктопных и веб-платформах.
То, что раньше требовало гигантских моделей и сложных архитектур, теперь можно сделать с помощью скромного 2.2-миллиардного параметрового решения. Это напоминает историю с мобильными процессорами: сначала нужны были серверные стойки, теперь достаточно карманного устройства. Демократизация ИИ продолжается, и это прекрасно.
Двухфазное обучение: от восприятия к действию
Исследователи использовали SmolVLM2-2.2B-Instruct в качестве базовой модели — компактную, но мощную vision-language модель, изначально не обладающую навыками работы с GUI. Через двухфазный процесс обучения они сначала развили в модели способности к восприятию интерфейсов, а затем усилили её агентскими возможностями рассуждения.
Унификация пространства действий
Одной из ключевых проблем при работе с несколькими наборами данных автоматизации GUI является отсутствие стандартизации в представлении действий. Разные наборы данных используют различные сигнатуры функций, соглашения о именовании параметров и таксономии действий.
Команда разработала инструмент Action Space Converter, который позволяет исследователям адаптировать любой набор данных автоматизации GUI к единому формату. Этот инструмент предоставляет:
- Настраиваемые правила сопоставления для различных пространств действий
- Нормализацию и проверку параметров
- Поддержку нескольких форматов ввода/вывода
- Расширяемую архитектуру для новых типов наборов данных
Технические детали реализации
Converter настраивается через YAML-файлы, которые определяют правила сопоставления между исходными и целевыми пространствами действий:
mappings: click: source: ["tap", "press", "select"] target: "click" parameters: x: "coord_x" y: "coord_y" type: source: ["input", "text", "write"] target: "type" parameters: text: "content"
Результаты и производительность
После первой фазы обучения модель достигла 85.7% точности на бенчмарке ScreenSpot-v2 против исходных 0%. Модель показала значительное улучшение в точности локализации элементов и стабильную работу в различных типах GUI и разрешениях.
Анализ показал, что более высокие разрешения (≥512px) значительно улучшают точность локализации, особенно для небольших элементов UI. Однако пришлось балансировать это с вычислительными ограничениями для сохранения эффективности обучения.
Практическое значение и перспективы
Выпущенные преобразованные наборы данных smolagents/aguvis-stage-1 и smolagents/aguvis-stage-2 сохраняют исходное качество данных, обеспечивая стандартизированный формат, который позволяет эффективное обучение на нескольких наборах данных.
Весь код, рецепты обучения, инструменты обработки данных и полученная модель доступны в открытом доступе, что обеспечивает полную воспроизводимость и способствует дальнейшим исследованиям.
Оставить комментарий