Оглавление

Hugging Face сообщает о выпуске революционной методологии обучения, которая превращает компактные визуальные языковые модели в полноценных агентов для автоматизации работы с графическими интерфейсами. Технология Smol2Operator демонстрирует, как даже небольшие модели могут освоить сложные навыки взаимодействия с GUI.

Новый подход к автоматизации интерфейсов

Автоматизация графических пользовательских интерфейсов долгое время оставалась одной из самых сложных задач компьютерного зрения. Разработка моделей, способных видеть и взаимодействовать с интерфейсами, открывает возможности для создания ИИ-агентов, способных навигировать в мобильных, десктопных и веб-платформах.

То, что раньше требовало гигантских моделей и сложных архитектур, теперь можно сделать с помощью скромного 2.2-миллиардного параметрового решения. Это напоминает историю с мобильными процессорами: сначала нужны были серверные стойки, теперь достаточно карманного устройства. Демократизация ИИ продолжается, и это прекрасно.

Двухфазное обучение: от восприятия к действию

Исследователи использовали SmolVLM2-2.2B-Instruct в качестве базовой модели — компактную, но мощную vision-language модель, изначально не обладающую навыками работы с GUI. Через двухфазный процесс обучения они сначала развили в модели способности к восприятию интерфейсов, а затем усилили её агентскими возможностями рассуждения.

Унификация пространства действий

Одной из ключевых проблем при работе с несколькими наборами данных автоматизации GUI является отсутствие стандартизации в представлении действий. Разные наборы данных используют различные сигнатуры функций, соглашения о именовании параметров и таксономии действий.

Команда разработала инструмент Action Space Converter, который позволяет исследователям адаптировать любой набор данных автоматизации GUI к единому формату. Этот инструмент предоставляет:

  • Настраиваемые правила сопоставления для различных пространств действий
  • Нормализацию и проверку параметров
  • Поддержку нескольких форматов ввода/вывода
  • Расширяемую архитектуру для новых типов наборов данных

Технические детали реализации

Converter настраивается через YAML-файлы, которые определяют правила сопоставления между исходными и целевыми пространствами действий:

mappings:
 click:
 source: ["tap", "press", "select"]
 target: "click"
 parameters:
 x: "coord_x"
 y: "coord_y"
 type:
 source: ["input", "text", "write"]
 target: "type"
 parameters:
 text: "content"

Результаты и производительность

После первой фазы обучения модель достигла 85.7% точности на бенчмарке ScreenSpot-v2 против исходных 0%. Модель показала значительное улучшение в точности локализации элементов и стабильную работу в различных типах GUI и разрешениях.

Анализ показал, что более высокие разрешения (≥512px) значительно улучшают точность локализации, особенно для небольших элементов UI. Однако пришлось балансировать это с вычислительными ограничениями для сохранения эффективности обучения.

Практическое значение и перспективы

Выпущенные преобразованные наборы данных smolagents/aguvis-stage-1 и smolagents/aguvis-stage-2 сохраняют исходное качество данных, обеспечивая стандартизированный формат, который позволяет эффективное обучение на нескольких наборах данных.

Весь код, рецепты обучения, инструменты обработки данных и полученная модель доступны в открытом доступе, что обеспечивает полную воспроизводимость и способствует дальнейшим исследованиям.