Оглавление

Разработчики представили CU-1 — специализированную модель детекции элементов пользовательского интерфейса на базе архитектуры RF-DETR-M, оптимизированную для работы в реальном времени в автономных агентских системах. Ключевое отличие от существующих решений — использование лицензии MIT вместо ограничительной AGPL-3.0.

Проблема лицензирования в коммерческих проектах

Текущие лидеры рынка UI-детекции, такие как OmniParser V2, используют лицензию GNU Affero General Public License v3 (AGPL-3.0), которая требует раскрытия исходного кода всех производных продуктов. Это делает невозможным коммерческое использование в проприетарных системах, SaaS-платформах и внутренних инструментах предприятий.

CU-1 устраняет этот барьер, предлагая конкурентную производительность под лицензией MIT, которая разрешает коммерческое использование, модификацию и распространение без обязательств по раскрытию исходного кода.

Наконец-то кто-то понял, что лучшая модель бесполезна, если её нельзя использовать в продакшене. Лицензионные войны — это новая фронтенд-битва нашего времени, и MIT против AGPL — это как открытые стандарты против проприетарных замков. Интересно, сколько компаний уже тихо страдали от необходимости либо писать свои велосипеды, либо нарушать лицензионные соглашения.

Методология обучения: класс-агностический подход

В отличие от традиционных моделей детекции объектов, CU-1 использует класс-агностический подход, где все элементы интерфейса рассматриваются как единый класс «объект». Это позволяет модели сосредоточиться на точной локализации вместо распределения вычислительных ресурсов на классификацию десятков подтипов элементов.

Сборка и объединение датасетов

Для обучения использовались шесть различных наборов данных из Roboflow Universe, объединенных в единый корпус:

  • Веб-приложения с современными отзывчивыми дизайнами
  • Интерфейсы десктопного программного обеспечения
  • Мобильные адаптивные макеты
  • Календари и системы планирования
  • Элементы навигации сайтов
  • Интерактивные формы и компоненты

Общий объем данных составил приблизительно 2,656 изображений для обучения с более чем 150,000 размеченных bounding box в обучающей, валидационной и тестовой выборках.

Пересмотр методологии бенчмаркинга

Важное уточнение: первоначальная оценка использовала параметры по умолчанию для YOLO и базовые промпты, которые не отражают оптимальные условия работы. После переоценки с оптимизированными параметрами (0.35 для CU-1 и 0.05 для OmniParser V2) результаты стали более репрезентативными для реальных сценариев.

Открытая философия и влияние на сообщество

Выбор лицензии MIT позволяет глобальному исследовательскому сообществу свободно проверять, улучшать и развивать работу без ограничений. Полная открытость CU-1 — включая веса модели, код обучения и датасеты — ускоряет коллективный прогресс за счет устранения барьеров как для исследований, так и для коммерческого внедрения.

По материалам Hugging Face