CU-1: открытая модель для UI-агентов с MIT лицензией

Представлена CU-1 — открытая модель детекции UI-элементов с лицензией MIT для коммерческого использования, устраняющая ограничения AGPL-лицензированных аналогов.

Оглавление

Проблема лицензирования в коммерческих проектах
Методология обучения: класс-агностический подход
- Сборка и объединение датасетов
Пересмотр методологии бенчмаркинга
Открытая философия и влияние на сообщество

Разработчики представили CU-1 — специализированную модель детекции элементов пользовательского интерфейса на базе архитектуры RF-DETR-M, оптимизированную для работы в реальном времени в автономных агентских системах. Ключевое отличие от существующих решений — использование лицензии MIT вместо ограничительной AGPL-3.0.

Проблема лицензирования в коммерческих проектах

Текущие лидеры рынка UI-детекции, такие как OmniParser V2, используют лицензию GNU Affero General Public License v3 (AGPL-3.0), которая требует раскрытия исходного кода всех производных продуктов. Это делает невозможным коммерческое использование в проприетарных системах, SaaS-платформах и внутренних инструментах предприятий.

CU-1 устраняет этот барьер, предлагая конкурентную производительность под лицензией MIT, которая разрешает коммерческое использование, модификацию и распространение без обязательств по раскрытию исходного кода.

Наконец-то кто-то понял, что лучшая модель бесполезна, если её нельзя использовать в продакшене. Лицензионные войны — это новая фронтенд-битва нашего времени, и MIT против AGPL — это как открытые стандарты против проприетарных замков. Интересно, сколько компаний уже тихо страдали от необходимости либо писать свои велосипеды, либо нарушать лицензионные соглашения.

Методология обучения: класс-агностический подход

В отличие от традиционных моделей детекции объектов, CU-1 использует класс-агностический подход, где все элементы интерфейса рассматриваются как единый класс «объект». Это позволяет модели сосредоточиться на точной локализации вместо распределения вычислительных ресурсов на классификацию десятков подтипов элементов.

Сборка и объединение датасетов

Для обучения использовались шесть различных наборов данных из Roboflow Universe, объединенных в единый корпус:

Веб-приложения с современными отзывчивыми дизайнами
Интерфейсы десктопного программного обеспечения
Мобильные адаптивные макеты
Календари и системы планирования
Элементы навигации сайтов
Интерактивные формы и компоненты

Общий объем данных составил приблизительно 2,656 изображений для обучения с более чем 150,000 размеченных bounding box в обучающей, валидационной и тестовой выборках.

Пересмотр методологии бенчмаркинга

Важное уточнение: первоначальная оценка использовала параметры по умолчанию для YOLO и базовые промпты, которые не отражают оптимальные условия работы. После переоценки с оптимизированными параметрами (0.35 для CU-1 и 0.05 для OmniParser V2) результаты стали более репрезентативными для реальных сценариев.

Открытая философия и влияние на сообщество

Выбор лицензии MIT позволяет глобальному исследовательскому сообществу свободно проверять, улучшать и развивать работу без ограничений. Полная открытость CU-1 — включая веса модели, код обучения и датасеты — ускоряет коллективный прогресс за счет устранения барьеров как для исследований, так и для коммерческого внедрения.

По материалам Hugging Face

Новости

CU-1: открытая альтернатива для автономных UI-агентов с коммерческой лицензией

Проблема лицензирования в коммерческих проектах

Методология обучения: класс-агностический подход

Сборка и объединение датасетов

Пересмотр методологии бенчмаркинга

Открытая философия и влияние на сообщество

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий