Оглавление

В мире ИИ-агентов, которые кликают, скроллят, выполняют и автоматизируют процессы, мы стремительно движемся от «просто понимания текста» к «реальному использованию программного обеспечения». Новый бенчмарк SCUBA решает именно эту задачу: насколько хорошо агенты справляются с реальными рабочими процессами предприятия внутри платформы Salesforce?

Что отличает SCUBA от других тестов

  • Он построен на реальных рабочих процессах внутри платформы Salesforce
  • Охватывает 300 заданий, созданных на основе интервью с реальными пользователями (администраторами платформ, торговыми представителями и агентами службы поддержки)
  • Задания проверяют не просто «отвечает ли модель на вопрос», а «может ли модель использовать интерфейс, управлять данными, запускать рабочие процессы, устранять проблемы»
  • Восполняет пробел: текущие бенчмарки часто фокусируются на веб-навигации и манипуляции программным обеспечением — но «компьютерное использование» корпоративного программного обеспечения трудно измерить

Бизнес-влияние

Представьте ИИ-помощника, который может ориентироваться в вашей CRM, обновлять записи, запускать рабочие процессы, интерпретировать сбои на панелях управления и помогать вашей команде обслуживания выходить из тупиковых ситуаций. Именно на это нацелено данное исследование.

Вот почему это важно:

  • Корпоративная направленность: многие бенчмарки носят академический или потребительский характер. SCUBA сосредоточен на критически важных бизнес-средах (администрирование, продажи и обслуживание)
  • Реалистичные задачи: создавая задания на основе интервью с пользователями и реальных персонажей, он преодолевает разрыв между «игрушечным бенчмарком» и «реальной ситуацией пользователя»
  • Измеримая производительность агентов в контексте: позволяет оценить, насколько хорошо агент работает внутри программных систем, а не только через текст
  • Дорожная карта для будущих ИИ-помощников: по мере того как все больше организаций внедряют ИИ для автоматизации использования программного обеспечения (а не только анализа), такие бенчмарки задают ожидания, подчеркивают проблемы и направляют прогресс
ИИ-агент работает в интерфейсе CRM для автоматизации бизнес-процессов
Источник: www.salesforce.com

SCUBA — это тот редкий случай, когда корпоративный гигант создает действительно полезный инструмент для сообщества ИИ. Вместо очередного абстрактного теста на понимание текста мы получаем практический стандарт для оценки того, насколько хорошо ИИ-агенты справляются с реальными бизнес-задачами. Особенно ценно, что бенчмарк основан на реальных рабочих процессах, а не на искусственных сценариях. Это может стать катализатором для развития действительно полезных корпоративных ИИ-помощников, а не просто умных чат-ботов.

Ключевые выводы исследования

Падение производительности при переходе от более общего бенчмарка OSWorld (который охватывает настольные приложения) к SCUBA (CRM, корпоративные рабочие процессы) является значительным. Эксперимент показывает диаграмму снижения успешности при смене бенчмарка.

Падение производительности при переходе от OSWorld (50 шагов) к SCUBA.

Статьи и учебные пособия по использованию платформ Salesforce легко доступны. Естественный вопрос: могут ли ИИ-агенты эффективно использовать эту информацию, как это делают люди? Результаты эксперимента показывают, что:

  • Человеческие демонстрации (показ агенту, как выполнить аналогичную задачу) улучшили производительность большинства агентов: более высокие показатели успешности, меньшее время, меньшее использование токенов
  • Однако некоторые агенты не получили такой же пользы
  • Некоторые даже использовали больше шагов в режиме с демонстрациями (например, из-за обнаружения «ярлыков», которые человеческая демонстрация не показывала). Таким образом, дизайн демонстраций все еще имеет значение

Демонстрации помогают повысить показатели успешности выполнения задач.

  • Показатель успешности — не единственная метрика; также сообщается о задержке (время выполнения задач) и стоимости (расходы на API/токены, количество шагов). Например, агенты, использующие браузер, имели высокие показатели успешности, но более высокую задержку (из-за времени ответа сервиса API и конструкции многокомпонентной структуры)
  • Дополнение демонстрациями не только улучшает успешность, но может сократить время и затраты (в документе сообщается о примерно на 13% меньшем времени и на 16% меньшей стоимости в условиях с демонстрациями)
  • Для корпоративного внедрения это имеет значение: агент, который успешен, но слишком медленный или дорогой, может быть менее полезным на практике

Последствия для будущего автоматизации CRM

  • Данные для обучения сместятся в сторону контекста UI/действий: вместо только текстовых наборов данных мы увидим больше бенчмарков и наборов данных для задач «последовательности действий, выполняемых агентом в программном обеспечении» (клик → заполнение → отправка)
  • UX корпоративного программного обеспечения будет иметь значение для ИИ: по мере того как агенты ориентируются в интерфейсах, сами программные продукты могут эволюционировать, чтобы быть более «дружественными к агентам» (например, более структурированные действия, лучшие логи, наблюдаемое состояние агента)
  • Новые виды проблем устойчивости: агентам придется справляться с изменениями UI, версиями, состояниями ошибок, разрешениями — вещами, которые менее распространены в типичных NLP-бенчмарках
  • Гибридные модели и конвейеры демонстраций станут обычным явлением: как показывают эксперименты, демонстрации помогают. Предприятия могут создавать библиотеки «как сделать» эпизодов агентов для каждого рабочего процесса
  • Отслеживайте больше, чем успех: отслеживайте задержку, количество шагов, стоимость (токен/API), восстановление после ошибок — это важно на практике

По материалам Salesforce