Оглавление

Когда AI-агенты переходят от прототипов к промышленной эксплуатации, ключевой вызов — обеспечение качества и масштабирование процессов оценки, чтобы избежать репутационных рисков при непредсказуемом поведении агентов. MLflow решает эту задачу с помощью встроенных LLM-судей, которые оценивают ключевые параметры: корректность, релевантность и безопасность. Однако реальные приложения часто требуют большего, чем стандартные метрики качества — им нужны предметно-ориентированные оценки, адаптированные под конкретный контекст.

Три новых инструмента для оценки агентов

Ранее создание кастомной логики оценки требовало значительного времени и тесного сотрудничества разработчиков с предметными экспертами, создавая узкое место в цикле разработки. В рамках Databricks Week of Agents представлены три новые возможности в Agent Bricks, призванные ускорить и масштабировать этот процесс:

  • Настраиваемые судьи (Tunable Judges) — обеспечивают систематическое согласование с предметными экспертами
  • Агент-как-судья (Agent-as-a-Judge) — автоматически определяет, какие части трейса нужно оценивать, устраняя ручную реализацию сложных метрик
  • Конструктор судей (Judge Builder) — объединяет все функции в интуитивном визуальном рабочем процессе

Наконец-то кто-то понял, что оценка AI-агентов — это не только техническая задача, но и вопрос коммуникации между разработчиками и бизнес-экспертами. Эти инструменты могут серьезно сократить цикл обратной связи, хотя остается вопрос: насколько хорошо LLM действительно понимают предметные области вроде медицины или финансов, где цена ошибки особенно высока.

Создание настраиваемых судей

С новым API make_judge в MLflow 3.4.0 можно легко создавать кастомных LLM-судей, адаптированных под конкретные случаи использования, используя инструкции на естественном языке вместо сложной программной логики. Вы просто определяете критерии оценки, а MLflow обрабатывает детали реализации.

После создания первых судей инструменты настройки и согласования MLflow помогают интегрировать обратную связь от предметных экспертов в цикл. Комментарии или данные оценки от специалистов можно напрямую передавать в кастомных судей, чтобы логика оценки училась понимать, что означает «хорошо» для конкретного случая использования.

«Для достижения будущего маркетинговой оптимизации нам нужна абсолютная уверенность в наших AI-агентах. API make_judge предоставляет программный контроль для постоянного согласования наших предметно-ориентированных судей, обеспечивая высочайший уровень точности и доверия в нашем моделировании атрибуции», — отмечает Tjadi Peeters, CTO Billy Grace.

Агент-как-судья: автоматизация оценки

Agent-as-a-Judge добавляет интеллекта в процесс оценки, автоматически определяя, какие части трейса релевантны, устраняя необходимость в сложной ручной логике обхода трейсов. Просто включите переменную {{ trace }} в инструкции судьи, и Agent-as-a-Judge получит правильные данные для оценки.

Для многих сценариев оценки, таких как проверка вызова конкретного инструмента, валидности аргументов или избыточных вызовов, традиционные фреймворки требуют написания кастомного кода для ручного поиска и фильтрации структуры трейса. Этот код может стать сложным и хрупким по мере развития агента или требований оценки.

Декларативный подход сохраняет читаемость и адаптивность судей. Можно расширить этот паттерн для проверки валидности аргументов, избыточных вызовов инструментов или любой другой кастомной логики.

Визуальный конструктор судей

Чтобы сделать процесс создания и согласования судей еще проще, Judge Builder предоставляет визуальный интерфейс для управления всем жизненным циклом судьи. Предметные эксперты могут предоставлять обратную связь напрямую через интуитивный интерфейс проверки, в то время как разработчики используют эту обратную связь для автоматического согласования судей с предметными стандартами.

Это устраняет разрыв между технической реализацией и предметной экспертизой, упрощая сбор обратной связи, согласование судей и управление жизненным циклом — все построено поверх существующих функций MLflow и интегрировано с текущими экспериментами MLflow.

Вместе эти возможности формируют комплексный механизм оценки, который питает Agent Bricks. Независимо от того, находитесь ли вы на ранних стадиях прототипирования или управляете промышленными агентами, обслуживающими миллионы пользователей, MLflow и Agent Bricks предоставляют инструменты, необходимые для создания качественных агентов и уверенного развертывания в продакшн.

Сообщает Databricks.