Оглавление
Современные ИИ-агенты на базе больших языковых моделей способны отлаживать код, анализировать таблицы и бронировать сложные путешествия. Но, как ни парадоксально, они терпят неудачу в простейших задачах мониторинга — отслеживании писем от коллег или ожидании снижения цен. Проблема не в функциональности, а в отсутствии терпения: агенты либо сдаются после нескольких попыток, либо исчерпывают контекстное окно, проверяя условия с навязчивой частотой.
Решение для долгосрочного мониторинга
Команда Microsoft Research представила механизм SentinelStep, который позволяет агентам выполнять задачи мониторинга продолжительностью от нескольких часов до дней. Технология реализована в рамках исследовательской системы Magentic-UI и доступна как open-source решение на GitHub.
Поразительно, что самые продвинутые ИИ-системы спотыкаются на элементарном — они не умеют ждать. Это как нанять гениального аналитика, который не может дождаться ответа на email. SentinelStep — это своего рода «тайм-менеджер» для ИИ, который учит агентов экономить ресурсы и действовать стратегически, а не импульсивно.
Как работает SentinelStep
Ключевая проблема — определение оптимальной частоты проверок. Слишком частые опросы тратят токены, слишком редкие — задерживают уведомления. SentinelStep анализирует тип задачи и динамически корректирует интервалы проверок: мониторинг электронной почты требует иного подхода, чем отслеживание квартальных отчетов.
Вторая проблема — переполнение контекста при длительных задачах. Решение сохраняет состояние агента после первой проверки и использует его для последующих итераций.
Архитектура системы
Система состоит из трех основных компонентов:
- Действия — операции по сбору информации
- Условие — критерий завершения задачи
- Интервал опроса — временные параметры проверок
В интерфейсе совместного планирования Magentic-UI пользователь получает готовый многошаговый план с предзаполненными параметрами для этапов мониторинга.

Рисунок 1. Три основных компонента SentinelStep в интерфейсе совместного планирования Magentic-UI.
Оценка эффективности
Тестирование мониторинговых задач в реальных условиях практически невозможно — многие события уникальны и неповторимы. Для решения этой проблемы Microsoft разрабатывает SentinelBench — набор синтетических веб-сред для оценки мониторинговых задач.
Текущая версия включает 28 конфигурируемых сценариев:
- GitHub Watcher — имитация накопления звезд репозиторием
- Teams Monitor — моделирование входящих сообщений
- Flight Monitor — динамика доступности авиарейсов
Результаты впечатляют: для задач продолжительностью 1 час надежность выполнения возрастает с 5,6% до 33,3%, а для двухчасовых задач — с 5,6% до 38,9%.

Рисунок 2. SentinelStep улучшает показатели успешности при длительных задачах (1–2 часа) при сохранении сопоставимой производительности на коротких задачах.
Перспективы и доступность
SentinelStep представляет собой важный шаг к созданию практичных, проактивных агентов длительного действия. Встраивание терпения в планы позволяет агентам ответственно отслеживать условия и действовать в нужный момент, оставаясь проактивными без растраты ресурсов.
Технология доступна как часть Magentic-UI на GitHub или через установку pip install magnetic-ui. Как и в случае с любой новой технологией, развертывание в production требует тестирования и валидации для конкретных сценариев использования.
По материалам Microsoft Research
Оставить комментарий