Microsoft учит ИИ-агентов терпению с SentinelStep

Microsoft представила SentinelStep — технологию, которая учит ИИ-агентов терпению и стратегическому ожиданию при выполнении длительных задач мониторинга.

Оглавление

Решение для долгосрочного мониторинга
Как работает SentinelStep
- Архитектура системы
Оценка эффективности
Перспективы и доступность

Современные ИИ-агенты на базе больших языковых моделей способны отлаживать код, анализировать таблицы и бронировать сложные путешествия. Но, как ни парадоксально, они терпят неудачу в простейших задачах мониторинга — отслеживании писем от коллег или ожидании снижения цен. Проблема не в функциональности, а в отсутствии терпения: агенты либо сдаются после нескольких попыток, либо исчерпывают контекстное окно, проверяя условия с навязчивой частотой.

Решение для долгосрочного мониторинга

Команда Microsoft Research представила механизм SentinelStep, который позволяет агентам выполнять задачи мониторинга продолжительностью от нескольких часов до дней. Технология реализована в рамках исследовательской системы Magentic-UI и доступна как open-source решение на GitHub.

Поразительно, что самые продвинутые ИИ-системы спотыкаются на элементарном — они не умеют ждать. Это как нанять гениального аналитика, который не может дождаться ответа на email. SentinelStep — это своего рода «тайм-менеджер» для ИИ, который учит агентов экономить ресурсы и действовать стратегически, а не импульсивно.

Как работает SentinelStep

Ключевая проблема — определение оптимальной частоты проверок. Слишком частые опросы тратят токены, слишком редкие — задерживают уведомления. SentinelStep анализирует тип задачи и динамически корректирует интервалы проверок: мониторинг электронной почты требует иного подхода, чем отслеживание квартальных отчетов.

Вторая проблема — переполнение контекста при длительных задачах. Решение сохраняет состояние агента после первой проверки и использует его для последующих итераций.

Архитектура системы

Система состоит из трех основных компонентов:

Действия — операции по сбору информации
Условие — критерий завершения задачи
Интервал опроса — временные параметры проверок

В интерфейсе совместного планирования Magentic-UI пользователь получает готовый многошаговый план с предзаполненными параметрами для этапов мониторинга.

Рисунок 1. Три основных компонента SentinelStep в интерфейсе совместного планирования Magentic-UI.

Оценка эффективности

Тестирование мониторинговых задач в реальных условиях практически невозможно — многие события уникальны и неповторимы. Для решения этой проблемы Microsoft разрабатывает SentinelBench — набор синтетических веб-сред для оценки мониторинговых задач.

Текущая версия включает 28 конфигурируемых сценариев:

GitHub Watcher — имитация накопления звезд репозиторием
Teams Monitor — моделирование входящих сообщений
Flight Monitor — динамика доступности авиарейсов

Результаты впечатляют: для задач продолжительностью 1 час надежность выполнения возрастает с 5,6% до 33,3%, а для двухчасовых задач — с 5,6% до 38,9%.

График сравнения производительности SentinelStep, показывающий рост успешности выполнения длительных задач — Источник: www.microsoft.com

Рисунок 2. SentinelStep улучшает показатели успешности при длительных задачах (1–2 часа) при сохранении сопоставимой производительности на коротких задачах.

Перспективы и доступность

SentinelStep представляет собой важный шаг к созданию практичных, проактивных агентов длительного действия. Встраивание терпения в планы позволяет агентам ответственно отслеживать условия и действовать в нужный момент, оставаясь проактивными без растраты ресурсов.

Технология доступна как часть Magentic-UI на GitHub или через установку pip install magnetic-ui. Как и в случае с любой новой технологией, развертывание в production требует тестирования и валидации для конкретных сценариев использования.

По материалам Microsoft Research

Новости

Microsoft учит ИИ-агентов терпению с помощью технологии SentinelStep

Решение для долгосрочного мониторинга

Как работает SentinelStep

Архитектура системы

Оценка эффективности

Перспективы и доступность

Еще интереснее

Почему ИИ должен уметь вежливо прерывать беседу

OpenAI выпускает ChatGPT Atlas — браузер со встроенным ИИ-помощником

Открытая модель gpt-oss-120b получила золотую медаль IOI 2025 за масштабирование вычислений

Новая архитектура Ling 2.0 Sparse ускоряет обработку длинных контекстов в три раза

Оставить комментарий