Инженеры по надежности сайтов (SRE) сталкиваются с растущей сложностью современных распределенных систем. Во время производственных инцидентов им необходимо быстро коррелировать данные из множества источников — логи, метрики, события Kubernetes и операционные руководства — для выявления коренных причин и реализации решений. Традиционные инструменты мониторинга предоставляют сырые данные, но не обладают интеллектом для синтеза информации в этих разнообразных системах, часто оставляя SRE самостоятельно собирать воедино картину системных сбоев.
Архитектура решения
Решение использует комплексную мультиагентную архитектуру, которая решает задачи современных SRE-операций через интеллектуальную автоматизацию. Система состоит из четырех специализированных ИИ-агентов, работающих вместе под управлением супервизор-агента для обеспечения комплексного анализа инфраструктуры и помощи при инцидентах.

Архитектура демонстрирует ключевые возможности:
- Запросы к инфраструктуре на естественном языке — возможность задавать сложные вопросы об инфраструктуре на обычном английском и получать детальный анализ, объединяя данные из множества источников
- Коллаборация нескольких агентов — специализированные агенты для Kubernetes, логов, метрик и операционных процедур работают вместе для предоставления всесторонних сведений
- Синтез данных в реальном времени — агенты получают доступ к актуальным данным инфраструктуры через стандартизированный API
Технологический стек
Решение построено на Amazon Bedrock AgentCore, LangGraph и Model Context Protocol (MCP). Система развертывает специализированных ИИ-агентов, которые сотрудничают для предоставления глубокого, контекстного интеллекта, необходимого современным SRE-командам.
Мультиагентные системы — это следующий логический шаг в эволюции ИИ-ассистентов. Вместо универсального решения, которое пытается быть экспертом во всем, мы получаем специализированных агентов, каждый из которых отлично выполняет свою узкую задачу. Это напоминает работу слаженной команды инженеров, где каждый участник привносит свои уникальные компетенции. Интересно наблюдать, как Amazon Bedrock AgentCore позиционируется как платформа для таких композитных ИИ-систем — это может стать новым стандартом для enterprise-решений.
Специализированные агенты
Мультиагентное решение использует паттерн supervisor-agent, где центральный оркестратор координирует работу пяти специализированных агентов:
- Супервизор-агент — анализирует входящие запросы и создает планы расследования
- Агент инфраструктуры Kubernetes — обрабатывает оркестрацию контейнеров и операции кластера
- Агент application логов — обрабатывает данные журналов для поиска релевантной информации
- Агент performance метрик — отслеживает системные метрики и выявляет проблемы с производительностью
- Агент operational руководств — предоставляет доступ к документированным процедурам и руководствам по устранению неполадок
Решение демонстрирует мощь Amazon Bedrock AgentCore, используя множество основных примитивов. Система поддерживает двух поставщиков для LLM от Anthropic.
По материалам AWS Machine Learning Blog.
Оставить комментарий