Оглавление
Как сообщает Cloudflare Blog, компания запускает бета-тестирование новой функции для своего ИИ-агента Cloudy — автоматические объяснения причин блокировки подозрительных email-сообщений. Это попытка закрыть важный пробел в коммуникации между сложными системами машинного обучения и людьми, которые должны принимать окончательные решения по безопасности.
Проблема чёрного ящика в email-безопасности
Cloudflare ежедневно обрабатывает миллиарды сигналов угроз через email, используя множественные модели машинного обучения для обнаружения фишинга, компрометации бизнес-почты (BEC) и других атак. Однако быстрая разработка правил детекции создаёт проблему: аналитики центров безопасности видят только названия правил вроде BEC.SentimentCM_BEC.SpoofedSender без понимания, что именно вызвало блокировку.
Внутренне это правило означает сложную комбинацию факторов:
- Отсутствие уникальных ссылок или вложений (типичный паттерн BEC)
- Высокий показатель вероятности BEC от моделей анализа тональности Churchmouse
- Аномалии в заголовке envelope_from указывающие на спуфинг
Без этого контекста SOC-аналитики тратят время на обратную разработку логики детекции, рискуя ошибочно выпустить опасные сообщения из карантина.
Как Cloudy учится объяснять безопасность
Первые попытки использовать LLM для объяснений столкнулись с классической проблемой — галлюцинациями модели. В контексте безопасности это особенно опасно: если ИИ ошибочно опишет вредоносное письмо как чистое, это может привести к реальному инциденту.
Например, без дополнительного контекста Cloudy пытался объяснить термин «Churchmouse» через историческую идиому о «бедных как церковные мыши», что совершенно не соответствовало реальности моделей анализа тональности почты.
Для решения этой проблемы инженеры Cloudflare реализовали два ключевых подхода:
- RAG-система — ограничили доступ LLM только корпусом данных детекции, используя Retrieval-Augmented Generation для минимизации галлюцинаций
- Контекстуализация моделей — добавили исчерпывающие описания внутренних алгоритмов, чтобы LLM понимала специфику контекста безопасности
Ирония в том, что для обучения ИИ объяснять сложные системы машинного обучения людям, сначала людям пришлось объяснять эти системы другому ИИ. Получается такой рекурсивный передача знаний, где каждый слой абстракции требует тщательной валидации — особенно когда на кону безопасность корпоративной почты.
Текущие результаты и бета-тестирование
После доработок Cloudy теперь генерирует стабильные и точные объяснения. Например, для правила SPAM.ASNReputation.IPReputation_Scuttle.Anomalous_HC выдаётся понятное объяснение: «Это правило помечает email-сообщения как спам если они приходят от отправителя с плохой интернет-репутацией, идентифицированы блоклистами как подозрительные и имеют аномальную настройку почтового сервера, что указывает на потенциальную вредоносную активность».
Cloudflare открывает бета-тестирование функции для ограниченной группы пользователей, чтобы дополнительно проверить защитные механизмы перед массовым запуском.
Компания также предлагает бесплатный инструмент Retro Scan для сканирования существующих почтовых ящиков своими прогнозными ИИ-моделями — доступный даже для тех, кто не является клиентом Cloudflare.
Оставить комментарий