Cloudflare учит ИИ объяснять блокировку фишинговых писем

Cloudflare запускает ИИ-агента для объяснения причин блокировки email-угроз, решая проблему чёрного ящика в системах безопасности.

Оглавление

Проблема чёрного ящика в email-безопасности
Как Cloudy учится объяснять безопасность
Текущие результаты и бета-тестирование

Как сообщает Cloudflare Blog, компания запускает бета-тестирование новой функции для своего ИИ-агента Cloudy — автоматические объяснения причин блокировки подозрительных email-сообщений. Это попытка закрыть важный пробел в коммуникации между сложными системами машинного обучения и людьми, которые должны принимать окончательные решения по безопасности.

Проблема чёрного ящика в email-безопасности

Cloudflare ежедневно обрабатывает миллиарды сигналов угроз через email, используя множественные модели машинного обучения для обнаружения фишинга, компрометации бизнес-почты (BEC) и других атак. Однако быстрая разработка правил детекции создаёт проблему: аналитики центров безопасности видят только названия правил вроде BEC.SentimentCM_BEC.SpoofedSender без понимания, что именно вызвало блокировку.

Внутренне это правило означает сложную комбинацию факторов:

Отсутствие уникальных ссылок или вложений (типичный паттерн BEC)
Высокий показатель вероятности BEC от моделей анализа тональности Churchmouse
Аномалии в заголовке envelope_from указывающие на спуфинг

Без этого контекста SOC-аналитики тратят время на обратную разработку логики детекции, рискуя ошибочно выпустить опасные сообщения из карантина.

Как Cloudy учится объяснять безопасность

Первые попытки использовать LLM для объяснений столкнулись с классической проблемой — галлюцинациями модели. В контексте безопасности это особенно опасно: если ИИ ошибочно опишет вредоносное письмо как чистое, это может привести к реальному инциденту.

Например, без дополнительного контекста Cloudy пытался объяснить термин «Churchmouse» через историческую идиому о «бедных как церковные мыши», что совершенно не соответствовало реальности моделей анализа тональности почты.

Для решения этой проблемы инженеры Cloudflare реализовали два ключевых подхода:

RAG-система — ограничили доступ LLM только корпусом данных детекции, используя Retrieval-Augmented Generation для минимизации галлюцинаций
Контекстуализация моделей — добавили исчерпывающие описания внутренних алгоритмов, чтобы LLM понимала специфику контекста безопасности

Ирония в том, что для обучения ИИ объяснять сложные системы машинного обучения людям, сначала людям пришлось объяснять эти системы другому ИИ. Получается такой рекурсивный передача знаний, где каждый слой абстракции требует тщательной валидации — особенно когда на кону безопасность корпоративной почты.

Текущие результаты и бета-тестирование

После доработок Cloudy теперь генерирует стабильные и точные объяснения. Например, для правила SPAM.ASNReputation.IPReputation_Scuttle.Anomalous_HC выдаётся понятное объяснение: «Это правило помечает email-сообщения как спам если они приходят от отправителя с плохой интернет-репутацией, идентифицированы блоклистами как подозрительные и имеют аномальную настройку почтового сервера, что указывает на потенциальную вредоносную активность».

Cloudflare открывает бета-тестирование функции для ограниченной группы пользователей, чтобы дополнительно проверить защитные механизмы перед массовым запуском.

Компания также предлагает бесплатный инструмент Retro Scan для сканирования существующих почтовых ящиков своими прогнозными ИИ-моделями — доступный даже для тех, кто не является клиентом Cloudflare.

Новости

Cloudflare учит ИИ-агента объяснять блокировку фишинговых писем

Проблема чёрного ящика в email-безопасности

Как Cloudy учится объяснять безопасность

Текущие результаты и бета-тестирование

Еще интереснее

Накопление скрытых ошибок в корпоративных ИИ-системах может быть опаснее восстания машин

OpenAI блокирует сети аккаунтов, использовавшихся мошенниками для ИИ-скама

Сгенерированные LLM пароли оказались слабыми, несмотря на внешнюю сложность

Anthropic запустила ИИ-сканер уязвимостей Claude Code Security

Оставить комментарий