Оглавление

По сообщению Cloudflare, масштабный сбой 18 ноября 2025 года, который затронул значительную часть интернет-трафика, был вызван банальной технической ошибкой в системе управления ботами, а не кибератакой.

Хронология сбоя

18 ноября в 11:20 UTC сеть Cloudflare начала испытывать значительные сбои в обработке основного сетевого трафика. Пользователи, пытавшиеся получить доступ к сайтам клиентов компании, видели страницу с ошибкой, указывающей на внутренний сбой в сети Cloudflare.

Проблема не была вызвана кибератакой или злонамеренной деятельностью. Вместо этого она была спровоцирована изменением прав доступа к одной из систем баз данных, что привело к удвоению размера файла конфигурации системы Bot Management. Этот увеличенный файл был распространен на все машины сети.

Страница с ошибкой HTTP, отображаемая во время инцидента со сбоем Cloudflare
Источник: blog.cloudflare.com

Программное обеспечение, отвечающее за маршрутизацию трафика, имело ограничение на размер файла конфигурации, которое оказалось меньше нового размера файла. Это вызвало сбой в работе системы.

Поиск и устранение проблемы

Изначально инженеры предположили, что столкнулись с масштабной DDoS-атакой, но затем правильно определили основную причину. К 14:30 удалось остановить распространение проблемного файла конфигурации и заменить его предыдущей версией.

На графике ниже показан объем HTTP-статусов 5xx, отдаваемых сетью Cloudflare:

График объема HTTP-запросов с ошибками 5xx в сети Cloudflare
Источник: blog.cloudflare.com

Необычное поведение системы заключалось в периодическом восстановлении и последующих сбоях. Объяснение этому — файл генерировался каждые пять минут запросом в кластере баз данных ClickHouse, который постепенно обновлялся для улучшения управления правами доступа. Плохие данные генерировались только при запуске запроса на обновленной части кластера.

Затронутые сервисы

  • Основные CDN и сервисы безопасности — HTTP-статусы 5xx
  • Turnstile — полный сбой загрузки
  • Workers KV — значительно повышенный уровень ошибок 5xx
  • Dashboard — большинство пользователей не могли войти из-за недоступности Turnstile
  • Email Security — временная потеря доступа к источнику репутации IP-адресов
  • Access — широко распространенные сбои аутентификации

Архитектура обработки запросов Cloudflare

Каждый запрос к Cloudflare проходит четко определенный путь через сеть компании. Запросы сначала завершаются на уровне HTTP и TLS, затем поступают в основную прокси-систему (FL — «Frontline») и, наконец, через Pingora, которая выполняет поиск в кэше или получает данные из источника при необходимости.

Схема архитектуры обратного прокси Cloudflare
Источник: blog.cloudflare.com

Модуль Bot Management, который стал источником сегодняшнего сбоя, использует модель машинного обучения для генерации баллов ботов для каждого запроса, проходящего через сеть. Модель использует файл конфигурации «фич», который обновляется каждые несколько минут и публикуется по всей сети.

Классический пример того, как сложные системы ломаются из-за простейших ошибок. Ограничение размера файла конфигурации — базовый элемент системного дизайна, который почему-то не учли в системе, обслуживающей значительную часть мирового интернет-трафика. Ирония в том, что система защиты от ботов сама стала причиной поведения, похожего на DDoS-атаку. Это напоминает о важности стресс-тестирования даже в, казалось бы, стабильных инфраструктурных компонентах.

Полное восстановление всех систем Cloudflare было завершено к 17:06 UTC. Компания планирует провести детальный анализ инцидента и внести изменения в процессы, чтобы предотвратить повторение подобных сбоев.