Оглавление

21 августа 2025 года масштабный трафик от одного клиента привел к перегрузке прямых каналов между Cloudflare и дата-центром AWS us-east-1, вызвав серьезные задержки и потерю пакетов для множества пользователей. Инцидент длился около четырех часов и затронул клиентов, чьи серверы располагались в этом регионе AWS.

Техническая подоплека инцидента

Cloudflare работает как обратный прокси, кэшируя контент и уменьшая нагрузку на origin-серверы клиентов. Когда запрашиваемый контент отсутствует в кэше, система обращается к исходному серверу, что и создает исходящий трафик с платформы.

Внутренняя сеть Cloudflare спроектирована с запасом пропускной способности, но в данном случае трафик одного клиента оказался настолько объемным, что исчерпал все доступные прямые пиринговые соединения с AWS us-east-1. Ситуацию усугубило то, что один из каналов уже работал в половинном режиме из-за предыдущего сбоя, а междатацентровые соединения (DCI) не были своевременно масштабированы.

График анонсов BGP-префиксов с попытками устранения проблемы от AWS
Источник: blog.cloudflare.com

Хронология событий

Инцидент развивался по классическому сценарию каскадного отказа:

  • 16:27 UTC — начало трафиковой атаки от одного клиента
  • 16:37 UTC — AWS начинает отзыв BGP-префиксов для снижения нагрузки
  • 17:22 UTC — отзыв префиксов приводит к перенаправлению трафика и усугублению ситуации
  • 19:27 UTC — ручное управление трафиком со стороны Cloudflare и AWS начинает давать результат
  • 20:18 UTC — полное восстановление работы
Диаграмма сетевой емкости с точками перегрузки и оценкой пропускной способности
Источник: blog.cloudflare.com

Графики показывают резкий рост трафика в 16:27, совпадающий с началом проблем, и последующие попытки AWS стабилизировать ситуацию через манипуляции с BGP-анонсами:

Архитектура сети Cloudflare с edge-маршрутизаторами и каналами DCI
Источник: blog.cloudflare.com
График всплеска трафика, показывающий, как трафик клиента вызвал перегрузку каналов
Источник: blog.cloudflare.com

Последствия и метрики

Перегрузка сетевых очередей привела к массовому дропу пакетов, что отразилось на ключевых метриках производительности:

График потерь пакетов в роутере во время сбоя, показывающий очередь сброса
Источник: blog.cloudflare.com

Этот инцидент наглядно демонстрирует фундаментальную проблему современных облачных инфраструктур — отсутствие надежной изоляции между клиентами. Когда один клиент может монополизировать общие ресурсы и повлиять на тысячи других, это говорит о архитектурных просчетах. Cloudflare предстоит серьезная работа по внедрению механизмов приоритизации и ограничения трафика на уровне сетевой инфраструктуры, а не только на уровне приложений.

Планы по предотвращению

Cloudflare анонсировала многоуровневую стратегию предотвращения подобных инцидентов:

  • Разработка механизмов выборочной деприоритизации трафика проблемных клиентов
  • Ускорение планов по апгрейду междатацентровых соединений
  • Улучшение мониторинга и автоматического реагирования на сетевые аномалии

По материалам Cloudflare Blog.