Глобальный сбой Cloudflare произошел не из-за атаки, а из-за ошибки

Рекомендуем почитать:

Хакер #320. Королевство граблей

Глава компании Cloudflare Мэттью Принс (Matthew Prince) рассказал о причинах масштабного сбоя, который затронул глобальную сеть компании и многие сайты 18 ноября 2025 года. По его словам, причиной стала ошибка при изменении прав доступа к базе данных, хотя поначалу в компании решили, что столкнулись с масштабной DDoS-атакой.

Принс пишет, что проблема возникла при обновлении прав доступа в кластере ClickHouse, который генерирует feature file для системы Bot Management. Такой файл описывает активность и поведение вредоносных ботов, распространяя эту информацию по всей инфраструктуре Cloudflare, чтобы софт, управляющий маршрутизацией, знал о новых угрозах.

Целью изменения прав было предоставление пользователям доступа к низкоуровневым данным и метаданным. Однако в запросе, который использовался для извлечения этих данных, была допущена ошибка — он возвращал лишнюю информацию. Это более чем вдвое увеличило размер feature file. Когда он превысил установленный лимит, система обнаруживала недопустимо большой файл, после чего работа завершалась сбоем.

Ситуацию усугубило то, что кластер генерировал новую версию файла каждые пять минут. При этом «испорченные» данные появлялись только при запросе к тем нодам, которые уже получили обновление прав. В результате система то работала, то снова отказывала (в зависимости от того на какую ноду попадал запрос, и какой файл уходил в раздачу).

«Эти колебания не давали нам понять, что происходит, поскольку вся система то восстанавливалась, то снова выходила из строя, ведь в нашу сеть попадали то хорошие, то “плохие” файлы конфигурации. Поэтому сначала мы решили, что это атака», — признается Принс.

Периодические сбои в работе Cloudflare начались около 11:20 UTC 18 ноября 2025 года, а уже к 13:00 все ноды ClickHouse стали генерировать «плохие» файлы, и система вошла в «стабильное состояние отказа», после чего серьезные проблемы начались уже у клиентов.

По данным СМИ, не работали ноды Cloudflare по всей Европе, включая Амстердам, Берлин, Франкфурт, Варшаву, Вену, Цюрих, Стокгольм и другие города. Downdetector зафиксировал десятки тысяч жалоб на проблемы с сайтами и хостингом. Попутно пользователи сообщали о сбоях в работе Spotify, Twitter, OpenAI, Anthropic, AWS и Google и множества других сервисов.

Для устранения проблемы команда Cloudflare остановила генерацию «плохих» файлов, вручную добавила в очередь заведомо хороший файл и принудительно перезапустила основной прокси. Полное восстановление заняло около шести часов, и в 17:44 UTC все сервисы заработали в штатном режиме.

В своем сообщении Принс отмечает, что это был самый масштабный сбой в работе компании с 2019 года. Он принес всем извинения «за ту боль, которую мы причинили интернету». По его словам, подобные проблемы недопустимы, и теперь компания планирует усилить валидацию конфигурационных файлов, добавить больше механизмов для экстренного отключения функций, а также пересмотреть логику обработки ошибок во всех основных модулях прокси.

Хакер #320. Королевство граблей

Подпишись на наc в Telegram!