На прошлой неделе в работе сервисов Microsoft 365 по всему миру произошел крупный сбой, длившийся около пяти часов. Как рассказали в компании теперь, проблему спровоцировала ошибка при изменении IP-адреса маршрутизатора, что привело к проблемам с пересылкой пакетов между другими WAN-маршрутизаторами и каскадному отключению.
Исходно, сразу после возникновения проблем, в Microsoft сообщали, что сбой был вызван проблемами с конфигурацией DNS и WAN, которые спровоцировало обновлением WAN. Это привело к волнообразным сбоям, достигавшим пика примерно каждые 30 минут, о чем свидетельствовала и страница состояния Microsoft Azure (причем проблемы затронули ее тоже, поскольку периодически страница демонстрировала ошибку «504 Gateway Time-out»).
В список пострадавших сервисов вошли Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive for Business, PowerBi, Microsoft 365 Admin Center, Microsoft Graph, Microsoft Intune, Microsoft Defender for Cloud Apps, а также Microsoft Defender for Identity.
Как теперь рассказали в компании, проблема возникла после изменения IP-адреса WAN-маршрутизатора с помощью команды, которая «не была тщательно проверена и демонстрировала различное поведение на разных сетевых устройствах».
«В рамках запланированного обновления IP-адреса на WAN-маршрутизаторе команда, данная маршрутизатору, заставила его отправлять сообщения всем прочим WAN-маршрутизаторам, в результате чего все они пересчитывали свои таблицы смежности и переадресации. Во время этого процесса маршрутизаторы не могли правильно пересылать проходящие через них пакеты», — сообщается в опубликованном отчете.
Хотя в итоге сеть начала восстанавливаться самостоятельно, работа автоматизированных систем, отвечающих за поддержание работоспособности WAN, была приостановлена из-за воздействия, оказываемого на сеть. Отключение затронуло системы выявления и устранения неработоспособных устройств, а также системы управления и оптимизации трафика.
В результате этой паузы некоторые сетевые пути продолжали терять пакеты до тех пор, пока системы не были перезапущены вручную, а WAN не вернули в оптимальные рабочие условия, завершив процесс восстановления.
Специалисты Microsoft уверяют, что теперь будут блокировать выполнение команд, которые могут повлечь за собой подобный «резонанс», а также будут требовать, чтобы все выполняемые команды строго соответствовали рекомендациями по безопасному изменению конфигурации.