Перебои в работе Amazon S3 спровоцировала случайная опечатка сотрудника

Рекомендуем почитать:

Хакер #326. Router from Hell

28 февраля 2017 года, примерно в 21:00 по московскому времени, в социальных сетях, на Reddit и других ресурсах начали массово появляться сообщения о проблемах и перебоях в работе самых разных сайтов, приложений и сервисов. Так, пользователи жаловались на проблемы в работе Open Whisper Systems, Quora, IFTTT, рассылок Sailthru, Business Insider, Giphy, Medium, Slack, Coursera, различных фотохостингов и так далее.

Вскоре выяснилось, что винить в случившемся нужно Amazon Simple Storage Service (S3), так как в официальном Twitter Amazon Web Services (AWS) стали появляться сообщения о неких «проблемах», которые сотрудники компании силились устранить как можно быстрее. В результате ситуация разрешилась примерно около 1:00 по московскому времени, а о причинах сбоя представители Amazon обещали рассказать позже.

Сдержав свое слово, 2 марта 2017 года сотрудники AWS опубликовали подробный отчет о происшедшем. Как оказалось, причиной масштабного сбоя послужил банальный человеческий фактор. Представители AWS пишут, что незадолго до инцидента один из служащих занимался рутинным дебаггингом и отладкой биллинговой системы S3. Этот сотрудник ввел команду, которая должна была удалить небольшое количество серверов из ряда подсистем S3, использующихся биллинговым процессом. Однако при вводе команды сотрудник ошибся. Так как один из параметров был введен некорректно, удалилось куда большее число серверов, чем было задумано, и не только из нужных подсистем.

В частности из-за ошибки пострадала index-подсистема, которая «управляет метаданными и информацией о местоположении всех объектов S3 в дата-центре [региона Вирджиния]. Данная подсистема необходима для обслуживания всех запросов GET, LIST, PUT и DELETE». Второй пострадавшей оказалась placement-подсистема, ответственная за распределение новых хранилищ. Для ее работы также необходимо, что index-подсистема функционировала нормально.

В конечном итоге сотрудники AWS были вынуждены полностью перезапустить все пострадавшие из-за ошибки системы, и во время перезапуска S3 лишился возможности обрабатывать запросы. Так как другие сервисы AWS в регионе US-EAST-1 полагаются в своей работе на S3, из-за перезапуска отказали так же консоль S3, запуск новых инстансов Elastic Compute Cloud (EC2), тома Elastic Block Store (EBS) и AWS Lambda.

С более детальным описанием случившегося можно ознакомиться здесь. В конце отчета представители Amazon извинились перед клиентами и простыми пользователями, а также пообещали вынести из случившегося урок, улучшив работу свои сервисов.

Хакер #326. Router from Hell

Подпишись на наc в Telegram!