Падение Amazon Web Services вызвало сбои в работе тысяч веб-сайтов

Рекомендуем почитать:

Хакер #326. Router from Hell

Компания Amazon, ведущий поставщик облачной инфраструктуры IaaS, в четверг
испытала продолжительный сбой в работе популярных сервисов EC2 и RDS.

Ведущий поставщик облачной инфраструктуры по модели IaaS Amazon Web Services
(AWS) начал испытывать сбои в работе своих сервисов в четверг 21 апреля около 2
часов ночи по тихоокеанскому времени (1 час дня по московскому времени). Сбой
затронул тысячи пользователей AWS, системы которых были размещены на площадках
Amazon в нескольких т.н. "зонах доступности" (Availability Zones) в регионе
EAST-1 на восточном побережье США. Пользователи AWS, работающие с площадками в
других регионах, проблем не испытывают.

Проблемы проявлялись в повышенных задержках при обработке обращений к
программным интерфейсам сервиса хранения данных Elastic Block Storage (EBS),
используемого в сочетании с сервисом арендуемых виртуальных машин Elastic
Compute Cloud (EC2). Кроме того, проблемы затронули пользователей сервиса
Relational Database Service (RDS), которые также испытывают задержки и проблемы
с подключением.

По имеющейся информации о ходе восстановительных работ, опубликованной на
официальном сайте AWS, к 9 часам утра (8 часов вечера по московскому времени)
работа EBS была восстановлена, за исключением одной зоны доступности. К 3 часам
дня (2 часа ночи 22 апреля по московскому времени) была восстановлена нормальная
работа сервиса RDS – также за исключением одной проблемной зоны доступности.

Столь длительная задержка (уже вышедшая за пределы, закрепленные в сервисном
соглашении AWS) связана с тем, что в проблемной зоне доступности закончились
вычислительные мощности, и сотрудники Amazon в экстренном порядке вынуждены
заниматься их наращиванием: "Инцидент с сетью сегодня рано утром послужил
причиной массовых операций по перезеркалированию разделов EBS в регионе
US-EAST-1, – говорится в сообщении от 8:54 утра (7:54 вечера по московскому
времени) 21 апреля. – Это перезеркалирование вызвало нехватку мощностей в одной
из зон доступности региона US-EAST-1, что негативно отразилось на возможности
создания новых разделов EBS, а также на темпах, с которыми мы могли
перезеркалировать и восстанавливать затронутые разделы EBS".

Проблемы в работе AWS затронули целый ряд популярных онлайновых сайтов, среди
которых Reddit, Quora, а также PaaS-платформы, работающие поверх инфраструктуры
AWS: DotCloud, Heroku и Engine Yard. Таким образом, нынешний сбой негативно
скажется на репутации облачных решений не только класса IaaS, но и PaaS.

Сбой в работе AWS показал, что даже использование инфраструктуры от мирового
лидера не является гарантией от технических сбоев, считает Максим Дюбарев,
генеральный директор российского облачного провайдера Clodo: "Видно, что и они
не застрахованы от происшествий, причем весьма неприятных". Пользователи AWS
должны будут извлечь из этого события соответствующие уроки: "Облако облаком, но
все равно у каждого дата-центра и каждого облачного провайдера есть свой предел
резервирования, и если кратность ошибки превышает кратность этого предела,
сервис приостанавливается". Максим Дюбарев рекомендует в целях повышения
надежности пользоваться услугами одновременно двух облачных провайдеров, а
критичные сервисы следует распределять по разным датацентрам.

Следует отметить, что пользователи AWS имеют возможность размещать данные в
географически удаленных регионах – именно с целью повышения устойчивости от
сбоев. Однако большинство затронутых инцидентом компаний до сих пор не
пользовались этой возможностью: их вычислительные ресурсы были сосредоточены на
восточном побережье США. В какой-то мере исключением стал лишь PaaS-провайдер
Engine Yard, который к моменту сбоя уже проводил бета-тестирование системы
распределения мощностей между несколькими географическими регионами (также
используются площадки AWS на западном побережье США, в Европе и Азии) – как раз
на случай подобных сбоев. В результате происшествия владельцы Engine Yard
ускорили ввод услуги в промышленную эксплуатацию, хотя непосредственно в момент
сбоя соответствующая функциональность, разумеется, еще не была доступна.

В последний раз AWS испытала продолжительный сбой в июле 2008 года, когда
другой инфраструктурный сервис – Simple Storage Service – не был доступен в
течение восьми часов. В то время представители компании заявляли, что они
извлекли из происшествия необходимые уроки: "любой отказ в обслуживании
недопустим, и мы не успокоимся, пока качество AWS не станет идеальным", –
сообщалось в заявлениях Amazon.

Хакер #326. Router from Hell

Подпишись на наc в Telegram!