Серьёзный сбой в работе AWS устранен: глобальные последствия и что произошло

Масштабный сбой в работе Amazon Web Services ( AWS ) произошёл сегодня утром и привёл к серьёзным сбоям в работе веб-сайтов и приложений по всему миру, затронув пользователей из Северной и Южной Америки, Европы и Азии. Позднее компания подтвердила, что проблема была устранена, и нормальная работа большинства пострадавших платформ восстановлена.
Всё началось с технической проблемы в регионе US-East-1 сервиса AWS в Северной Вирджинии и переросло в глобальный сбой. Рано утром AWS сообщила о высоком уровне ошибок и задержках в работе нескольких своих сервисов.
Проблема была связана с проблемой разрешения DNS для сервиса DynamoDB , который обрабатывает запросы к базе данных для многих клиентов по всему миру. Это привело к перебоям в работе множества популярных платформ, от развлечений до финансов.
Сбой быстро распространился, поскольку многие онлайн-сервисы зависят от инфраструктуры AWS, даже за пределами США. Проблемы в регионе US-East-1 часто затрагивают глобальные сети, которые используют его для управления базами данных или трафиком.
AWS пояснила , что причиной инцидента стали внутренние проблемы DNS, которые заблокировали доступ к конечной точке API DynamoDB, что привело к тайм-аутам и сбоям обслуживания во всех зависимых системах.
В США первые признаки появились около 3 часов утра по восточному времени. Пользователи начали сообщать о проблемах в таких приложениях, как Reddit, Snapchat, Signal, Venmo, а также в игровых платформах, таких как Fortnite и Roblox.
Финансовые сервисы, включая Robinhood и Coinbase Global, также были отключены. Несколько авиакомпаний сообщили о временных сбоях в работе своих систем бронирования, а также пострадали даже сервисы Amazon Alexa и Ring.
По всей Великобритании и Европе пользователи столкнулись с аналогичными сбоями в течение всего утра. На короткий период были недоступны сайты правительства Великобритании, включая портал входа в систему и пособий HMRC, а также платформы онлайн-банкинга, такие как Lloyds Bank, Halifax и Bank of Scotland.
Также пострадали популярные потребительские приложения, такие как Duolingo, Canva и Wordle. Сообщения с сайтов, отслеживающих сбои, показали резкий рост числа жалоб пользователей по всему региону: только в Великобритании было зарегистрировано более миллиона инцидентов.
В Азиатско-Тихоокеанском регионе пользователи в Австралии, Сингапуре и Японии столкнулись с задержками обслуживания и проблемами с подключением. Местные сообщения показали, что глобальные приложения, размещённые в регионе US-East-1, были недоступны в течение нескольких часов. Несмотря на то, что AWS располагает несколькими центрами обработки данных по всему миру, многие приложения используют общую глобальную инфраструктуру, что привело к масштабному ущербу, несмотря на региональное происхождение сбоя.
К середине утра в Великобритании AWS подтвердила, что «основная проблема DNS была полностью устранена». Компания заявила, что сервисы восстановлены, но предупредила, что некоторые клиенты могут продолжать сталкиваться с замедлением времени отклика по мере стабилизации работы систем. Позже на странице статуса AWS было показано, что основные функции, такие как запуск экземпляров EC2 и подключение к базам данных, возвращаются в норму.
Помимо Snapchat, Fortnite и Signal, сбои затронули такие финансовые инструменты, как Venmo, Robinhood и Coinbase, приложения для повышения производительности, такие как Slack и Airtable, и даже приложения для быстрого питания, такие как McDonald's.
«Это, конечно, не первый серьёзный сбой, с которым мы столкнулись за последнее время; всего чуть больше года назад сбой в работе Microsoft привёл к остановке работы аэропортов и банков. Современная жизнь, особенно после пандемии, стала зависимой от виртуального подключения и систем. Не так давно большинство людей носили с собой наличные и могли бы без проблем решить банковские проблемы. Однако сегодня безналичные платежи стали нормой, и большинство из нас больше не носят наличные», — сказала Мона Шрёдель , юрист по защите данных в компании Freeth.
Как и в случае с законодательством в этой области, потребность в практическом пересмотре и корректировке просто не поспевает за скоростью развития. Это делает конечных пользователей уязвимыми к негативным последствиям, если несколько крупных поставщиков станут объектом атак или столкнутся с техническими проблемами. Необходимо больше усилий для обеспечения (а) резервных систем для критически важных услуг и (б) пересмотра и регулирования практических аспектов нашей современной удобной виртуальной жизни.
Это не первый случай, когда проблема с AWS приводит к сбоям в работе крупных компаний по всему миру. В марте 2017 года, как сообщал Hackread.com , на том же объекте AWS в Вирджинии возникли технические неполадки, из-за которых несколько популярных сайтов были отключены на несколько часов.
В число пострадавших вошли RunKeeper, Medium, Trello, Imgur, Giphy, SoundCloud, Quora, Business Insider, Coursera, Time Inc. и многие другие.
К моменту выхода последнего обновления AWS большинство сервисов возобновили работу в штатном режиме, и количество сообщений пользователей начало снижаться. Компания пока не предоставила полную техническую информацию о причине сбоя, но заявила, что продолжит расследование инцидента, чтобы предотвратить его повторение. Однако на данный момент сервисы восстановлены, и AWS сообщает, что все системы снова работоспособны.
Комментируя сбой, Мона Шредель , юрист по защите данных в компании Freeth, сказала, что инцидент показывает, насколько зависимой стала современная жизнь от цифровой инфраструктуры.
«Это не первый серьёзный сбой в последнее время. Чуть больше года назад сбой в работе Microsoft привёл к остановке работы аэропортов и банков. Современная жизнь, особенно после пандемии, во многом зависит от виртуальных систем. Не так давно большинство людей носили с собой наличные и могли легко решить банковские вопросы без особых неудобств. Теперь же, когда безналичные платежи стали нормой, мало кто из нас держит под рукой физические деньги», — пояснила она.
Она добавила, что нормативно-правовая база не успевает за стремительным развитием цифровых услуг. «Как и в случае с законодательством в этой области, потребность в практическом пересмотре и корректировке просто не поспевает за скоростью развития. Это делает конечных пользователей уязвимыми, когда несколько крупных поставщиков сталкиваются с техническими сбоями или целенаправленными инцидентами. Необходимо больше усилий для обеспечения надлежащих систем резервного копирования критически важных услуг и регулярного анализа и регулирования практических аспектов нашей «связанной» жизни».
HackRead