Amazon Web Services (AWS), контролирующая около 30% мирового рынка облачной инфраструктуры по данным на середину 2025 года, столкнулась с масштабным сбоем 20 октября 2025 года, который нарушил работу значительной части интернета. AWS подтвердила проблему, сообщив, что выявила и устранила основную причину, связанную с ошибкой DNS-разрешения для API DynamoDB в регионе US-EAST-1. Полное восстановление сервисов заняло несколько часов из-за накопившейся очереди запросов.
Сбой начался около 3:00 по восточному времени (ET), когда AWS зафиксировала повышенные уровни ошибок и задержек для нескольких сервисов в регионе US-EAST-1, ключевом узле, обрабатывающем до 33% мирового интернет-трафика. К 4:30 ET компания уточнила, что проблема затрагивает запросы к конечной точке DynamoDB, критической NoSQL-базы данных, поддерживающей миллиарды операций в секунду. Расследование показало, что сбой вызван нарушением в системе мониторинга сетевого здоровья, повлиявшим на DNS-разрешение, что также затронуло сервисы EC2, SQS и Amazon Connect. Это третий крупный инцидент в US-EAST-1 за последние пять лет, что указывает на системные уязвимости региона.
К 5:00 ET AWS сообщила: «Мы определили потенциальную причину ошибок API DynamoDB, связанную с DNS-разрешением в US-EAST-1. Мы работаем над несколькими решениями для ускорения восстановления». Проблема также повлияла на глобальные сервисы, зависящие от US-EAST-1, такие как обновления IAM и глобальные таблицы DynamoDB, а также ограничила возможность клиентов создавать тикеты поддержки. AWS рекомендовала повторять неудачные запросы, что подчеркивает серьезность сбоя, учитывая, что простои такого рода наносят экономике ущерб в миллиарды долларов ежегодно.
AWS формирует основу значительной части цифровой инфраструктуры, наряду с Microsoft Azure и Google Cloud, поддерживая до 63% мировых облачных сервисов. Сбой вызвал отказ множества платформ: пользователи в США на Downdetector сообщали о проблемах с Snapchat, Roblox, Amazon, Alexa, Ring, Robinhood, Max (HBO), Chime, Venmo, Epic Games, McDonald's, Fortnite, Lyft, Hulu, Disney+, Roku, Signal, а также с операторами AT&T, Verizon и T-Mobile. Платформы Steam, Reddit, Zoom, Pokmon Go, PlayStation Network, криптобиржа Coinbase и ИИ-сервис Perplexity также пострадали. В криптовалютной сфере сбои затронули сети второго уровня Ethereum, такие как Polygon и Arbitrum, где 37% узлов зависят от AWS, что подчеркивает уязвимость децентрализованных систем к централизованным отказам.
К 5:20 ET AWS применила первые меры по устранению проблемы, наблюдая признаки восстановления, а вскоре сообщила о «значительном прогрессе». Однако очередь из миллиардов отложенных запросов замедляла процесс. К 6:00 ET большинство сервисов восстановилось, включая глобальные функции, зависящие от US-EAST-1. К вечеру 20 октября AWS объявила о полном возвращении к нормальной работе, хотя некоторые клиенты продолжали сталкиваться с ошибками при запуске новых экземпляров EC2. Компания пообещала подробный анализ инцидента, который может занять недели.
Этот сбой подчеркивает необходимость многорегиональной архитектуры и диверсификации облачной инфраструктуры для минимизации рисков. Зависимость от одного региона, особенно US-EAST-1, остается критической точкой отказа, что требует от компаний пересмотра стратегий для обеспечения устойчивости в будущем.
Оригинал
Уникальность