Падение сервисов Амазона 7 декабря 2021

· 2 мин

Когда я работал в Амазоне и приезжал в Россию, мне приходилось практически всем объяснять, что Амазон - не вебсайт, где можно купить книжки, а также огромный облачный бизнес, на которым держится серьёзный процент сервисов и сайтов в интернете.

Сегодня у AWS упал основной регион в Северной Вирджинии (us-east-1), в связи с чем некоторые люди не могут попасть в парки развлечения Disney, смотреть Netflix, отправить сообщения в Slack и торговать акциями и криптой в Robinhood и Coinbase (статья).

Сам я обнаружил проблему, когда мне в 10:58 утра не пришло сообщение от бота, который ежедневно отправляет мне статистику по подписчикам в инстаграме.

Бот работает на сервисе AWS Lambda. Раз в сутки срабатывает триггер на базе сервиса AWS EventBridge, отправляет сообщение в функцию на Lambda, которая делает запрос к API фейсбука и отправляет мне сообщение через API телеграма.

Попытки зайти на AWS и проверить логи закончились ошибкой 504 после бесконечно долгого ожидания загрузки страницы.

Облака сделали жизнь разработчиков намного легче - я склепал бота за пару часов, не задумываясь ни о каких серверах, безопасности и т.п. Это всё за меня сделал Амазон. Обратная сторона этой легкости - работоспособность моего сервиса зависит от Сиэтльского книжного магазина.

Это падение, далеко не первое, подчёркивает необходимость строить продакшн системы отказоустойчивыми к падению региона (cross-region redundancy) или даже целого облачного сервиса (multi-cloud).

Это нетривиальная задача, которую, тем не менее, нужно делать, чтобы не получилось так, что родители беспомощно стоят у обездвиженного турникета с плачущами детьми, которые так хотели посмотреть на Микки Мауса.