Post-mortem Coinbase выявил риски каскадных сбоев AWS

icon MarsBit
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Пост-мортем Coinbase по сбою 7 мая 2026 года демонстрирует риски, связанные с зависимостью от одной зоны доступности, при этом индекс страха и жадности, вероятно, пострадал во время 8-часового перебоя. Сбой системы охлаждения в центре обработки данных AWS вызвал сбои EC2 и EBS, что потребовало экстренных мер по устранению. Инженеры вручную мигрировали партиции Kafka для восстановления потоков данных. Компания планирует перейти на конфигурацию Kafka с тремя зонами доступности и увеличить частоту учений по восстановлению после катастроф. Альткоины, за которыми стоит следить, могут отреагировать на такие системные риски на более широком рынке.

Согласно сообщению Huoxing Caijing, Coinbase опубликовала отчет об анализе масштабного сбоя сервисов, произошедшего 7 мая 2026 года. Этот сбой длился около 8 часов, а полное восстановление заняло около 12 часов; в этот период были недоступны или серьезно деградировали торговля, пополнение, вывод средств и большинство ключевых сервисов. Coinbase сообщила, что причиной сбоя стало одновременное отключение нескольких холодильных установок в системе охлаждения центра обработки данных в зоне доступности use1-az4 региона AWS us-east-1, что вызвало тепловую защиту и отключение стойки, в результате чего были отключены экземпляры EC2 и тома EBS, а также затронуты ряд интернет-сервисов. В процессе восстановления движок торговли Coinbase потерял кворум из-за кластерной архитектуры, развернутой в одном центре обработки данных AWS, и ему потребовалось срочно восстановить работу путем изменения кода и создания новой группы узлов, постепенно возобновляя торговлю на рынках. Кроме того, сервис AWS Managed Kafka (MSK) столкнулся с сбоем контрольной плоскости, что препятствовало автоматическому переизбранию лидеров разделов и дополнительно блокировало системы котировок, комиссий, а также部分 расчетов и потоков данных, расширив общую зону влияния. После совместных ручных миграций разделов командами Coinbase и AWS система постепенно вернулась к нормальной работе. Coinbase отметила, что этот инцидент выявил недостатки в ее способности к автоматическому переключению между зонами доступности и в устойчивости к сбоям управляемых промежуточных компонентов. Компания планирует модернизировать архитектуру горячего резервирования между регионами, усилить регулярные учения по отработке аварийных ситуаций, перевести систему Kafka с двухзонной на трехзонную развертку и совместно с AWS реализовать устранение корневых причин и улучшения.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.