Согласно сообщению Huoxing Caijing, Coinbase опубликовала отчет об анализе масштабного сбоя сервисов, произошедшего 7 мая 2026 года. Этот сбой длился около 8 часов, а полное восстановление заняло около 12 часов; в этот период были недоступны или серьезно деградировали торговля, пополнение, вывод средств и большинство ключевых сервисов. Coinbase сообщила, что причиной сбоя стало одновременное отключение нескольких холодильных установок в системе охлаждения центра обработки данных в зоне доступности use1-az4 региона AWS us-east-1, что вызвало тепловую защиту и отключение стойки, в результате чего были отключены экземпляры EC2 и тома EBS, а также затронуты ряд интернет-сервисов. В процессе восстановления движок торговли Coinbase потерял кворум из-за кластерной архитектуры, развернутой в одном центре обработки данных AWS, и ему потребовалось срочно восстановить работу путем изменения кода и создания новой группы узлов, постепенно возобновляя торговлю на рынках. Кроме того, сервис AWS Managed Kafka (MSK) столкнулся с сбоем контрольной плоскости, что препятствовало автоматическому переизбранию лидеров разделов и дополнительно блокировало системы котировок, комиссий, а также部分 расчетов и потоков данных, расширив общую зону влияния. После совместных ручных миграций разделов командами Coinbase и AWS система постепенно вернулась к нормальной работе. Coinbase отметила, что этот инцидент выявил недостатки в ее способности к автоматическому переключению между зонами доступности и в устойчивости к сбоям управляемых промежуточных компонентов. Компания планирует модернизировать архитектуру горячего резервирования между регионами, усилить регулярные учения по отработке аварийных ситуаций, перевести систему Kafka с двухзонной на трехзонную развертку и совместно с AWS реализовать устранение корневых причин и улучшения.
Post-mortem Coinbase выявил риски каскадных сбоев AWS
MarsBitПоделиться






Пост-мортем Coinbase по сбою 7 мая 2026 года демонстрирует риски, связанные с зависимостью от одной зоны доступности, при этом индекс страха и жадности, вероятно, пострадал во время 8-часового перебоя. Сбой системы охлаждения в центре обработки данных AWS вызвал сбои EC2 и EBS, что потребовало экстренных мер по устранению. Инженеры вручную мигрировали партиции Kafka для восстановления потоков данных. Компания планирует перейти на конфигурацию Kafka с тремя зонами доступности и увеличить частоту учений по восстановлению после катастроф. Альткоины, за которыми стоит следить, могут отреагировать на такие системные риски на более широком рынке.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.