Báo cáo phân tích sau sự cố của Coinbase tiết lộ các rủi ro lỗi lan truyền trên AWS

icon MarsBit
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Báo cáo hậu sự của Coinbase về sự cố ngày 7 tháng 5 năm 2026 cho thấy những rủi ro khi phụ thuộc vào một vùng khả dụng duy nhất, với chỉ số fear and greed có khả năng bị ảnh hưởng trong suốt 8 giờ gián đoạn. Sự cố hệ thống làm mát tại trung tâm dữ liệu AWS đã gây ra sự cố EC2 và EBS, buộc phải thực hiện các biện pháp khắc phục khẩn cấp. Các kỹ sư đã di chuyển thủ công các partition Kafka để khôi phục luồng dữ liệu. Công ty dự định triển khai cấu hình Kafka ba vùng khả dụng và tăng cường các cuộc diễn tập phục hồi sau thảm họa. Các altcoin cần theo dõi có thể phản ứng với những rủi ro hệ thống như vậy trên thị trường rộng lớn hơn.

The Huoxing Finance report states that Coinbase has released a post-mortem report on the large-scale service outage on May 7, 2026. The outage lasted approximately 8 hours, with full recovery taking about 12 hours, during which trading, deposits, withdrawals, and most core services were unavailable or severely degraded. Coinbase stated that the incident was triggered by the simultaneous failure of multiple cooling units in the data center of the availability zone (use1-az4) in the AWS us-east-1 region, causing cabinet thermal protection shutdowns that took down EC2 instances and EBS volumes, subsequently affecting multiple internet services. During recovery, Coinbase’s matching engine lost quorum due to its cluster architecture being deployed in a single AWS data center, requiring emergency code adjustments and the rebuilding of a new node group to restore operations, with market trading gradually restarted during the recovery process. Additionally, AWS-managed Kafka (MSK) experienced a control plane failure, preventing automatic re-election of partition leaders, further blocking quote feeds, fee calculations, and certain settlement and data flow systems, expanding the overall impact. After collaborative manual partition migration by Coinbase and AWS engineering teams, the system gradually returned to normal. Coinbase acknowledged that this incident exposed deficiencies in its cross-availability zone automatic failover capabilities and disaster resilience of managed middleware. The company will upgrade its cross-region hot-standby architecture, strengthen regular failure drills, migrate its Kafka system from a dual-availability zone to a tri-availability zone deployment, and work with AWS to address root causes and implement improvements.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.