Post-mortem Coinbase Mengungkap Risiko Kegagalan Kaskade AWS

icon MarsBit
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Laporan pasca-kegagalan Coinbase mengenai gangguan pada 7 Mei 2026 menunjukkan risiko bergantung pada satu zon ketersediaan, dengan indeks takut dan serakah kemungkinan terjejas semasa gangguan selama 8 jam. Kegagalan sistem penyejukan di pusat data AWS menyebabkan gangguan EC2 dan EBS, memaksa tindakan pembaikan kecemasan. Jurutera berpindah secara manual partisi Kafka untuk memulihkan aliran data. Syarikat merancang untuk mengadopsi pengaturan Kafka tiga zon ketersediaan dan meningkatkan latihan pemulihan bencana. Altcoin yang perlu diawasi mungkin bertindak balas terhadap risiko sistemik sedemikian dalam pasaran yang lebih luas.

Mars Finance melaporkan, Coinbase telah menerbitkan laporan pasca-kejadian gangguan perkhidmatan besar-besaran pada 7 Mei 2026. Gangguan ini berlangsung selama kira-kira 8 jam, dan pemulihan penuh mengambil masa sekitar 12 jam, di mana perdagangan, setoran, penarikan, serta kebanyakan perkhidmatan utama tidak boleh digunakan atau mengalami penurunan prestasi yang serius. Coinbase menyatakan bahawa punca gangguan adalah kegagalan serentak pada banyak mesin pendingin dalam sistem pendinginan pusat data di kawasan boleh digunakan (use1-az4) di wilayah AWS us-east-1, yang menyebabkan penghentian perlindungan haba pada rak, menjadikan contoh EC2 dan cakera EBS tidak tersedia, serta memberi kesan kepada pelbagai perkhidmatan internet. Semasa proses pemulihan, enjin pertemuan perdagangan Coinbase kehilangan quorum kerana arsitektur kluster yang ditempatkan di satu pusat data AWS kehilangan kebanyakan nod, dan perlu dipulihkan melalui penyesuaian kod serta pembinaan semula kumpulan nod baru, sambil secara berperingkat memulakan semula perdagangan pasaran. Selain itu, perkhidmatan Kafka yang dikuasakan oleh AWS (MSK) mengalami kegagalan pada lapisan kawalan, menyebabkan pemimpin partisi tidak dapat mengadakan pilihan semula automatik, yang lebih lanjut menghalang aliran penawaran, caj transaksi, serta sebahagian sistem penyelesaian dan data, memperluaskan lingkungan kesan keseluruhan. Selepas pasukan kejuruteraan Coinbase dan AWS bekerjasama untuk memindahkan partisi secara manual, sistem beransur-ansur kembali normal. Coinbase menyatakan bahawa kejadian ini mengungkap kelemahan dalam kemampuan penukaran automatik antara kawasan boleh digunakan serta ketahanan terhadap kegagalan pada middleware yang dikuasakan. Syarikat akan meningkatkan arsitektur hot standby antara wilayah, memperkuat latihan gangguan berkala, serta memindahkan sistem Kafka dari dua kawasan boleh digunakan kepada tiga kawasan boleh digunakan, sambil bekerjasama dengan AWS untuk memperbaiki punca asal dan membuat peningkatan.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.