Post-Mortem Coinbase Mengungkap Risiko Kegagalan Kaskade AWS

icon MarsBit
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Laporan pasca-kegagalan Coinbase pada pemadaman 7 Mei 2026 menunjukkan risiko bergantung pada satu zona ketersediaan, dengan indeks fear and greed kemungkinan terdampak selama gangguan 8 jam. Kegagalan sistem pendingin di pusat data AWS menyebabkan gangguan EC2 dan EBS, memaksa perbaikan darurat. Insinyur secara manual memigrasi partisi Kafka untuk memulihkan aliran data. Perusahaan berencana mengadopsi pengaturan Kafka tiga zona ketersediaan dan meningkatkan latihan pemulihan bencana. Altcoin yang perlu diawasi mungkin bereaksi terhadap risiko sistemik semacam ini di pasar yang lebih luas.

Berita Huoxing Caijing melaporkan bahwa Coinbase merilis laporan tinjauan insiden gangguan layanan besar-besaran pada 7 Mei 2026. Gangguan ini berlangsung sekitar 8 jam, dan pemulihan penuh memakan waktu sekitar 12 jam, di mana perdagangan, setoran, penarikan, serta sebagian besar layanan inti tidak tersedia atau mengalami penurunan kinerja serius. Coinbase menyatakan bahwa penyebab gangguan adalah kegagalan simultan pada beberapa mesin pendingin di sistem pendingin pusat data di zona ketersediaan use1-az4 di wilayah AWS us-east-1, yang memicu pemutusan perlindungan panas kabinet, menyebabkan instance EC2 dan volume EBS turun, serta memengaruhi berbagai layanan internet. Selama proses pemulihan, mesin pertukaran perdagangan Coinbase kehilangan quorum karena arsitektur kluster yang terdeploy di satu pusat data AWS kehilangan sebagian besar node, sehingga perlu dilakukan penyesuaian kode mendesak dan pembuatan ulang grup node baru untuk memulihkan operasi, sambil secara bertahap menghidupkan kembali perdagangan pasar. Selain itu, layanan Kafka yang dikelola AWS (MSK) mengalami kegagalan pada lapisan kontrol, menyebabkan pemimpin partisi tidak dapat melakukan pemilihan ulang otomatis, yang lebih lanjut menghambat penawaran, biaya transaksi, serta sebagian sistem penyelesaian dan aliran data, memperluas cakupan dampak keseluruhan. Setelah tim teknis Coinbase dan AWS bekerja sama dalam migrasi partisi manual, sistem secara bertahap kembali normal. Coinbase menyatakan bahwa insiden ini mengungkap kelemahan dalam kemampuan pemindahan otomatis lintas zona ketersediaan dan ketahanan terhadap kegagalan pada middleware yang dikelola. Perusahaan akan meningkatkan arsitektur hot standby lintas wilayah, memperkuat latihan kegagalan rutin, serta memindahkan sistem Kafka dari dua zona ketersediaan menjadi tiga zona ketersediaan, sekaligus bekerja sama dengan AWS untuk memperbaiki akar penyebab dan melakukan perbaikan.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.