Ang Coinbase Post-Mortem ay Nagpapakita ng Mga Panganib ng Cascade Failure sa AWS

icon MarsBit
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ang post-mortem ng Coinbase sa outage noong Mayo 7, 2026, ay nagpapakita ng mga panganib ng pagkakasalig sa isang tanging availability zone, na maaaring nakaaapekto sa fear and greed index sa panahon ng 8-oras na pagkabigo. Ang pagkabigo ng isang cooling system sa isang AWS data center ang nagdulot ng mga outage sa EC2 at EBS, na nagpakailangan ng emergency fixes. Ang mga inhinyero ay manual na nag-migrate ng Kafka partitions upang muling i-restored ang data flows. Ang kumpanya ay plano na gamitin ang three-availability-zone Kafka setup at pataasin ang mga pagsasanay sa disaster recovery. Ang mga altcoin na dapat bisitahin ay maaaring mag-react sa ganitong systemic risks sa mas malawak na merkado.

Ayon sa Mars Finance, inilabas ng Coinbase ang isang post-mortem report tungkol sa malawakang pagkabigo ng serbisyo noong Mayo 7, 2026. Ang pagkabigo ay tumagal ng humigit-kumulang 8 na oras, at ang buong pagbabalik ay nangangailangan ng humigit-kumulang 12 na oras, kung saan ang pagtutustos, pagdeposito, pagwithdraw, at karamihan sa mga pangunahing serbisyo ay hindi magagamit o malubhang nabawasan. Sinabi ng Coinbase na ang sanhi ng pagkabigo ay ang pagkabigo ng maraming air conditioning units sa isang data center sa availability zone (use1-az4) ng AWS us-east-1, na nagresulta sa thermal protection shutdown ng mga cabinet, na nagdulot ng pagbaba ng EC2 instances at EBS volumes, at nag-apekto sa iba’t ibang internet services. Sa proseso ng pagbabalik, nawala ang quorum ng Coinbase trading engine dahil sa kanyang cluster architecture na nakadeploy sa isang AWS data center lamang, kaya kailangan ng pagsasagawa ng code adjustment at pagbuo ng bagong node group upang muling i-activate ito, at ang mga merkado ay muling i-start nang paulit-ulit habang binabawi ang operasyon. Bukod dito, may naganap na control plane failure sa AWS-hosted Kafka (MSK) service, na nagresulta sa hindi kayang awtomatikong mag-re-elect ng partition leaders, na nag-udyok pa sa pagkabigo ng mga quote, fee, at ilang settlement at data flow systems, na lumawak sa kabuuang epekto. Pagkatapos ng collaborative manual partition migration ng Coinbase at AWS engineering teams, unti-unting bumalik ang sistema. Sinabi ng Coinbase na ipinakita ng insidente ang kawalan ng kakayahan nito sa automatic failover sa pagitan ng availability zones at sa disaster recovery ng hosted middleware. Ang kumpanya ay mag-uupgrade sa cross-region hot standby architecture, magpapalakas ng regular na disaster drills, at magpapalipat ng Kafka system mula sa dalawang availability zones patungo sa tatlo, samantala ay magtatrabaho kasama ang AWS upang ayusin ang root cause at gawin ang mga pagpapabuti.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.