- AWS 冷卻故障迫使 Coinbase 進入僅取消模式,導致交易、餘額和帳戶存取中斷。
- Coinbase 在將工作負載移離受影響的 AWS 基礎設施系統後,逐步恢復了服務。
- 營運中斷在業績疲弱後加劇了壓力,促使對交易所架構與故障處理進行審查。
Coinbase 於 5 月 8 日因 AWS 數據中心冷卻系統故障,導致關鍵交易所基礎設施中斷,暫停了部分交易平台。根據 Coinbase 執行長 Brian Armstrong 的說法,AWS 設施內多台冷卻器 失效,造成過熱,影響了交易存取、餘額顯示和訂單執行。此次中斷迫使 Coinbase 重新評估其交易所於市場波動期間應對基礎設施故障的方式。
AWS 故障導致 Coinbase 交易系統中斷
根據 Brian Armstrong 的說法,大多數 Coinbase 系統按設計處理了 AWS 可用區的中斷情況。然而,中心化交易所基礎設施在此次事件中未能維持正常運作。
Coinbase 將市場轉為「僅可取消」模式數小時。在此期間,用戶可以取消訂單,但無法開立交易。
此外,客戶報告了餘額更新延遲和臨時連接失敗的問題。此次中斷影響了 Coinbase 交易所、Prime、國際業務及衍生產品。
Armstrong 表示,交易所系統採用專注於低延遲和客戶同地部署的架構。然而,這些系統在大型基礎設施故障時現有設計需做出妥協。
他表示,Coinbase 將在停機後重新評估這些取捨。他也指出,公司希望在未來的可用性區域遷移期間減少停機時間。
恢復程序分階段推出
同時,Coinbase 工程負責人 Rob Witoff 解釋了公司如何在夜間恢復服務。根據 Witoff 的說法,內部系統於 5 月 7 日晚開始出現故障,促使公司啟動緊急恢復程序。
Coinbase 隨後將工作負載從受影響的 AWS 基礎設施轉移。之後,工程師逐步恢復交易系統,而非同時重新開啟所有系統。
交易所首先啟用僅取消功能,然後進入競價模式。隨後,Coinbase 在完成額外產品檢查後恢復了完整交易。
Witoff 承認客戶暫時無法存取帳戶和交易功能。他補充說,內部訊息系統的延遲也減緩了餘額同步。
收益壓力加劇了對基礎設施的擔憂
值得注意的是,此次停機發生在 Coinbase 發布低於預期的 第一季財報 後不久。公司還宣布計劃裁員 14%。
儘管有這些發展,Coinbase 在本季度的加密貨幣交易市場份額為 8.6%。零售衍生產品收入也超過了每年 2 億美元。
AWS 後來確認,此次中斷源於維吉尼亞州北部一個數據中心內部溫度上升。該公司表示,在恢復過程中已增加冷卻能力並重新導向流量。



