- AWSの冷却障害により、Coinbaseは注文取消し専用モードに移行し、取引、残高、口座へのアクセスが妨げられました。
- Coinbaseは、影響を受けたAWSインフラストラクチャシステムからワークロードを移行した後、サービスを段階的に復旧しました。
- 弱い業績後のサービス停止が圧力を高め、取引所アーキテクチャと障害対応の見直しを促した。
Coinbaseは、5月8日にAWSのデータセンターの冷却システム障害により、取引所の重要なインフラが混乱したため、取引プラットフォームの一部を一時停止しました。CoinbaseのCEOであるBrian Armstrongによると、AWS施設内の複数の冷却装置故障し、過熱が取引アクセス、残高表示、注文実行に影響を与えました。この障害により、Coinbaseは市場が不安定な状況下で取引所がインフラ障害に対処する方法を見直す必要に迫られました。
AWSの障害によりCoinbaseの取引システムが混乱
ブライアン・アームストロングによると、ほとんどのCoinbaseシステムはAWS可用性ゾーンの障害に対して設計通りに動作しました。しかし、中央集権的な取引所インフラは、この出来事中に通常の運用を維持できませんでした。
Coinbaseは数時間にわたり、市場を「キャンセルのみ」モードに移行しました。その期間中、ユーザーは注文をキャンセルできましたが、新規取引を開くことはできませんでした。
また、顧客から残高更新の遅延や一時的な接続障害が報告されました。この障害はCoinbase取引所、Prime、International、およびデリバティブ製品に影響を与えました。
アームストロングは、取引所システムは低遅延と顧客のコロケーションに焦点を当てたアーキテクチャを使用していると述べた。しかし、これらのシステムは大規模なインフラ障害時に現在、トレードオフを伴っている。
彼は、障害後にCoinbaseがそのトレードオフを見直すと述べました。また、同社は今後のAvailability Zone移行中のダウンタイムを削減したいとも指摘しました。
回復プロセスは段階的に実施されました
一方、Coinbaseのエンジニアリングリーダーであるロブ・ウィトフは、同社が夜間にサービスを復旧させた方法を説明した。ウィトフによると、内部システムは5月7日深夜に故障し始め、緊急復旧手順が実行された。
Coinbaseは、影響を受けたAWSインフラからワークロードを移行しました。その後、エンジニアはすべてを同時に再開するのではなく、段階的に取引システムを復旧させました。
取引所はオークションモードに入る前に、キャンセル専用機能を最初に有効化しました。その後、Coinbaseは追加の製品チェックを完了した後、フルトレーディングを復元しました。
ウィトフは、顧客が一時的に口座および取引機能にアクセスできなくなったことを認めた。また、内部メッセージシステムの遅延により残高の同期が遅れたとも追加した。
収益圧力がインフラへの懸念を強めている
注目すべきは、この障害がCoinbaseが予想より弱い第1四半期の業績を発表した直後に発生したことです。同社はまた、従業員数を14%削減する計画を発表しました。
そのような進展にもかかわらず、Coinbaseは当四半期の暗号資産取引市場シェアを8.6%と報告しました。小売向けデリバティブの収益も年間2億ドルを上回りました。
AWSはその後、この障害がバージニア州北部のデータセンター内の温度上昇に起因したことを確認しました。同社は、復旧作業中に冷却能力を拡大し、トラフィックを再配向したと述べました。



