Coinbaseは、AWSのデータセンターの冷却障害により複数の取引サービスが利用不能になり、一部の口座アクセスがブロックされ、顧客の残高表示が遅れたことを受けて、取引所インフラを見直しています。CEOのブライアン・アームストロングは、この障害を「容認できない」と呼び、インフラ障害時の速度、コロケーション、迅速な回復に関するトレードオフを見直すと述べました。
主要なポイント:
- CoinbaseのCEOであるBrian Armstrongは、AWSに関連する取引所の障害を顧客にとって許容できないと述べました。
- 複数のCoinbase取引所サービスで、取引、アカウントへのアクセス、および顧客アカウント情報が一時的に障害を起こしました。
- Coinbaseは、今後のサービス停止時間と顧客への影響を軽減するため、耐障害性のトレードオフを見直す予定です。
アームストロング氏は、耐性のトレードオフを見直すと述べました
Crypto取引所Coinbase(ナスダック:COIN)は、AWSのデータセンターの冷却システム障害が、プラットフォーム全体の取引、取引所へのアクセス、顧客口座データに影響を及ぼすサービス障害を引き起こした理由を説明しました。CoinbaseのCEOであるBrian ArmstrongはX上でこの出来事について対応し、エンジニアリング責任者のRob Witoffが復旧プロセスと顧客への影響を詳細に説明しました。
「昨夜、Coinbaseで障害が発生しましたが、これは決して許容できません」と、アームストロングは5月8日に記しました。彼は、Coinbaseのほとんどのシステムが1つのAWS可用性ゾーンでのダウンタイムに耐えるように設計されていると追加しましたが、中央集権的取引所は障害発生時にそのように動作しませんでした。「取引所をAZ障害に耐性を持たせることは可能ですが、これは望ましくない遅延を引き起こし、顧客のコロケーションを破壊する可能性があります」とアームストロングは述べ、続けて:
この出来事を受けて、皆様に最適な取引環境を提供できるよう、これらのトレードオフを見直します。少なくとも、AZ移行が必要な場合、停止時間は大幅に短縮できるようにする必要があります。
アームストロングは、Coinbaseが取引所の速度、顧客のコロケーション、インフラ障害後の回復時間のバランスを見直すと述べました。彼の発言は、顧客のアクセスや取引活動に影響を与える今後の停止の影響と継続時間を軽減することに焦点を当てていました。
Coinbaseが取引と残高更新を復元した方法
Coinbaseのエンジニアリングリーダーであるロブ・ウィトフは、Xで5月7日の深夜に内部システムの障害が発生し、緊急チームが調査を開始したと投稿しました。この障害は現物取引、Prime、国際取引、およびデリバティブ取引所に影響を与えました。顧客は取引所サービスへのアクセス、取引の実行、および口座残高の確認で問題を経験しました。
ウィトフは、インフラの障害中に取引所のシステムが安全に運用できなくなったため、取引が停止されたと説明しました。また、内部のメッセージシステムが遅延し、回復プロセスが追いつくまで一部の口座情報が遅れたことも指摘しました。彼は次のように認めました:
アカウントへのアクセスを失うことは、一時的であっても許されません。
回復は一括でなく段階的に実施されました。Coinbaseは影響を受けたワークロードを問題のある領域から移動させ、取引を処理するために必要なシステムを復元し、遅れていた顧客データの追いつきを許可しました。市場は慎重に再開され、最初にキャンセルのみモード、次に製品チェック、オークションモードを経て、Coinbase取引所での取引が復元されました。
