- Une défaillance du refroidissement AWS a forcé Coinbase à passer en mode « uniquement annulation », perturbant les échanges, les soldes et l'accès au compte.
- Coinbase a rétabli les services progressivement après avoir déplacé les charges de travail hors des systèmes d'infrastructure AWS affectés.
- Une panne a accru la pression après des résultats faibles, incitant à revoir l'architecture de la plateforme d'échange et la gestion des pannes.
Coinbase a arrêté certaines parties de sa plateforme de trading le 8 mai après une défaillance de refroidissement dans un centre de données AWS qui a perturbé l'infrastructure critique de l'échange. Selon le PDG de Coinbase, Brian Armstrong, plusieurs chiller ont échoué au sein d'une installation AWS, provoquant une surchauffe qui a affecté l'accès au trading, l'affichage des soldes et l'exécution des ordres. La panne a contraint Coinbase à réévaluer la manière dont son échange gère les défaillances d'infrastructure pendant des conditions de marché volatiles.
Échec d'AWS perturbe les systèmes de trading de Coinbase
Selon Brian Armstrong, la plupart des systèmes de Coinbase ont géré la perturbation de la zone de disponibilité AWS comme prévu. Toutefois, l'infrastructure de la plateforme d'échange centralisée n'a pas pu maintenir un fonctionnement normal pendant l'incident.
Coinbase a placé les marchés en mode « Annulation uniquement » pendant plusieurs heures. Pendant cette période, les utilisateurs pouvaient annuler les commandes, mais ne pouvaient pas ouvrir de trades.
De plus, les clients ont signalé des mises à jour retardées de leurs soldes et des défaillances de connexion temporaires. La perturbation a affecté la plateforme d'échange Coinbase, Prime, International et les produits dérivés.
Armstrong a déclaré que les systèmes d'échange utilisent des architectures axées sur la faible latence et la co-localisation des clients. Toutefois, ces systèmes impliquent actuellement des compromis lors de grandes pannes d'infrastructure.
Il a déclaré que Coinbase réévaluerait ces compromis après la panne. Il a également noté que l'entreprise souhaite réduire les temps d'arrêt lors des futures migrations de zone de disponibilité.
Processus de récupération déployé par étapes
Pendant ce temps, Rob Witoff, chef du département ingénierie de Coinbase, a expliqué comment l'entreprise a rétabli ses services pendant la nuit. Selon Witoff, les systèmes internes ont commencé à échouer tard le 7 mai, déclenchant des procédures de récupération d'urgence.
Coinbase a ensuite déplacé les charges de travail hors de l'infrastructure AWS affectée. Ensuite, les ingénieurs ont rétabli les systèmes de trading progressivement, au lieu de réouvrir tout simultanément.
La plateforme d'échange a d'abord activé la fonctionnalité d'annulation uniquement avant de passer en mode aux enchères. Plus tard, Coinbase a rétabli le trading complet après avoir effectué des vérifications supplémentaires sur le produit.
Witoff a reconnu que les clients ont temporairement perdu l'accès à leurs comptes et aux fonctions de trading. Il a ajouté que les systèmes de messagerie interne retardés ont également ralenti la synchronisation des soldes.
La pression sur les bénéfices aggrave les préoccupations liées à l'infrastructure
Notamment, la panne est survenue peu après la publication des résultats du premier trimestre inférieurs aux attentes de Coinbase. L'entreprise a également annoncé son projet de réduire son effectif de 14 %.
Malgré ces développements, Coinbase a déclaré une part de marché de 8,6 % pour les échanges de crypto-monnaies au cours du trimestre. Les revenus provenant des dérivés de détail ont également dépassé 200 millions de dollars par an.
AWS a ultérieurement confirmé que la perturbation provenait d'une augmentation des températures à l'intérieur d'un centre de données de Virginie du Nord. L'entreprise a déclaré avoir augmenté sa capacité de refroidissement et réacheminé le trafic pendant les efforts de récupération.



