Selon Mars Finance, Coinbase a publié un rapport d'analyse post-incident concernant la panne majeure survenue le 7 mai 2026. Cette défaillance a duré environ 8 heures, avec une restauration complète prenant environ 12 heures ; pendant cette période, les transactions, les dépôts, les retraits et la plupart des services essentiels ont été indisponibles ou gravement dégradés. Coinbase a indiqué que la cause de la panne était la défaillance simultanée de plusieurs unités de refroidissement dans le centre de données de la zone de disponibilité use1-az4 de la région AWS us-east-1, ce qui a déclenché un arrêt de sécurité thermique des armoires, entraînant la déconnexion des instances EC2 et des volumes EBS, et affectant plusieurs services Internet. Pendant la récupération, le moteur de matching des transactions de Coinbase, en raison de son architecture cluster déployée dans un seul centre de données AWS, a perdu sa quorum en perdant la majorité de ses nœuds, obligeant l'équipe à effectuer des ajustements de code urgents et à reconstruire un nouveau groupe de nœuds pour rétablir le fonctionnement, tout en redémarrant progressivement les marchés pendant la restauration. De plus, le service Kafka hébergé par AWS (MSK) a subi une défaillance du plan de contrôle, empêchant la réélection automatique des nœuds principaux des partitions, ce qui a bloqué davantage les cotes, les frais et certains systèmes de règlement et de flux de données, élargissant ainsi l'impact global. Après une migration manuelle des partitions effectuée en collaboration avec les équipes d'ingénierie d'AWS, le système est progressivement revenu à la normale. Coinbase a reconnu que cet incident a révélé des lacunes dans sa capacité de basculement automatique entre zones de disponibilité et dans la résilience des middleware hébergés. L'entreprise prévoit d'améliorer son architecture de sauvegarde à chaud inter-régions, de renforcer les exercices de panne réguliers, et de migrer le système Kafka d'une configuration à deux zones de disponibilité vers une configuration à trois zones de disponibilité, tout en collaborant avec AWS pour corriger les causes racines et mettre en œuvre des améliorations.
Coinbase Post-Mortem révèle les risques de défaillance en cascade AWS
MarsBitPartager






Le post-mortem de Coinbase sur sa panne du 7 mai 2026 révèle les risques liés à la dépendance à une seule zone de disponibilité, avec l'indice de peur et de cupidité probablement affecté pendant la perturbation de huit heures. Une défaillance du système de refroidissement dans un centre de données AWS a provoqué des pannes EC2 et EBS, obligeant à des corrections d'urgence. Les ingénieurs ont migré manuellement les partitions Kafka pour rétablir les flux de données. L'entreprise prévoit d'adopter une configuration Kafka à trois zones de disponibilité et d'intensifier les exercices de reprise après sinistre. Les altcoins à surveiller pourraient réagir à de tels risques systémiques sur le marché plus large.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.