Coinbase revela los riesgos de fallas en cascada de AWS

Noticia de Huoxing Finance: Coinbase publicó un informe de revisión del incidente de interrupción masiva de servicios del 7 de mayo de 2026. Este fallo duró aproximadamente 8 horas, y se necesitaron alrededor de 12 horas para una recuperación completa; durante este período, las operaciones, depósitos, retiros y la mayoría de los servicios clave estuvieron inaccessibles o severamente degradados. Coinbase indicó que la causa del fallo fue la falla simultánea de múltiples unidades de refrigeración en el sistema de enfriamiento de un centro de datos en la zona de disponibilidad use1-az4 de la región us-east-1 de AWS, lo que provocó un apagado por protección térmica en los gabinetes, causando la desconexión de instancias EC2 y volúmenes EBS, y afectando múltiples servicios de internet. Durante la recuperación, el motor de emparejamiento de operaciones de Coinbase perdió quórum debido a que su arquitectura de clúster, implementada en un único centro de datos de AWS, perdió la mayoría de sus nodos, lo que requirió una recuperación urgente mediante ajustes de código y la reconstrucción de un nuevo grupo de nodos, reiniciando gradualmente las operaciones del mercado durante el proceso. Además, el servicio Kafka gestionado por AWS (MSK) experimentó un fallo en el plano de control, impidiendo la reelección automática de los líderes de partición, lo que bloqueó adicionalmente los precios, las tarifas y algunos sistemas de liquidación y flujo de datos, ampliando el alcance general del impacto. Tras una migración manual de particiones realizada en colaboración con los equipos de ingeniería de Coinbase y AWS, el sistema se fue recuperando gradualmente. Coinbase señaló que este incidente reveló deficiencias en su capacidad para conmutación automática entre zonas de disponibilidad y en la resiliencia de middleware gestionado. La empresa actualizará su arquitectura de respaldo en caliente entre regiones, fortalecerá los ejercicios periódicos de fallas y migrará el sistema Kafka de una implementación en dos zonas de disponibilidad a una en tres zonas, además de colaborar con AWS para abordar las causas raíz y realizar mejoras.