Coinbase revela los riesgos de fallas en cascada de AWS

icon MarsBit
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
El análisis posterior al incidente de Coinbase sobre su interrupción del 7 de mayo de 2026 muestra los riesgos de depender de una sola zona de disponibilidad, con el índice de miedo y codicia probablemente afectado durante la interrupción de 8 horas. Un fallo en el sistema de enfriamiento en un centro de datos de AWS causó interrupciones en EC2 y EBS, obligando a soluciones de emergencia. Los ingenieros migraron manualmente particiones de Kafka para restaurar los flujos de datos. La empresa planea adoptar una configuración de Kafka con tres zonas de disponibilidad y aumentar los ejercicios de recuperación ante desastres. Las altcoins a vigilar podrían reaccionar a tales riesgos sistémicos en el mercado en general.

Noticia de Huoxing Finance: Coinbase publicó un informe de revisión del incidente de interrupción masiva de servicios del 7 de mayo de 2026. Este fallo duró aproximadamente 8 horas, y se necesitaron alrededor de 12 horas para una recuperación completa; durante este período, las operaciones, depósitos, retiros y la mayoría de los servicios clave estuvieron inaccessibles o severamente degradados. Coinbase indicó que la causa del fallo fue la falla simultánea de múltiples unidades de refrigeración en el sistema de enfriamiento de un centro de datos en la zona de disponibilidad use1-az4 de la región us-east-1 de AWS, lo que provocó un apagado por protección térmica en los gabinetes, causando la desconexión de instancias EC2 y volúmenes EBS, y afectando múltiples servicios de internet. Durante la recuperación, el motor de emparejamiento de operaciones de Coinbase perdió quórum debido a que su arquitectura de clúster, implementada en un único centro de datos de AWS, perdió la mayoría de sus nodos, lo que requirió una recuperación urgente mediante ajustes de código y la reconstrucción de un nuevo grupo de nodos, reiniciando gradualmente las operaciones del mercado durante el proceso. Además, el servicio Kafka gestionado por AWS (MSK) experimentó un fallo en el plano de control, impidiendo la reelección automática de los líderes de partición, lo que bloqueó adicionalmente los precios, las tarifas y algunos sistemas de liquidación y flujo de datos, ampliando el alcance general del impacto. Tras una migración manual de particiones realizada en colaboración con los equipos de ingeniería de Coinbase y AWS, el sistema se fue recuperando gradualmente. Coinbase señaló que este incidente reveló deficiencias en su capacidad para conmutación automática entre zonas de disponibilidad y en la resiliencia de middleware gestionado. La empresa actualizará su arquitectura de respaldo en caliente entre regiones, fortalecerá los ejercicios periódicos de fallas y migrará el sistema Kafka de una implementación en dos zonas de disponibilidad a una en tres zonas, además de colaborar con AWS para abordar las causas raíz y realizar mejoras.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.