- El fallo de enfriamiento de AWS obligó a Coinbase a entrar en modo solo cancelación, interrumpiendo el comercio, los saldos y el acceso a la cuenta.
- Coinbase restauró los servicios gradualmente después de trasladar las cargas de trabajo lejos de los sistemas de infraestructura de AWS afectados.
- La interrupción aumentó la presión tras unos resultados débiles, lo que provocó una revisión de la arquitectura del exchange y el manejo de fallos.
Coinbase detuvo partes de su plataforma de negociación el 8 de mayo tras un fallo de enfriamiento en un centro de datos de AWS que interrumpió la infraestructura crítica del exchange. Según el CEO de Coinbase, Brian Armstrong, varios chillers fallaron dentro de una instalación de AWS, causando sobrecalentamiento que afectó el acceso a la negociación, la visualización de saldos y la ejecución de órdenes. La interrupción obligó a Coinbase a reevaluar cómo su exchange maneja los fallos de infraestructura durante condiciones de mercado volátiles.
Fallo de AWS interrumpe los sistemas de trading de Coinbase
Según Brian Armstrong, la mayoría de los sistemas de Coinbase gestionaron la interrupción de la zona de disponibilidad de AWS según lo previsto. Sin embargo, la infraestructura del exchange centralizado no logró mantener operaciones normales durante el incidente.
Coinbase movió los mercados al modo “Solo cancelar” durante varias horas. Durante ese período, los usuarios podían cancelar órdenes pero no podían abrir operaciones.
Además, los clientes informaron actualizaciones retrasadas de saldos y fallas temporales de conexión. La interrupción afectó al exchange Coinbase, Prime, International y productos derivados.
Armstrong dijo que los sistemas de exchange utilizan arquitecturas enfocadas en baja latencia y co-localización con el cliente. Sin embargo, esos sistemas actualmente implican compromisos durante fallas grandes de infraestructura.
Él indicó que Coinbase reevaluaría esos compromisos después del apagón. También señaló que la empresa desea reducir el tiempo de inactividad durante futuras migraciones de Zonas de Disponibilidad.
Proceso de recuperación implementado en etapas
Mientras tanto, el líder de ingeniería de Coinbase, Rob Witoff, explicó cómo la empresa restauró los servicios durante la noche. Según Witoff, los sistemas internos comenzaron a fallar a finales del 7 de mayo, lo que provocó procedimientos de recuperación de emergencia.
Coinbase luego migró las cargas de trabajo fuera de la infraestructura AWS afectada. Después, los ingenieros restauraron los sistemas de negociación gradualmente en lugar de reabrirlo todo simultáneamente.
El exchange primero activó la funcionalidad solo cancelar antes de pasar al modo de subasta. Más tarde, Coinbase restauró el comercio completo tras completar controles adicionales del producto.
Witoff reconoció que los clientes perdieron temporalmente el acceso a sus cuentas y funciones de trading. Añadió que los sistemas internos de mensajería retrasados también ralentizaron la sincronización de saldos.
La presión sobre las ganancias agrava las preocupaciones sobre la infraestructura
Notablemente, el apagón ocurrió poco después de que Coinbase publicara sus resultados del primer trimestre más débiles de lo esperado. La empresa también anunció planes para reducir su plantilla en un 14%.
A pesar de esos desarrollos, Coinbase informó una cuota de mercado del 8,6% en el intercambio de criptomonedas durante el trimestre. Los ingresos por derivados al por menor también superaron los 200 millones de dólares anuales.
AWS confirmó más tarde que la interrupción se debió al aumento de temperaturas dentro de un centro de datos en el norte de Virginia. La empresa dijo que aumentó la capacidad de refrigeración y redirigió el tráfico durante los esfuerzos de recuperación.



