Coinbase está revisando su infraestructura de exchange tras un fallo de enfriamiento en un centro de datos de AWS que desconectó varios servicios de negociación, bloqueó el acceso a algunas cuentas y retrasó la visualización de los saldos de los clientes. El CEO Brian Armstrong calificó el outage como “inaceptable” y dijo que Coinbase revisará los compromisos relacionados con la velocidad, la co-localización y la recuperación más rápida durante fallas de infraestructura.
Principales conclusiones:
- El CEO de Coinbase, Brian Armstrong, calificó como inaceptable para los clientes la interrupción del exchange vinculada a AWS.
- El comercio, el acceso a la cuenta y la información de la cuenta de los clientes se vieron interrumpidos en varios servicios de exchange de Coinbase.
- Coinbase planea revisar los compromisos de resiliencia para reducir la duración de futuras interrupciones y el impacto en los clientes.
Armstrong dice que se revisarán los compromisos de resiliencia
Crypto exchange Coinbase (Nasdaq: COIN) ha explicado cómo un fallo de enfriamiento en un centro de datos de AWS desencadenó una interrupción del servicio que afectó el comercio, el acceso al exchange y los datos de las cuentas de los clientes en toda la plataforma. El CEO de Coinbase, Brian Armstrong, abordó el incidente en X, mientras que el líder de ingeniería, Rob Witoff, detalló el proceso de recuperación y el impacto en los clientes.
“Anoche experimentamos una interrupción en Coinbase, lo cual nunca es aceptable”, escribió Armstrong el 8 de mayo. Añadió que la mayoría de los sistemas de Coinbase están diseñados para resistir tiempos de inactividad en una zona de disponibilidad de AWS, pero el exchange centralizado no respondió de esa manera durante la interrupción. “Es posible hacer que los exchanges sean resistentes a fallas de AZ, pero esto puede introducir retrasos de latencia que no son deseables, además de romper la co-localización del cliente”, afirmó Armstrong, añadiendo:
Dado este incidente, revisaremos estos compromisos para asegurar que les ofrecemos el mejor lugar posible para operar. Como mínimo, la duración de una interrupción debería poder reducirse considerablemente cuando sea necesario un cambio de AZ.
Armstrong señaló que Coinbase revisará cómo equilibra la velocidad del exchange, la co-localización de los clientes y el tiempo de recuperación tras fallos en la infraestructura. Sus comentarios se centraron en reducir el impacto y la duración de futuros cortes que afecten el acceso de los clientes y la actividad de trading.
Cómo Coinbase restauró las operaciones y las actualizaciones de saldos
El líder de ingeniería de Coinbase, Rob Witoff, publicó en X que la interrupción comenzó a finales del 7 de mayo, cuando los sistemas internos comenzaron a fallar y los equipos de emergencia comenzaron a investigar. La interrupción afectó el trading de spot, Prime, Internacional y exchanges derivados. Los clientes también experimentaron problemas para acceder a los servicios del exchange, realizar operaciones y ver los saldos de sus cuentas.
Witoff explicó que se suspendió el comercio después de que los sistemas del exchange no pudieran seguir operando con seguridad durante la interrupción de la infraestructura. También señaló que los sistemas internos de mensajería se ralentizaron, lo que provocó que cierta información de las cuentas se retrasara hasta que el proceso de recuperación se puso al día. Reconoció:
Pérdida de acceso a su cuenta, incluso temporalmente, es inaceptable.
La recuperación se gestionó en etapas en lugar de de forma simultánea. Coinbase trasladó las cargas de trabajo afectadas lejos de la zona problemática, restauró los sistemas necesarios para procesar operaciones y permitió que los datos de los clientes retrasados se pusieran al día. Los mercados se reabrieron con cuidado, comenzando con el modo solo cancelación, seguido de verificaciones de productos, modo subasta y luego se restauró el comercio en Coinbase Exchange.
