A Coinbase está revisando sua infraestrutura de exchange após uma falha de refrigeração em um data center da AWS ter desativado vários serviços de negociação, bloqueado o acesso a algumas contas e atrasado a exibição dos saldos dos clientes. O CEO Brian Armstrong chamou a interrupção de “inaceitável” e disse que a Coinbase revisará os compromissos em torno de velocidade, co-localização e recuperação mais rápida durante falhas de infraestrutura.
Principais conclusões:
- O CEO da Coinbase, Brian Armstrong, chamou a interrupção da exchange ligada à AWS de inaceitável para os clientes.
- As operações de negociação, o acesso à conta e as informações da conta do cliente foram interrompidas em vários serviços da exchange Coinbase.
- A Coinbase planeja revisitar os compromissos de resiliência para reduzir a duração de futuras interrupções e o impacto aos clientes.
Armstrong diz que as compensações de resiliência serão revisadas
Crypto exchange Coinbase (Nasdaq: COIN) explicou como uma falha de refrigeração em um data center da AWS desencadeou uma interrupção de serviço que afetou o comércio, o acesso ao exchange e os dados das contas dos clientes em toda a plataforma. O CEO da Coinbase, Brian Armstrong, abordou o incidente no X, enquanto o líder de engenharia, Rob Witoff, detalhou o processo de recuperação e o impacto aos clientes.
“Nós experimentamos uma interrupção no Coinbase na noite passada, o que nunca é aceitável”, escreveu Armstrong em 8 de maio. Ele acrescentou que a maioria dos sistemas do Coinbase foi projetada para resistir a tempo de inatividade em uma Zona de Disponibilidade da AWS, mas o exchange centralizado não respondeu dessa forma durante a interrupção. “É possível tornar exchanges resistentes a falhas de AZ, mas isso pode introduzir atrasos de latência que não são desejáveis, além de comprometer a co-localização do cliente”, afirmou Armstrong, acrescentando:
Diante desse incidente, revisaremos esses compromissos para garantir que você tenha o melhor ambiente possível para negociação. No mínimo, a duração de uma interrupção deve ser significativamente reduzida quando for necessário um movimento de AZ.
Armstrong observou que a Coinbase revisará como equilibra a velocidade da exchange, a co-localização do cliente e o tempo de recuperação após falhas na infraestrutura. Seus comentários focaram em reduzir o impacto e a duração de futuras interrupções que afetam o acesso do cliente e a atividade de negociação.
Como a Coinbase restaurou as negociações e as atualizações de saldo
O líder de engenharia da Coinbase, Rob Witoff, postou no X que a interrupção começou no final de 7 de maio, quando os sistemas internos começaram a falhar e equipes de emergência começaram a investigar. A interrupção afetou a negociação à vista, o Prime, o Internacional e os exchanges de derivados. Os clientes também enfrentaram problemas para acessar os serviços da exchange, realizar negociações e visualizar saldos de conta.
Witoff explicou que as negociações foram interrompidas após os sistemas da exchange não conseguirem continuar operando com segurança durante a interrupção da infraestrutura. Ele também observou que os sistemas internos de mensagens desaceleraram, causando atrasos em algumas informações da conta até que o processo de recuperação se recuperasse. Ele reconheceu:
Perder o acesso à sua conta, mesmo que temporariamente, é inaceitável.
A recuperação foi realizada em etapas, e não de uma só vez. A Coinbase transferiu as cargas de trabalho afetadas para longe da área com problemas, restaurou os sistemas necessários para processar negociações e permitiu que os dados dos clientes atrasados se atualizassem. Os mercados reabriram com cuidado, começando com o modo somente cancelamento, seguido por verificações de produtos, modo de leilão e, por fim, a restauração das negociações na Coinbase Exchange.
