- Falha de refrigeração da AWS forçou a Coinbase a entrar no modo somente cancelamento, interrompendo negociações, saldos e acesso à conta.
- A Coinbase restaurou os serviços gradualmente após migrar as cargas de trabalho longe dos sistemas de infraestrutura da AWS afetados.
- A interrupção aumentou a pressão após resultados fracos, levando à revisão da arquitetura da exchange e do tratamento de falhas.
A Coinbase interrompeu partes de sua plataforma de negociação em 8 de maio após uma falha de refrigeração em um data center da AWS perturbar a infraestrutura crítica da exchange. Segundo o CEO da Coinbase, Brian Armstrong, múltiplos chillers fallaram dentro de uma instalação da AWS, causando superaquecimento que afetou o acesso à negociação, a exibição de saldos e a execução de ordens. A interrupção forçou a Coinbase a reassessar como sua exchange lida com falhas de infraestrutura durante condições de mercado voláteis.
Falha na AWS interrompe os sistemas de negociação da Coinbase
De acordo com Brian Armstrong, a maioria dos sistemas da Coinbase lidou com a interrupção da Zona de Disponibilidade da AWS conforme projetado. No entanto, a infraestrutura da exchange centralizada não conseguiu manter operações normais durante o incidente.
A Coinbase move os mercados para o modo “Apenas Cancelar” por várias horas. Durante esse período, os usuários podiam cancelar ordens, mas não podiam abrir negociações.
Além disso, os clientes relataram atualizações atrasadas de saldo e falhas temporárias de conexão. A interrupção afetou o Coinbase Exchange, Prime, International e produtos derivados.
Armstrong disse que os sistemas de exchange utilizam arquiteturas focadas em baixa latência e co-localização de clientes. No entanto, esses sistemas atualmente envolvem compromissos durante grandes falhas de infraestrutura.
Ele afirmou que a Coinbase revisaria esses compromissos após a interrupção. Ele também observou que a empresa deseja reduzir o tempo de inatividade durante futuras migrações de Zonas de Disponibilidade.
Processo de recuperação implementado em etapas
Enquanto isso, o líder de engenharia da Coinbase, Rob Witoff, explicou como a empresa restaurou os serviços durante a noite. Segundo Witoff, os sistemas internos começaram a falhar no final de 7 de maio, acionando procedimentos de recuperação de emergência.
A Coinbase então transferiu as cargas de trabalho para longe da infraestrutura AWS afetada. Depois, os engenheiros restauraram os sistemas de negociação gradualmente, em vez de reabrir tudo simultaneamente.
A exchange primeiro ativou a funcionalidade apenas cancelar antes de entrar no modo de leilão. Posteriormente, a Coinbase restaurou o comércio completo após concluir verificações adicionais do produto.
Witoff reconheceu que os clientes perderam temporariamente o acesso às contas e às funções de negociação. Ele acrescentou que sistemas internos de mensagens atrasados também retardaram a sincronização dos saldos.
Pressão sobre os lucros agrava preocupações com infraestrutura
Notavelmente, a interrupção ocorreu pouco após a Coinbase divulgar resultados do primeiro trimestre abaixo do esperado first-quarter earnings. A empresa também anunciou planos de reduzir sua força de trabalho em 14%.
Apesar desses desenvolvimentos, a Coinbase relatou uma participação de mercado de negociação de criptomoedas de 8,6% durante o trimestre. A receita de derivados varejistas também superou US$ 200 milhões anualmente.
A AWS posteriormente confirmou que a interrupção decorreu do aumento das temperaturas dentro de um centro de dados na Virgínia Norte. A empresa disse que aumentou a capacidade de refrigeração e redirecionou o tráfego durante os esforços de recuperação.



