Coinbase Post-Mortem Revela Riscos de Falha em Cascata da AWS

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
O pós-mortem da Coinbase sobre sua interrupção em 7 de maio de 2026 mostra os riscos de depender de uma única zona de disponibilidade, com o índice de medo e ganância provavelmente afetado durante a interrupção de 8 horas. Uma falha no sistema de refrigeração em um data center da AWS causou interrupções no EC2 e no EBS, forçando correções de emergência. Engenheiros migraram manualmente partições do Kafka para restaurar os fluxos de dados. A empresa planeja adotar uma configuração Kafka com três zonas de disponibilidade e aumentar os treinos de recuperação de desastres. Altcoins para acompanhar podem reagir a esses riscos sistêmicos no mercado mais amplo.

Notícia da Mars Finance: Coinbase publicou um relatório de análise do grande incidente de interrupção de serviço em 7 de maio de 2026. O falha durou aproximadamente 8 horas, e a recuperação completa levou cerca de 12 horas, durante as quais negociações, depósitos, saques e a maioria dos serviços principais ficaram indisponíveis ou severamente degradados. A Coinbase informou que a causa do incidente foi a falha simultânea de múltiplos sistemas de refrigeração em um data center da zona de disponibilidade use1-az4 na região us-east-1 da AWS, o que desencadeou desligamentos por proteção térmica dos gabinetes, resultando na desconexão de instâncias EC2 e volumes EBS, e afetando diversos serviços da internet. Durante a recuperação, o motor de negociação da Coinbase perdeu o quórum devido à arquitetura de cluster implantada em um único data center da AWS, perdendo a maioria dos nós, exigindo ajustes de código emergenciais e a reconstrução de um novo grupo de nós para restaurar o funcionamento, com a reativação gradual das negociações de mercado durante o processo. Além disso, o serviço Kafka gerenciado pela AWS (MSK) sofreu uma falha no plano de controle, impedindo a reeleição automática dos líderes de partição, o que bloqueou ainda mais os fluxos de cotações, taxas e alguns sistemas de liquidação e dados, ampliando o escopo do impacto. Após a migração manual das partições realizada em conjunto pelas equipes de engenharia da Coinbase e da AWS, os sistemas retornaram gradualmente ao normal. A Coinbase afirmou que este incidente revelou deficiências em sua capacidade de migração automática entre zonas de disponibilidade e na resiliência de middleware gerenciado. A empresa planeja atualizar sua arquitetura de backup em tempo real entre regiões, fortalecer exercícios regulares de falha e migrar o sistema Kafka de uma implantação em duas zonas de disponibilidade para três zonas, além de colaborar com a AWS na correção das causas raiz e na implementação de melhorias.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.