- A atualização v1.72 do Sui introduziu dois bugs separados que causaram três interrupções no mainnet.
- Os dois primeiros bloqueios surgiram de uma falha na cobrança de gás relacionada aos novos saldos de endereço.
- Um bug separado no estado de aleatoriedade desencadeou a terceira interrupção após a reinicialização dos validadores.
A Sui Foundation lançou um pós-morte detalhado explicando as três interrupções separadas que paralisaram a rede em 28 e 29 de maio.
De acordo com a foundation, dois bugs introduzidos pela versão de software v1.72 causaram as interrupções. Os incidentes desativaram a blockchain Layer-1 três vezes em menos de dois dias e desencadearam uma queda acentuada no preço do token SUI.
SUI caiu cerca de 8% durante a sequência de interrupção, atingindo um mínimo próximo a $0,90. O token estava negociando em torno de $0,90 na segunda-feira e apresentava queda de aproximadamente 19% na semana.
A fundação afirmou que nenhum fundo de usuário esteve em risco durante qualquer das interrupções e nenhuma transação concluída foi revertida.
Novo recurso acionou falha na cobrança de gás
As duas primeiras interrupções estiveram ligadas a uma falha no sistema de cobrança de gás da rede. A versão 1.72 introduziu “saldo de endereços”, um recurso projetado para permitir que os usuários paguem taxas de transação diretamente dos saldos das contas, em vez de depender inteiramente de objetos de moeda.
A atualização também introduziu novos caminhos de pagamento que combinam saldos de endereços com pagamentos tradicionais baseados em moedas. O problema apareceu quando várias transações tentaram gastar o mesmo saldo ao mesmo tempo.
Em certos casos, uma transação poderia ser cancelada porque não havia fundos suficientes disponíveis. No entanto, parte do sistema de processamento de taxas ainda tentou cobrar esses fundos após o cancelamento. Isso criou um saldo negativo durante o liquidação, causando falhas nos validadores.
A primeira interrupção começou por volta das 7h PT em 28 de maio e durou até cerca de 13h30 PT. Para restaurar a rede rapidamente, os desenvolvedores implementaram uma correção provisória. A equipe reconheceu na época que o patch continha um risco conhecido de baixa probabilidade que ainda poderia interromper a rede. No entanto, o risco se materializou na manhã seguinte.
Patch de emergência levou a uma segunda interrupção
O segundo outage começou por volta das 5h PT em 29 de maio. Sui disse que algumas transações podem falhar por múltiplos motivos simultaneamente. Em um cenário, o erro de fundos insuficientes que o patch foi projetado para detectar foi ocultado por outro erro de cancelamento.
Como o erro original estava oculto, a correção temporária não conseguiu impedir que a mesma condição de saldo negativo ocorresse novamente.
Os validadores entraram em colapso pela segunda vez com o mesmo problema de underflow subjacente. Os desenvolvedores concluíram uma correção mais abrangente, e suficientes validadores atualizaram para restaurar a rede por volta das 9:40 da manhã, horário da PT.
Bug de aleatoriedade causou o terceiro desligamento
A terceira interrupção não estava relacionada ao bug de gás em si. Após os validadores reiniciarem para instalar a segunda correção, a participação no processo de configuração da aleatoriedade da rede caiu abaixo do limiar necessário.
O sistema de aleatoriedade desativou-se automaticamente conforme projetado. No entanto, um bug separado impediu os validadores de salvar esse estado desativado no disco. Quando os validadores foram reiniciados novamente, assumiram incorretamente que o processo de aleatoriedade ainda estava ativo.
Aplicações que dependiam de aleatoriedade on-chain não puderam executar nem falhar, causando o acúmulo de transações em uma fila pausada. A rede ficou travada durante a próxima transição de época porque não conseguiu esvaziar completamente essa fila.
O terceiro bloqueio começou por volta das 13:30 PT e durou até aproximadamente 19:20 PT. Os desenvolvedores corrigiram o bug de persistência e adicionaram um novo mecanismo que permite aos validadores encerrar forçadamente uma época travada quando necessário.
A fundação também revelou que ferramentas internas baseadas em IA ajudaram os engenheiros a diagnosticar os incidentes mais rapidamente, consultando logs de validadores, analisando dados de produção e reunindo métricas operacionais durante os esforços de recuperação.
Relacionado: Sui Mainnet congela novamente, levantando preocupações sobre confiabilidade
Disclaimer: As informações apresentadas neste artigo são apenas para fins informativos e educacionais. O artigo não constitui aconselhamento financeiro ou qualquer outro tipo de aconselhamento. A Coin Edition não se responsabiliza por quaisquer perdas decorrentes do uso do conteúdo, produtos ou serviços mencionados. Recomenda-se aos leitores que exerçam cautela antes de tomar qualquer ação relacionada à empresa.

