Sui explica tres interrupciones del mainnet tras la actualización v1.72

Dos interrupciones se derivaron de un error de carga de gas que provocó el colapso de validadores cuando las transacciones fallidas activaron errores de saldo.
Un error separado en el estado de aleatoriedad causó la tercera interrupción al impedir que los validadores cerraran adecuadamente un epoch de red.
Sui dijo que ningún fondo de usuario fue afectado, implementó correcciones y añadió medidas de seguridad para mejorar la resiliencia de la red.

La Fundación Sui el domingo detallos las causas detrás de tres interrupciones del mainnet que interrumpieron las operaciones de la red durante el jueves y viernes, rastreando los incidentes a dos errores separados introducidos en la actualización del software v1.72. Las interrupciones ocurrieron mientras los validadores trabajaban para abordar problemas relacionados con la función de saldos de direcciones nuevas y un problema separado de estado de aleatoriedad. Según la fundación, ningún fondo de usuario estuvo en riesgo y ninguna transacción comprometida fue revertida durante la recuperación.

El error de carga de gas activó las dos primeras interrupciones

El primer apagón comenzó alrededor de las 7 a.m. PT el jueves y duró hasta aproximadamente las 1:30 p.m. PT. Sin embargo, un segundo cese siguió el viernes por la mañana después de que los validadores implementaran una solución provisional.

Según Sui Foundation, ambas interrupciones se originaron en una falla relacionada con la carga de gas y la función recién introducida de saldos de direcciones. El problema apareció cuando las transacciones que competían por los mismos fondos activaron el error InsufficientFundsForWithdraw.

Aunque la transacción fue cancelada, los pasos posteriores de procesamiento de gas intentaron gastar nuevamente el mismo saldo. Como resultado, los validadores encontraron un saldo negativo durante el asentamiento, lo que provocó el colapso de los nodos.

Para restaurar las operaciones rápidamente, el equipo Sui Core propuso una solución temporal el jueves. Sin embargo, el equipo reconoció que seguía existiendo un riesgo conocido de baja probabilidad dentro de esa solución temporal.

En consecuencia, la red experimentó una variación del mismo problema el viernes por la mañana, lo que provocó el segundo apagón antes de que los validadores implementaran una solución más completa.

Error de aleatoriedad causó la tercera interrupción

Tras la segunda recuperación, la red operó normalmente hasta el próximo cambio de epoch programado para el viernes por la tarde. En ese momento, un error separado provocó el tercer corte.

Según la fundación, validadores reiniciaron la instalación del parche del viernes, pero no cumplieron con los requisitos de participación para la generación distribuida de claves. Como está diseñado, el proceso desactivó la aleatoriedad para el epoch.

Sin embargo, un error latente impidió que los validadores conservaran ese estado entre reinicios. Como consecuencia, las transacciones dependientes de la aleatoriedad permanecieron sin resolver, causando una acumulación en la cola que impidió el cierre del epoch.

La interrupción duró desde aproximadamente las 1:30 p.m. PT hasta las 7:20 p.m. PT el viernes.

Foundation describe correcciones y lecciones

Tras los incidentes, los validadores corrigieron ambos errores: el de la carga de gas y el del estado de aleatoriedad. Además, la fundación introdujo un mecanismo que permite a los validadores cerrar forzosamente una época estancada cuando sea necesario.

El informe también destacó áreas de mejora, incluyendo la lógica de carga de gas, la resistencia al final del epoch y la contención de fallas. Además, Sui Foundation dijo que los agentes de IA ayudaron a los ingenieros a diagnosticar los incidentes más rápidamente al analizar los registros de validadores, los datos de producción y las métricas de red durante los apagones.