- Hai sự cố gián đoạn xuất phát từ lỗi nạp gas khiến các trình xác thực bị sập khi các giao dịch thất bại kích hoạt lỗi số dư.
- Một lỗi trạng thái ngẫu nhiên riêng biệt đã gây ra lần dừng thứ ba bằng cách ngăn các người xác thực đóng đúng cách một chu kỳ mạng.
- Sui cho biết không có quỹ người dùng nào bị ảnh hưởng, đã triển khai các bản sửa lỗi và bổ sung các biện pháp bảo vệ để tăng cường khả năng chịu đựng của mạng lưới.
Sui Foundation vào Chủ nhật chi tiết các nguyên nhân gây ra ba sự cố mạng chính làm gián đoạn hoạt động mạng trong các ngày Thứ Năm và Thứ Sáu, xác định các sự cố này xuất phát từ hai lỗi riêng biệt được đưa vào bản nâng cấp phần mềm v1.72. Các sự cố xảy ra khi các validator đang xử lý các vấn đề liên quan đến tính năng số dư địa chỉ mới và một vấn đề riêng biệt về trạng thái ngẫu nhiên. Theo foundation, không có quỹ người dùng nào bị đe dọa và không có giao dịch nào đã cam kết bị hoàn lại trong quá trình khôi phục.
Lỗi nạp gas đã gây ra hai sự cố đầu tiên
Sự cố đầu tiên bắt đầu vào khoảng 7 giờ sáng giờ PT vào thứ Năm và kéo dài đến khoảng 1:30 chiều giờ PT. Tuy nhiên, một lần ngừng hoạt động thứ hai đã xảy ra vào sáng thứ Sáu sau khi các validator triển khai bản sửa đổi tạm thời.
Theo Sui Foundation, cả hai sự cố đều xuất phát từ một lỗ hổng liên quan đến việc tính phí gas và tính năng số dư địa chỉ mới được giới thiệu. Vấn đề xuất hiện khi các giao dịch cạnh tranh để sử dụng cùng một khoản tiền gây ra lỗi InsufficientFundsForWithdraw.
Mặc dù giao dịch đã bị hủy, các bước xử lý gas tiếp theo vẫn cố gắng chi cùng một số dư. Kết quả là, các người xác thực đã gặp phải số dư âm trong quá trình thanh toán, khiến các nút mạng bị sập.
Để khôi phục hoạt động nhanh chóng, Nhóm Sui Core đã đề xuất một giải pháp tạm thời vào thứ Năm. Tuy nhiên, nhóm thừa nhận rằng vẫn còn một rủi ro khả năng thấp đã được biết đến trong giải pháp tạm thời đó.
Do đó, mạng lưới đã gặp phải một biến thể của cùng vấn đề này vào sáng thứ Sáu, dẫn đến sự cố thứ hai trước khi các validator triển khai bản sửa đổi toàn diện hơn.
Lỗi ngẫu nhiên gây ra lần ngừng hoạt động thứ ba
Sau lần phục hồi thứ hai, mạng hoạt động bình thường cho đến khi thay đổi epoch được lên lịch vào chiều thứ Sáu. Tại thời điểm đó, một lỗi riêng biệt đã gây ra sự cố thứ ba.
Theo quỹ, người xác thực đã khởi động lại việc cài đặt bản vá thứ Sáu nhưng không đáp ứng được yêu cầu tham gia để tạo khóa phân tán. Như đã thiết kế, quy trình đã vô hiệu hóa tính ngẫu nhiên cho epoch này.
Tuy nhiên, một lỗi ẩn đã ngăn các trình xác thực duy trì trạng thái đó qua các lần khởi động lại. Kết quả là, các giao dịch phụ thuộc vào tính ngẫu nhiên vẫn chưa được giải quyết, gây ra sự tích tụ hàng đợi và ngăn epoch đóng lại.
Sự cố kéo dài từ khoảng 1:30 chiều giờ PT đến 7:20 chiều giờ PT vào thứ Sáu.
Foundation nêu ra các bản sửa lỗi và bài học rút ra
Sau các sự cố, các validator đã khắc phục cả hai lỗi về phí gas và trạng thái ngẫu nhiên. Ngoài ra, quỹ đã giới thiệu một cơ chế cho phép các validator đóng époch bị đình trệ khi cần thiết.
Báo cáo cũng nêu bật các lĩnh vực cần cải thiện, bao gồm logic tính phí gas, khả năng chịu đựng cuối chu kỳ và kiểm soát sự cố. Hơn nữa, Sui Foundation cho biết các tác nhân AI đã giúp các kỹ sư chẩn đoán sự cố nhanh hơn bằng cách phân tích nhật ký validator, dữ liệu sản xuất và các chỉ số mạng trong thời gian gián đoạn.


