ข่าวจาก Mars Finance: Coinbase เผยรายงานสรุปเหตุการณ์หยุดให้บริการขนาดใหญ่เมื่อวันที่ 7 พฤษภาคม 2026 ความล้มเหลวครั้งนี้กินเวลาประมาณ 8 ชั่วโมง และใช้เวลาประมาณ 12 ชั่วโมงในการกู้คืนอย่างสมบูรณ์ โดยในช่วงเวลานั้น การซื้อขาย การเติมเงิน การถอนเงิน และบริการหลักส่วนใหญ่ไม่สามารถใช้งานได้หรือมีประสิทธิภาพลดลงอย่างรุนแรง Coinbase ระบุว่า สาเหตุของความล้มเหลวเกิดจากการล้มเหลวพร้อมกันของเครื่องทำความเย็นหลายตัวในระบบระบายความร้อนของศูนย์ข้อมูลใน Availability Zone use1-az4 ของ AWS us-east-1 ซึ่งทำให้เกิดการปิดระบบเพื่อป้องกันความร้อนในตู้เซิร์ฟเวอร์ ส่งผลให้ EC2 instances และ EBS volumes ล่ม และกระทบต่อบริการอินเทอร์เน็ตหลายรายการ ในกระบวนการกู้คืน เครื่องจักรจับคู่การซื้อขายของ Coinbase สูญเสีย quorum เนื่องจากโครงสร้างคลัสเตอร์ที่ติดตั้งอยู่ในศูนย์ข้อมูล AWS เพียงแห่งเดียว จึงจำเป็นต้องปรับโค้ดอย่างเร่งด่วนและสร้างกลุ่มโหนดใหม่เพื่อกู้คืนการทำงาน และค่อยๆ เปิดการซื้อขายตลาดอีกครั้งในระหว่างกระบวนการกู้คืน นอกจากนี้ บริการ Kafka ที่จัดการโดย AWS (MSK) เกิดความล้มเหลวในระดับการควบคุม ทำให้ไม่สามารถเลือกผู้นำพาร์ติชันใหม่ได้อัตโนมัติ ซึ่งขัดขวางระบบ报价 ค่าธรรมเนียม และระบบการตั้งtlement และการไหลของข้อมูลบางส่วน ขยายขอบเขตผลกระทบโดยรวม Coinbase ร่วมมือกับทีมวิศวกรของ AWS เพื่อทำการย้ายพาร์ติชันด้วยตนเอง ทำให้ระบบค่อยๆ กลับมาทำงานปกติ Coinbase ระบุว่า เหตุการณ์ครั้งนี้เปิดเผยจุดอ่อนของบริษัทในด้านความสามารถในการสลับอัตโนมัติข้าม Availability Zones และความทนทานของ middleware ที่จัดการโดยผู้ให้บริการ บริษัทจะปรับปรุงโครงสร้างสำรองแบบร้อนข้ามภูมิภาค เพิ่มการฝึกซ้อมความล้มเหลวเป็นประจำ และย้ายระบบ Kafka จากการติดตั้งสอง Availability Zones เป็นสาม Availability Zones พร้อมร่วมมือกับ AWS เพื่อแก้ไขรากเหง้าของปัญหาและปรับปรุงระบบ
Coinbase สรุปการวิเคราะห์หลังเกิดเหตุการณ์เปิดเผยความเสี่ยงจากการล้มเหลวแบบลูกโซ่ของ AWS
MarsBitแชร์






รายงานการทบทวนหลังเหตุการณ์หยุดทำงานของ Coinbase เมื่อวันที่ 7 พฤษภาคม 2026 แสดงให้เห็นถึงความเสี่ยงจากการพึ่งพาโซนความพร้อมใช้งานเพียงแห่งเดียว โดยดัชนีความกลัวและความโลภน่าจะได้รับผลกระทบในช่วงเวลาที่หยุดทำงานนาน 8 ชั่วโมง การล้มเหลวของระบบระบายความร้อนที่ศูนย์ข้อมูลของ AWS ทำให้เกิดการหยุดทำงานของ EC2 และ EBS บังคับให้ต้องดำเนินการแก้ไขฉุกเฉิน วิศวกรต้องย้ายพาร์ติชัน Kafka ด้วยตนเองเพื่อฟื้นฟูการไหลของข้อมูล บริษัทมีแผนจะปรับใช้โครงสร้าง Kafka แบบสามโซนความพร้อมใช้งาน และเพิ่มการฝึกซ้อมการกู้คืนจากภัยพิบัติ อัลต์โคอินที่ควรจับตาอาจตอบสนองต่อความเสี่ยงเชิงระบบดังกล่าวในตลาดโดยรวม
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา