Coinbase Post-Mortem розкриває ризики каскадних відмов AWS

icon MarsBit
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Постмортем Coinbase щодо відключення 7 травня 2026 року показує ризики залежності від однієї зони доступності, при цьому індекс страху та жадібності, ймовірно, постраждав під час 8-годинного переривання. Відмова системи охолодження в центрі обробки даних AWS спричинила відключення EC2 та EBS, що вимагало аварійного виправлення. Інженери вручну мігрували розділи Kafka, щоб відновити потоки даних. Компанія планує перейти на налаштування Kafka з трьома зонами доступності та підвищити частоту тренувань з реагування на надзвичайні ситуації. Альткоїни, за якими слід стежити, можуть відреагувати на такі системні ризики в ширшому ринку.

Марс Фінанс повідомляє, що Coinbase опублікувала звіт про аналіз масштабного переривання сервісів 7 травня 2026 року. Ця несправність тривала близько 8 годин, а повне відновлення зайняло близько 12 годин; протягом цього часу торгівля, поповнення, виведення коштів та більшість ключових сервісів були недоступні або серйозно деградували. Coinbase зазначила, що причиною стало одночасне відмовлення кількох холодильних установок у системі охолодження дата-центру в доступній зоні use1-az4 регіону AWS us-east-1, що спричинило теплове вимкнення стелажів, виведення з ладу EC2-екземплярів та EBS-томів, а також вплив на ряд інтернет-сервісів. Під час відновлення торгівельний двигун Coinbase втратив кворум через те, що кластер був розгорнутий лише в одному дата-центрі AWS, що призвело до втрати більшості вузлів; для відновлення роботи було необхідно терміново внести зміни до коду та створити нову групу вузлів, а потім поступово перевести ринки у режим торгівлі. Крім того, сервіс AWS Managed Kafka (MSK) зазнав сбою у контрольній площині, що завадило автоматичному переобранню головних брокерів розділів, що додатково блокувало ціни, комісії та частину систем розрахунків і потоків даних, розширили загальний вплив. Після спільних з AWS інженерними зусиллями з ручного переміщення розділів система поступово повернулася до нормального функціонування. Coinbase зазначила, що цей інцидент виявив недоліки у здатностях до автоматичного переключення між доступними зонами та аварійної стійкості управлених проміжних систем. Компанія планує модернізувати архітектуру гарячого резервування між регіонами, посилити регулярні тренування з викликання аварій та перемістити систему Kafka з двох доступних зон на три, а також спільно з AWS працювати над усуненням кореневих причин та вдосконаленнями.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.