Джерело: Machine Heart

«Святий грааль» розподілених систем — протоколи консенсусу (Consensus Protocols) — довгий час був «пеклом багів» для інженерів-інфраструктури високого рівня. Через надзвичайну складність стану та переплетення багатьох вузлів традиційне тестування та монолітні LLM майже безсильні перед жорсткими Deep Bug (глибинними логічними вразливостями).

Недавно дослідники з 0G Labs, Національного університету Сінгапуру, Пекінського університету, Пекінського університету зв’язку та інших провідних академічних та промислових команд у рамках ICML 2026 представили першу автоматизовану тестову рамку — Agora, яка вперше глибоко інтегрує доменні знання з багатоагентною співпрацею великих моделей.

Ця рамка за допомогою інноваційної архітектури безпосередньо вирішує проблеми протоколу, виявивши 15 раніше невідомих глибоких помилок на рівні протоколу в таких промислових та академічних ключових протоколах, як Raft, EPaxos, HotStuff, BullShark! Навпаки, такі потужні нативні великі моделі, як GPT-5.2 та Claude 4.5, не змогли виявити жодної — їхній результат — нуль. На тлі того, що багатоагентні системи (Multi-Agent) та «агентна якісна перевірка» (Agentic Quality Control) стали найпопулярнішими напрямками 2026 року, Agora пропонує не просто статтю, а цілу промислову розв’язку, яку можна впровадити.

Стаття: «Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents»

1. Контекст: 0G та NUS об’єднують зусилля, поєднуючи довгострокові системні знання з междисциплінарним та міжпоколіннім синтезом парадигми Multi-Agent

Еволюція протоколів розподіленого консенсусу — це історія геніальних інновацій та безлічі досвідчених інженерів, які зазнали болісних помилок. Як зазначив лауреат премії Тюрінга Лампорт, забезпечення правильності реалізації розподілених протоколів — це те саме, що пройти сліпим через лабіринт, який постійно коливається. І саме на цьому «демонічному» шляху ринок тихо змінюється: за спостереженнями Gartner, кількість корпоративних запитів щодо багатоагентних систем за рік зросла більше ніж у десять разів, а ринок багатоагентних платформ вступив у фазу швидкого зростання — майже подвоєння щороку. Використання «багатоагентної співпраці» для перевірки найбільш складних нижчих систем перетворюється з передових ідей на промислову необхідність.

Зіткнувшись із цим надзвичайно складним сегментом, технологічні гіганти зі світлом у вигляді корони на голові першими розпочали масштабні інвестиції. Наприклад, лідер галузі Anthropic недавно розробляє проект Glasswing у рамках Claude Code, який, хоча й намагається використовувати агенти для тестування базової інфраструктури, все ще дуже залежить від найвищих за рівнем комерційних великих моделей. Деталі проекту залишаються невідомими, а співпраця обмежена лише кількома величезними технологічними організаціями та транснаціональними гігантами. Ще більш критичною є можливість того, що такі рішення гігантів можуть продемонструвати жахливий обсяг споживання токенів під час роботи — ця висока бар’єрна межа обчислювальних ресурсів і підхід з великою капіталоємністю безпосередньо виключають стартапи та малі та середні підприємства з обмеженим бюджетом.

Чи обов’язково малим компаніям та відкритим спільнотам не доступні найкращі інструменти автоматизованого аудиту вразливостей?

Інженери з 0G Labs та Лю Сян з Національного університету Сінгапуру, Сун Са та Сунь Юн з Пекінського університету зв’язку та інформаційних технологій у співпраці з докторантом Чжан Чжаохе та дослідником Чжан Цеяо з Школи інтелектуальних технологій Пекінського університету застосували свою глибоку експертизу в галузі агентів для створення системи, що здійснила революційний прорив — їхня робота була прийнята на провідну конференцію з штучного інтелекту ICML 2026.

Академічне «довгострокове системне накопичення знань» зустрілося з індустріальним «болісними точками та гострим чуттєм», як можна запустити революцію в безпеці наступного покоління систем?

Команда 0G накопичила надзвичайно багато досвіду в промислових атаках та захисті при реалізації протоколів консенсусу в блокчейні; крім того, команда має глибокі академічні знання в галузі високопродуктивних розподілених систем, нижчого рівня контролю паралелізму та формальної верифікації систем. Вони добре розуміють, що традиційні методи (наприклад, Fuzzing) часто обмежені вибухом простору станів при роботі з промисловими кодовими базами. Кілька дослідників вирішили втілити довголітній досвід логічного виведення глобальних інваріантів розподілених систем як «дух» у найсучасніші парадигми спільної роботи багатьох агентів та автоматизовану архітектуру Harness, запустивши відкриту платформу Agora.

В той же час, як модульна інфраструктура ШІ та високопродуктивна децентралізована мережа доступності даних на передовому краю галузі, команда 0G накопичила надзвичайно багатий досвід у промисловому застосуванні протоколів консенсусу блокчейну та архітектур високопаралельного BFT (захист від візантійських помилок), а також зібрала реальні зразки вразливостей протоколів.

Цей міжгалузевий синтез повністю змінив правила гри: це не сліпа силова перевірка, ні не велика модель без розуміння предметної галузі, що «дотикається до слона», а через спеціалізоване розподілення ролей агентів, інтуїтивна логічна експертиза системних експертів, накопичена протягом десятиліть, перетворюється на гру та співпрацю між агентами, надаючи їм потужну перевагу над традиційними інструментами тестування.

На відміну від Glasswing, який використовує важкий підхід із масштабними витратами на топові токени, Agora пропонує дуже дружній до малих і середніх підприємств альтернативний розв’язок — вона доводить, що навіть при менш потужній базовій моделі та вищій ціновій ефективності, за допомогою витонченої архітектури багатоагентного співробітництва з урахуванням галузевих особливостей, все ще можна ефективно виявляти складні Deep Bug!

2. Проблема: Однорідна LLM важко подолати межі, а розподілена система підвішена на «діаметрівському мечі глибоких логік»

Сьогодні, коли великі дані, блокчейн та розподілені бази даних домінують, протоколи консенсусу (наприклад, Paxos, Raft, PBFT) є фундаментом всього цифрового світу. Однак реалізація протоколів консенсусу відома як «діявольськи складна». Навіть такі індустріальні еталонні проекти, як etcd, які були витримані тисячами світових топ-інженерів і працюють роками, все ще приховують глибокі баги (deep bugs), що викликають леденячий пот.

Ці вразливості відрізняються від звичайних низькорівневих помилок реалізації (Implementation Bugs), таких як витік пам’яті або переповнення цілих чисел, оскільки вони охоплюють кілька етапів виконання та залежать від складних паралельних станів. Якщо їх зловживати, це може призвести не лише до пошкодження ключових даних, але й до катастрофічних фінансових втрат.

Хоча великі мовні моделі (LLM), які набули великої популярності за останні роки, добре справляються з аналізом звичайного коду, вони виявляються «недостатньо розумними» при роботі з розподіленим консенсусом. Вони здатні виявити лише поверхневі недоліки у локальному коді, але при зустрічі з протокольними вразливостями, що залежать від глобального стану, окремі LLM часто застрягають у локальному коді і повністю не можуть проводити глобальне часове міркування.

3. Прорив: Три агента Agora та основна архітектура Harness

Щоб подолати цей тупик, Agora вперше впровадила академічний підхід тестування, спрямованого на гіпотези (Hypothesis-Driven Testing, HDT), у системи великих моделей Agent. Для досягнення ефективного глобального міркування Agora повністю відмовилася від традиційного підходу «один проти всіх» і досконало розбила робочий процес на три високопрофесійних Agent, кожен з яких виконує свою конкретну роль:

Агент-оркестратор: відповідає за підтримку глобального стану та виявлення аналогічних вразливостей на основі відомих;

Агент стратегії: відповідає за введення розподілених галузевих знань та генерацію агресивних сценаріїв аномалій для протоколів CFT та BFT.

Агент TestGen (кодовий офіцер): діловий тип. Ключем до реального впровадження та замкненого генерування ефективних тестів Agora є його основна архітектура автоматизованого тестування.

Його архітектура показана на малюнку:

У загальному дизайні Agora цей «магічний ефект рівності, коли малий виграє велике» не з’явився нізвідки, а виник завдяки глибокому поєднанню її витончених механізмів взаємодії агентів та архітектури тестового Harness.

Дослідницька команда спеціально розробила всередині системної архітектури мінімалістичний та ефективний механізм зв’язку та пам’яті (Succinct Memory & Communication), щоб мінімізувати накладні витрати на передачу надлишкового контексту, одночасно забезпечивши, щоб кожен Agent зосереджувався на своїх ключових завданнях. За таких крайніх обмежень зв’язку Orchestrator Agent (відповідає за глобальну координацію та керування станом), Strategy Agent (відповідає за генерацію розподілених аномальних середовищ та сценаріїв) та TestGen Agent (відповідає за тестування коду та динамічну оцінку Evaluation) ідеально переплітаються, разом забезпечуючи та задовольняючи архітектуру Harness:

Автоматизований замкнений цикл у поєднанні: після того як Strategy Agent виводить абстрактні сценарії розподілених атак, TestGen Agent за допомогою високо декомпонованої інтерактивної архітектури миттєво запускає нижчорівневе тестування. Ця архітектура не лише має потужну здатність самопристосування до середовища, здатна перетворювати гіпотези атак на реальні юніт-тести, що працюють у різних середовищах програмування, таких як Go та Rust, але й містить ефективну технологію рефлексивного циклу (Reflection-Loop).

Коли тест у середовищі викликає помилку, система точно й у реальному часі фіксує стек викликів та журнали виконання, а потім стисло надсилає їх агенту для цільової самоісправи. Таке поєднання «багатоагентного мінімалістичного взаємодії + динамічного замкненого контуру» дозволяє Agora не лише з надзвичайно низькими витратами на токени точно виявляти найприхованіші глибинні логічні баги, а й генерувати детальні звіти з надзвичайно низьким рівнем хибних сповіщень.

Його остаточний перегляд показано на малюнку:

4. Досягнення: отримано 15 топових нульових днів Deep Bug, базові моделі великих мовних моделей показали нульовий результат

Результати оцінки вражають. Дослідницька команда провела всебічний огляд на чотирьох відомих бібліотеках консенсусних протоколів (включаючи виробничі etcd та базові компоненти нової публічної блокчейн-мережі Sui) і порівняла найпотужніші на сьогодні моделі: GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 та Qwen3 Coder.

Результати не лише роблять консенсусну систему, на якій працює 0G, більш безпечною, але й створюють переважаючу перевагу:

З’явилося 15 нових глибоких логічних вразливостей Logic Deep: Agora успішно виявила 15 раніше невідомих протокольних глибоких логічних вразливостей. Ці вразливості охоплюють високонебезпечні сфери, такі як розбіжності виконання, порушення монотонності, топологічні дефекти та вразливості підписів.

Усі власні великі моделі повністю провалилися: навпаки, базові моделі (навіть зі встановленим передовим динамічним інструментарієм ReAct) повністю провалилися при виявленні таких глибоких логічних вразливостей (0/15). Вони витрачають велику кількість токенів, але здатні лише кружляти навколо простих багів у реалізації коду.

Надзвичайно низький рівень ложних сповіщень та виняткова цінність: серед усіх звітів про помилки, створених Agora, 73,9% становлять справжні логічні вразливості (рівень ложних сповіщень лише 26,1%). Ще більш захоплюючим є те, що на виявлення кожного топ-логічного бага, який змусив би досвідченого архітектора втратити всі волосся, витрачається лише приблизно 5,32M токенів (близько 40 доларів США) — надзвичайно висока цінність.

Результати на кількох LLM виглядають так:

5. Майбутнє: висока масштабованість, розширення на більше нішевих базових «безлюдних» областей

Успіх Agora не лише підсилив безпеку розподілених систем, а й вказав шлях для застосування великих моделей у вертикальних промислових рішеннях.

Особливо важливо, що архітектура Agora демонструє високу масштабованість та універсальність. Дослідницька команда підкреслює, що Agora також може швидко бути відтворена та використана користувачами у вигляді плагінів або навичок; у нашому коді (github.com/0gfoundation/agora) надано відповідні навички для відтворення. Більше того, парадигма Agora «велика модель + спільна робота багатьох агентів + гіпотезо-орієнтована» не обмежується лише протоколами консенсусу. Оскільки нижчий рівень керування робочими процесами та верхній рівень предметної бази знань і тестування глибоко роз’єднані, ця архітектура може не лише допомогти багатьом користувачам швидко використовувати її для дебагу протоколів консенсусу, але й швидко застосовуватися у «вставляй і користуйся» (Plug-and-Play) режимі до інших гірких галузей, які також страждають від «пекла глибоких логічних вад»:

Контроль паралелізму бази даних: використовується для тестування розподілених баз даних на наявність дефектів у складних транзакціях при екстремальних рівнях ізоляції (наприклад, серіалізований Serializable).

Ядро операційної системи / паралельні системи: глибоке дослідження прихованих взаємоблокувань і умов гонки в інфраструктурі багатопотоковості.

Аудит смарт-контрактів Web3: глибоке дослідження безпечних меж для міжланцюгових протоколів та DeFi-логіки зі складними економічними моделями. Ринок блокчейн-безпеки, за оцінками, досягне приблизно 8,5 млрд доларів США до 2026 року, і вже з’явилися комерційні продукти, які використовують «багатоагентні системи безпеки» для аудиту смарт-контрактів, скорочуючи тривалість аудиту з тижнів до кількох годин — попит на ринку стрімко зростає.

Ера AI-автоматизованої безпеки на промисловому рівні базової інфраструктури, можливо, офіційно розпочинається з Agora та її архітектури Harness.

Ми маємо підстави вважати, що Agora може допомогти краще тестувати здатності LLM для кодування, виявляючи більше deep bug у різних галузях, а виявлені випадки deep bug можуть допомогти LLM для кодування покращити розуміння коду.

Agora може значно підвищити безпеку кодових репозиторіїв, що лежать в основі фінансово безпечних транзакцій, таких як протоколи консенсусу, контроль паралелізму, смарт-контракти тощо. Крім того, Agora допомагає більшості технологічних компаній виявляти глибші логічні баги, витрачаючи менше токенів і економлячи кошти, при цьому залишаючись більш ефективною!

Ще важливіше, це точно відповідає двом найпопулярнішим напрямкам сьогодні: по-перше, багатоагентні системи переходять від експериментів до виробництва — Gartner передбачає, що до 2028 року понад третина корпоративного програмного забезпечення матиме вбудовану агентну ШІ, а ринковий розмір платформ багатоагентних систем протягом кількох років зросте з сотень мільярдів до кількох сотень мільярдів доларів; по-друге, агентна система контролю якості (Agentic Quality Control) — «перевірка агентів агентами» — стане галузевим стандартом 2026 року.

На тлі звіту Veracode 2025, який вказує, що приблизно 45% коду, згенерованого ШІ, містять безпекові вразливості, а ринок безпеки агентного ШІ зростає зі швидкістю близько 42% річних, Agora дозволяє технологічним компаніям виявляти глибші Logic Bug за меншою вартістю токенів, перетворюючи безпековий аудит з «людської роботи, що оплачується за тиждень» на «автоматизовану здатність, що надається за годину».

А коли структура цієї галузі поступово прояснюється, тим, хто справді отримує першочергову перевагу, часто виявляється не найбільший гігант з найбільшим шумом, а команда, яка першою успішно реалізувала методологію і здатна постійно її копіювати.

Оригінальне посилання

Натисніть, щоб дізнатися про вакансії в律動BlockBeats

Вступайте до офіційного спільноти律动 BlockBeats:

Телеграм-канал з підпискою: https://t.me/theblockbeats

Telegram-чат: https://t.me/BlockBeats_App

Офіційний аккаунт Twitter: https://twitter.com/BlockBeatsAsia