Источник: Machine Heart

«Святой грааль» распределённых систем — протоколы консенсуса (Consensus Protocols) — долгое время были «адом багов» для инженеров-экспертов по инфраструктуре. Из-за чрезвычайной сложности состояния и переплетения множества узлов традиционное тестирование и монолитные LLM практически бессильны перед жёсткими Deep Bug (глубокими логическими уязвимостями).

В последние дни исследователи из 0G Labs, Национального университета Сингапура, Пекинского университета, Пекинского университета связи и других ведущих академических и промышленных команд представили на ICML 2026 первую автоматизированную тестовую рамку — Agora, которая впервые глубоко интегрирует доменные знания с многоагентным взаимодействием крупных моделей.

Эта рамка, благодаря инновационной архитектуре, напрямую устраняет ключевые проблемы протоколов, обнаружив за один раз 15 ранее неизвестных глубоких ошибок уровня протокола в таких промышленных и академических ядрах, как Raft, EPaxos, HotStuff и BullShark. Напротив, такие мощные нативные крупные модели, как GPT-5.2 и Claude 4.5, потерпели неудачу, не обнаружив ни одной ошибки. На фоне того, как многагентные системы (Multi-Agent) и «агентная проверка качества» (Agentic Quality Control) стали самыми горячими направлениями 2026 года, Agora предлагает не просто научную статью, а практичное промышленное решение.

Статья: «Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents»

1. Контекст: 0G и NUS объединяют усилия, сочетая долгосрочный системный опыт и междисциплинарное, межпоколенческое слияние с парадигмой Multi-Agent

Эволюция распределённых протоколов консенсуса — это одновременно история гениальных инноваций и кровавый путь сотен талантливых инженеров, сталкивающихся с ошибками. Как сказал лауреат премии Тьюринга Лампорт, обеспечение корректности реализации распределённых протоколов столь же сложно, как пробираться вслепую через лабиринт, который постоянно колеблется. И именно на этом «адском» участке рынок тихо меняется: по данным Gartner, запросы на консалтинг по системам с несколькими агентами выросли более чем в десять раз за год, а рынок платформ с несколькими агентами вступил в фазу стремительного роста, удваиваясь ежегодно — использование «совместной работы нескольких агентов» для проверки самых сложных нижележащих систем превращается из передовой идеи в отраслевую необходимость.

面对这一地狱级赛道，科技巨头们率先展开了重资产式的探索。例如行业顶尖的 Anthropic 近期在 Claude Code 中内部推进的 Glasswing 项目，虽然尝试用 Agent 触碰底层基础设施测试，但其架构依然极度依赖最高规格的头部商业大模型，项目细节语宛不详，且仅定向与极少数大科技机构和跨国巨头开展闭门合作。更致命的是，这类巨头方案可能在运行中展现出恐怖的 Token 吞噬量，这种高昂的算力壁垒和重资产路线，直接将预算有限的初创公司和中小企业拒之门外。

Разве малые компании и открытые сообщества обречены не использовать лучшие инструменты автоматизированного аудита уязвимостей?

Инженеры из 0G Labs в сотрудничестве с Лю Сян из Национального университета Сингапура, Сун Са и Сунь Юн из Пекинского университета связи и информационных технологий, а также докторант Чжан Чжаохэ и исследователь Чжан Цэяо из Школы искусственного интеллекта Пекинского университета применили свои глубокие знания в области агентов для создания системы, реализовавшей революционную инновацию «малое против большого»; их работа была принята на ведущую конференцию по ИИ 2026 года — ICML.

Академические «долгосрочные системные знания» встретились с «болевыми точками и острым чутьем» промышленности — как можно запустить революцию в системной безопасности следующего поколения?

Команда 0G накопила огромный опыт в промышленных атаках и защите при реализации протоколов консенсуса в блокчейне; кроме того, команда обладает глубокими академическими знаниями в области высокопроизводительных распределённых систем, низкоуровневого управления параллелизмом и формальной верификации систем. Они хорошо понимают, что традиционные методы (например, фаззинг) часто ограничены взрывом пространства состояний при работе с промышленными кодовыми базами. Несколько исследователей решили вложить накопленные долгосрочные знания о глобальных инвариантах распределённых систем как «дух» в передовые многоагентные кооперативные парадигмы и автоматизированную архитектуру Harness, создав открытую и равноправную платформу Agora.

В то же время, будучи модульной инфраструктурой ИИ и высокопроизводительной децентрализованной сетью обеспечения доступности данных на переднем крае отрасли, команда 0G накопила огромный опыт в промышленной эксплуатации протоколов консенсуса блокчейна и архитектур высокопараллельного BFT ( Byzantine Fault Tolerance), а также собрала реальные примеры уязвимостей протоколов.

Этот междисциплинарный синтез полностью изменил правила игры: это не слепое переборное тестирование и не «слепые, ощупывающие слона» крупные модели без отраслевых знаний, а профессиональное распределение ролей агентов, превращающее интуитивные логические выводы опытных системных экспертов десятилетий в игры и сотрудничество между агентами, что придаёт им реальную силу для подавления традиционных тестовых инструментов.

В отличие от Glasswing, который использует ресурсоемкий подход, поглощающий огромные объемы топовых токенов, Agora предлагает альтернативное решение, чрезвычайно дружелюбное к малым и средним предприятиям — оно доказывает, что даже при использовании базовой модели, немного уступающей по качеству, но обладающей более высокой ценовой эффективностью, можно с помощью изящной архитектуры многоагентного взаимодействия с учетом специфики области все еще выявлять сложные Deep Bug!

2. Проблема: Монолитные LLM трудно преодолеть границы, а распределенные системы постоянно находятся под угрозой «дамоклова меча глубинной логики»

В эпоху, когда большие данные, блокчейн и распределенные базы данных правят бал, протоколы консенсуса (такие как Paxos, Raft, PBFT и др.) являются фундаментом всего цифрового мира. Однако реализация протоколов консенсуса известна как «адская сложность». Даже такие индустриальные эталонные проекты, как etcd, прошедшие многолетнюю проверку тысячами ведущих инженеров по всему миру, все еще скрывают глубокие логические уязвимости, вызывающие леденящий душу холод.

Эти уязвимости отличаются от обычных низкоуровневых ошибок реализации, таких как утечки памяти или переполнение целых чисел, поскольку охватывают несколько этапов выполнения и зависят от сложных параллельных состояний. При злонамеренном использовании они могут не только повредить ключевые данные, но и вызвать катастрофические финансовые потери.

Хотя крупные языковые модели (LLM), которые недавно стали популярными, хорошо справляются с анализом обычного кода, они оказываются «слабоумными» при работе с распределённым консенсусом. Они могут обнаружить лишь поверхностные дефекты в локальном коде, но при столкновении с уязвимостями протокольной логики, зависящими от глобального состояния, монолитные LLM часто застревают в локальном коде и полностью не способны выполнять глобальные временные рассуждения.

3. Прорыв: Трёхагентная система Agora и ключевая архитектура Harness

Чтобы преодолеть этот тупик, Agora впервые внедрила в систему больших моделей-агентов классическую парадигму проверки гипотез (Hypothesis-Driven Testing, HDT), используемую в академической среде. Для обеспечения эффективных глобальных рассуждений Agora полностью отказалась от традиционной модели «одиночной работы» и тонко декомпозировала рабочий процесс на три высокоспециализированных агента, каждый из которых выполняет свою задачу:

Агент-оркестратор: отвечает за поддержание глобального состояния и выявление аналогичных уязвимостей на основе известных;

Агент стратегии: отвечает за внедрение распределенных отраслевых знаний и генерацию агрессивных аномальных сценариев для протоколов CFT и BFT.

TestGen Agent (Code Officer): Практик. Ключом к реальному внедрению и замкнутому циклу генерации эффективных тестов для Agora является его ядерная архитектура автоматизированного тестирования.

Его архитектура показана на рисунке:

В общей архитектуре Agora эта «магия равенства, основанная на малом, но дающая большой эффект» не возникла из ниоткуда, а является результатом глубокой интеграции изящных механизмов взаимодействия агентов и архитектуры тестового Harness.

Исследовательская команда специально разработала внутри системной архитектуры минимальную и эффективную систему связи и памяти (Succinct Memory & Communication), минимизируя избыточные затраты на передачу контекста, при этом обеспечивая каждому агенту сосредоточенность на своих ключевых задачах. При таких экстремальных ограничениях связи агент-оркестратор (ответственный за глобальную координацию и управление состоянием), агент стратегии (ответственный за генерацию распределённых аномальных сред и сценариев) и агент генерации тестов (ответственный за тестирование кода и динамическую оценку Evaluation) идеально переплетаются, совместно обеспечивая и удовлетворяя архитектуру Harness:

Автоматизированный замкнутый цикл в сочетании: после того как Strategy Agent выстраивает абстрактные сценарии распределенных атак, TestGen Agent на основе высоко декомпозированной интерактивной архитектуры немедленно запускает нижележащие тесты. Эта архитектура обладает мощной способностью адаптации к среде, позволяя преобразовывать гипотезы атак в реальные исполняемые модульные тесты в различных средах программирования, таких как Go и Rust, а также включает в себя эффективную технологию рефлексивного цикла (Reflection-Loop).

При возникновении ошибки во время выполнения теста в среде система точно и в реальном времени фиксирует стек вызовов и журналы выполнения, а затем компактно отправляет их агенту для целенаправленной самокоррекции. Такое тесное сочетание «многопоточного минимального взаимодействия агентов + динамического замкнутого цикла Harness» позволяет Agora не только с минимальными затратами токенов точно выявлять самые скрытые глубинные логические ошибки, но и генерировать подробные отчеты с крайне низким уровнем ложных срабатываний.

Его окончательный обзор показан на рисунке:

4. Результаты: Получено 15顶尖 нулевых дней Deep Bug, baseline крупных моделей полностью нулевой

Результаты оценки поразительны. Исследовательская команда провела всестороннюю проверку на четырех известных библиотеках консенсусных протоколов, включая производственные etcd и базовые компоненты новой публичной блокчейн-платформы Sui, и сравнила самые мощные на сегодняшний день модели: GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 и Qwen3 Coder.

Результаты не только делают консенсусную систему, на которой работает 0G, более безопасной, но и создают подавляющее преимущество:

Обнаружено 15 совершенно новых глубоких логических уязвимостей Logic Deep: Agora успешно выявила 15 ранее неизвестных уязвимостей уровня протокола, охватывающих критические области, такие как расхождения в выполнении, нарушения монотонности, топологические дефекты и уязвимости подписей.

Все собственные крупные модели полностью провалились: в то время как базовые модели (даже с продвинутой динамической цепочкой инструментов ReAct) полностью не справились с подобными глубокими логическими уязвимостями (0/15). Они потребовали огромное количество токенов, но смогли лишь кружить вокруг простых ошибок в реализации кода.

Чрезвычайно низкий уровень ложных срабатываний и исключительная соотношение цены и качества: среди всех отчетов об ошибках, сгенерированных Agora, реальные логические уязвимости составляют 73,9% (уровень ложных срабатываний всего 26,1%). Еще более впечатляет то, что на поиск каждой серьезной логической уязвимости, способной заставить опытного архитектора поседеть, уходит в среднем всего около 5,32M токенов (примерно 40 долларов США) — невероятно высокая эффективность.

Результаты на нескольких LLM представлены ниже:

5. Будущее: высокая масштабируемость, выход на новые базовые «неосвоенные области»

Успех Agora не только укрепил безопасность распределенных систем, но и указал путь для внедрения крупных моделей в отраслевые приложения.

Особенно важно, что архитектура Agora демонстрирует высокую масштабируемость и универсальность. Исследовательская группа подчеркивает, что Agora также может быть быстро воспроизведена и использована широким кругом пользователей в виде плагинов или навыков; в нашем коде (github.com/0gfoundation/agora) предоставлены соответствующие навыки для воспроизведения. Более того, парадигма «большая модель + взаимодействие нескольких агентов + гипотезо-ориентированный подход» Agora применима не только к протоколам консенсуса. Благодаря глубокой декомпозиции между контролем базового рабочего процесса и верхнеуровневыми областными базами знаний и тестами, эта архитектура не только помогает многим пользователям быстро применять её для отладки протоколов консенсуса, но и позволяет быстро внедрять её в другие сложные области, страдающие от «ада глубинных логических уязвимостей», с помощью принципа «plug-and-play»:

Контроль параллелизма базы данных: используется для тестирования сложных конфликтов транзакций в распределённых базах данных при экстремальных уровнях изоляции (например, сериализуемом Serializable).

Ядро операционной системы / Конкурентные системы: углубленный анализ скрытых взаимоблокировок и гонок в многопоточной инфраструктуре.

Аудит смарт-контрактов Web3: глубокое исследование безопасных границ для межцепочечных протоколов и логики DeFi, связанных со сложными экономическими моделями. Рынок блокчейн-безопасности, по прогнозам, достигнет около 8,5 млрд долларов США к 2026 году, и уже появились коммерческие продукты, использующие «многоагентные системы безопасности» для аудита смарт-контрактов, сокращающие цикл аудита с недель до нескольких часов — спрос на рынке взрывной.

Эра AI-автоматизированной безопасности на промышленном уровне инфраструктуры, возможно, официально начинается с Agora и её архитектурой Harness.

У нас есть основания полагать, что Agora может лучше тестировать способности LLM для написания кода, обнаруживая больше deep bug в различных областях, а также помогать LLM для написания кода улучшать понимание кода с помощью обнаруженных случаев deep bug.

Agora может значительно повысить безопасность кодовых репозиториев, лежащих в основе финансовых безопасных транзакций, таких как протоколы консенсуса, управление параллелизмом и смарт-контракты. Кроме того, Agora помогает большим технологическим компаниям обнаруживать более глубокие логические ошибки, используя меньше токенов, что позволяет экономить средства и повышать эффективность!

Более того, это идеально совпадает с двумя самыми горячими направлениями сегодня: во-первых, многоагентные системы переходят от экспериментов к производству — Gartner прогнозирует, что к 2028 году более трети корпоративного программного обеспечения будет включать агентное ИИ, и рыночный размер платформ многоагентных систем за несколько лет вырастет с сотен миллиардов до нескольких сотен миллиардов долларов; во-вторых, агентный контроль качества (Agentic Quality Control) — «проверка агентов агентами» — станет отраслевым стандартом в 2026 году.

На фоне отчета Veracode 2025, в котором указано, что около 45% кода, сгенерированного ИИ, содержат уязвимости, и рынок безопасности агентных ИИ растет с годовым темпом роста около 42%, Agora позволяет технологическим компаниям находить более глубокие логические ошибки с меньшими затратами на токены, превращая аудит безопасности из «ручной работы по недельной оплате» в «автоматизированную способность с доставкой по часам».

Когда структура этого сегмента постепенно проясняется, теми, кто действительно захватывает первоначальное преимущество, часто оказываются не самые громкие гиганты, а команды, которые первыми успешно реализовали методологию и могут постоянно её воспроизводить.

Исходная ссылка

Нажмите, чтобы узнать о вакансиях BlockBeats

Добро пожаловать в официальное сообщество律动 BlockBeats:

Телеграм-канал с подпиской: https://t.me/theblockbeats

Телеграм-чат: https://t.me/BlockBeats_App

Официальный аккаунт Twitter: https://twitter.com/BlockBeatsAsia