原文來源：機器之心

分佈式系統的「聖杯」——共識協議（Consensus Protocols），長久以來都是頂級基礎設施工程師的「Bug 地獄」。由於其狀態極其複雜、多節點交織，傳統測試和單體 LLM 對硬核的 Deep Bug（深層邏輯漏洞）幾乎束手無策。

近日，最新 ICML 2026 中稿論文，來自 0G Labs 以及新加坡國立大學、北京大學、北京郵電大學等頂尖學術與產業團隊的研究人員提出首個將領域知識與大模型多 Agent 協同深度融合的自動化測試框架——Agora。

該框架透過創新的架構，直擊協議痛點，在 Raft、EPaxos、HotStuff、BullShark 等工業級和學術界核心協議中，一舉發現 15 個此前未知的協議級 Deep Bug！相比之下，強如 GPT-5.2、Claude 4.5 等原生大模型紛紛折戟，零成果。在多智能體（Multi-Agent）系統與「智能體化安全審計」（Agentic Quality Control）雙雙成為 2026 年最熱賽道的當下，Agora 提供的不僅是一篇論文，更是一套可落地的工業級解決方案。

論文：《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》

1. 背景：0G 與 NUS 強強聯手，長期系統知識積累與 Multi-Agent 范式的跨界跨代融合

分布式共識協議的演進，既是天才的創新史，又是無數頂尖工程師血淋淋的踩坑史。正如圖靈獎得主 Lamport 所言，保證分佈式協議實現的正確性，其難度不亞於在一座不斷晃動的迷宮中蒙眼穿行。而就在這條」地獄級」賽道上，市場正悄然轉向：據 Gartner 觀察，多智能體系統的企業諮詢量在一年多內暴漲逾十倍，多智能體平台市場也步入每年近翻倍的高速擴張期——把」多 Agent 協同」用於最硬核的底層系統驗證，正從前沿設想變成產業刚需。

面對這一地獄級賽道，頭頂光環的科技巨頭們率先展開了重資產式的探索。例如行業頂尖的 Anthropic 近期在 Claude Code 中內部推進的 Glasswing 項目，雖然嘗試用 Agent 觸碰底層基礎設施測試，但其架構依然極度依賴最高規格的頭部商業大模型，項目細節語焉不詳，且僅定向與極少數大科技機構和跨國巨頭開展閉門合作。更致命的是，這類巨頭方案可能在運行中展現出恐怖的 Token 吞噬量，這種高昂的算力壁壘和重資產路線，直接將預算有限的初創公司和中小企業拒之門外。

難道小公司、開源社區就註定用不起頂級的自動化漏洞審計工具嗎？

來自 0G Labs 的工程師們與新加坡國立大學的劉祥、北京郵電大學的宋颯、孫勇老師，聯合北京大學智能學院的博士生張釗為和研究員張策堯，將自身在 Agent 領域的深厚知識賦能系統，展開了一場「以小博大」的顛覆式創新，其研究成果已獲 2026AI 頂會 ICML 接收。

學術界的「長期系統知識沉澱」，遇到了產業界的「痛點與敏銳嗅覺」，如何才能引爆下一代系統安全革命？

0G 團隊在區塊鏈共識協議的落地中積累了極為豐富的生產級攻防經驗；而團隊在高性能分佈式系統、底層併發控制以及系統形式化驗證領域擁有極為深厚的學術沉澱。他們深知傳統方法（如 Fuzzing 模糊測試）在面對工業級程式碼庫時常受限於狀態空間爆炸。多方研究人員決定，將長期積累的分佈式系統全局 invariants（不變性）邏輯推演知識作為「靈魂」，注入到最前沿的多智能體協同範式與自動化 Harness 架構之中，推出了開源平權的 Agora 框架。

同時，作為行業前沿的模組化 AI 基礎設施與高性能去中心化數據可用性網絡，0G 團隊在區塊鏈共識協議、高併發 BFT（拜占庭容錯）架構的產業落地中，積累了極為豐富的生產級攻防經驗與真實世界的協議缺陷樣本。

這種跨界融合徹底改變了遊戲規則：它既不是盲目的暴力測試，也不是缺乏領域常識的大模型「盲人摸象」，而是通過專業化的 Agent 分工，將老道系統專家幾十年的邏輯推演直覺，轉化為 Agent 之間的博弈與協同，從而具備了降維打擊傳統測試工具的硬核實力。

與 Glasswing 動輒吞噬巨額頂級 Token 的重資產路線不同，Agora 帶來了一種對中小企業極其友好的平替方案——它證明了即使在基座模型「差一點」、性價比更高的情況下，通過精妙的領域感知多 Agent 協同架構，依然能夠把硬核的 Deep Bug 揪出來！

2. 痛點：單體 LLM 難越雷池，分佈式系統高懸「深層邏輯達摩克利斯之劍」

在大數據、區塊鏈與分佈式資料庫一手遮天的今天，共識協議（如 Paxos、Raft、PBFT 等）就是整個數字世界的底層地基。然而，共識協議的實現是出了名的「地獄級難度」。哪怕是像 etcd 這樣經過全球無數頂尖工程師錘煉、運行多年的工業級標杆項目，依然隱藏著讓人冷汗直流的 Deep Bug（深層邏輯漏洞）。

這類漏洞不同於記憶體洩漏、整數溢出等常見的低階實現漏洞（Implementation Bugs），它們橫跨多個執行階段，並依賴複雜的併發狀態。一旦被惡意觸發，不僅會導致核心資料損壞，甚至可能引發災難性的金融損失。

近年大熱的大語言模型（LLM）雖然在普通代碼分析上表現亮眼，但面對分佈式共識時卻顯得「智商捉急」。它們頂多能找出局部代碼的淺層缺陷，而面對依賴全局狀態的協議級邏輯漏洞，單體 LLM 往往陷入局部代碼的泥潭，完全無法進行全局時序推理。

3. Breaking the Impasse: Agora’s Three-Agent Kunpeng Move and Core Harness Architecture

為打破這一僵局，Agora 首次將學術界經典的假說驅動測試（Hypothesis-Driven Testing, HDT）範式引入到大模型 Agent 系統中。為實現高效的全局推理，Agora 彻底摒棄了傳統的「單兵作戰」模式，將工作流精妙地解耦為三個各司其職的高度專業化 Agent：

Orchestrator Agent（協調者）：負責全局狀態維護與已知漏洞舉一反三的「漏洞剝削」；

策略家（Strategy Agent）：負責注入分佈式領域知識，針對 CFT 和 BFT 協議生成極具攻擊性的異常場景。

TestGen Agent（代碼官）：實幹派。而讓 Agora 真正能夠落地、閉環生成有效測試的關鍵，在於其核心的自動化測試架構。

其架構如圖所示：

在 Agora 的整體設計中，這種「以小博大」的平權魔法並非憑空而來，而是源於其精妙的智能體交互機制與測試 Harness 架構的深度融合。

研究團隊在系統框架內部專門設計了一套極簡、高效的通信與內存機制（Succinct Memory & Communication），在保證各 Agent 專注於自身核心任務的同時，將冗餘的上下文傳輸開銷降到了最低。在這種極致的通信約束下，Orchestrator Agent（負責全局協調與狀態控制）、Strategy Agent（負責分佈式異常環境與場景生成）以及 TestGen Agent（負責代碼測試與動態評估 Evaluation）完美交織，共同驅動並滿足了 Harness 架構：

雙劍合璧的自動化閉環：當 Strategy Agent 推演出抽象的分佈式攻擊場景後，依托於高度解耦的交互框架，TestGen Agent 能夠立刻拉起底層的測試。該架構不僅具備強大的環境自適應能力，能夠跨越 Go、Rust 等不同程式語言環境，將攻擊假說轉化為真實可運行的單元測試，更內置了高效的反射迴圈（Reflection-Loop）技術。

當測試在環境中運行出錯時，系統會精準且即時地捕捉呼叫堆疊和執行日誌，並將其簡化後回傳給 Agent 進行定向自我修正。這種「多 Agent 極簡交互 + 動態 Harness 閉環」的有機結合，不僅讓 Agora 能以極低的 Token 成本精準捕捉最隱蔽的深層邏輯 Bug，更產出了誤報率極低的詳盡分析報告。

其最終運行的 overview 如圖所示：

4. 成果：斬獲 15 個頂級零日 Deep Bug，大模型 baseline 全線掛零

評估結果令人震撼。研究團隊在四個大名鼎鼎的共識協議庫（包括生產級的 etcd 和新興公鏈核心 Sui 的底層組件）上展開了全方位的大閱兵，並對比了 GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5 以及 Qwen3 Coder 等地表最強模型。

結果不僅使得 0G 本身運行的共識系統更加安全，而且呈現出壓倒性的降維打擊：

15 個全新 Logic Deep Bug 浮出水面：Agora 成功發現了 15 個先前無人知曉的協議級深層邏輯漏洞。這些漏洞橫跨執行分歧、單調性違反、拓撲缺陷、簽名漏洞等高危領域。

原生大模型全線剃光頭：反觀基線模型（哪怕配備了先進的 ReAct 動態工具鏈），在面對這類深層邏輯漏洞時全部開天窗（0/15）。它們消耗了大量的 Token，卻只能在低級程式碼實現 Bug 上打轉。

極低的誤報率與超高性價比：在 Agora 產出的所有 Bug 報告中，真實邏輯漏洞占比高達 73.9%（誤報率僅 26.1%）。更令人驚嘆的是，平均每挖出一個讓資深架構師掉光頭髮的頂級邏輯 Bug，僅需消耗約 5.32M tokens（約合 40 美元），性價比極高。

在多個 LLM 上的結果如下所示：

5. 未來：高可推廣性，進軍更多底層硬核「無人區」

Agora 的成功，不僅為分佈式系統的安全性打了一劑強心針，更為大模型落地垂直工業級應用指明了方向。

尤為關鍵的是，Agora 的架構設計展現出極高的可擴展性與通用性。研究團隊強調，Agora 還可以以插件或 skill 的形式被廣大用戶快速複現使用，我們的代碼中（github.com/0gfoundation/agora）提供了相應的 skills 幫助複現。不僅如此，Agora 的「大模型 + 多 Agent 協同 + 假說驅動」範式並非僅能用於共識協議。由於其底層工作流控制與上層領域知識庫、測試實現了深度解耦，這意味著該架構不僅能幫助眾多用戶快速用於共識協議 debug，還能以「插拔式」（Plug-and-Play）的方式快速推廣至其他同樣深受「深層邏輯漏洞地獄」折磨的硬核領域：

資料庫併發控制（Concurrency Control）：用於測試分佈式資料庫在極端隔離級別（如序列化 Serializable）下的複雜事務衝突缺陷。

作業系統核心 / 併發系統：深入探討多執行緒基礎設施中隱藏的死鎖與競態條件。

Web3 智能合約審計：針對涉及複雜經濟模型的跨鏈協議和 DeFi 邏輯進行深度安全邊界探查。區塊鏈安全市場預計 2026 年規模已達約 85 億美元，且已出現以「多智能體安全系統」做智能合約審計、將審計週期從數週壓縮到數小時的商業產品，市場需求正在爆發。

工業級底層基礎設施的 AI 自動化安全時代，或許正由 Agora 和它的 Harness 架構正式開啟。

我們有理由相信，Agora 可以透過在各個領域發現的更多 deep bug，更好地測試 coding LLM 的能力，其發現的 deep bug 用例也可幫助 coding LLM 提升程式碼理解能力。

Agora 可以大幅提升作為金融安全交易基礎的共識協議、併發控制、智能合約等代碼倉庫的安全性。而且 Agora 也能幫助更多科技公司發現更深層的 logic bug，同時消耗更少的 tokens，節省資金卻更高效！

更重要的是，這恰好踩中了當下最熱的兩條賽道：一是多智能體系統正從實驗走向生產——Gartner 預計到 2028 年將有超過 30% 企業軟體內置 agentic AI，多智能體平台市場規模數年內將從百億美元級別衝向數百億美元；二是「用智能體審查智能體」的智能體化質量管控（Agentic Quality Control）正成為 2026 年的行業標準。

在 Veracode 2025 報告指出約 45% 的 AI 生成代碼含有安全漏洞、agentic AI 安全市場以約 42% 年複合增速狂奔的背景下，Agora 讓科技公司能以更低的 token 成本挖出更深的 Logic Bug，把安全審計從「按週計費的人力活」升級為「按小時交付的自動化能力」。

而當這條賽道的格局逐漸清晰，真正佔住先機的，往往不是聲量最大的巨頭，而是那支最早把方法論跑通、並能持續複製的團隊。

原文連結

點擊了解律動 BlockBeats 在招崗位

歡迎加入律動 BlockBeats 官方社群：

Telegram 訂閱群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方帳號：https://twitter.com/BlockBeatsAsia