原文元：機械の心

分散システムの「聖杯」であるコンセンサスプロトコル（Consensus Protocols）は、長年にわたりトップレベルのインフラエンジニアにとって「バグの地獄」だった。その状態が極めて複雑で、複数ノードが交差するため、従来のテストやモノリシックLLMはハードコアなディープバグ（深層ロジックの脆弱性）に対してほぼ手を焼いている。

近日、最新のICML 2026採択論文において、0G Labsおよび新加坡国立大学、北京大学、北京郵電大学などのトップレベルの学術・産業チームの研究者らが、分野知識と大規模モデルのマルチエージェント協同を深く統合した初の自動化テストフレームワーク「Agora」を提案しました。

このフレームワークは革新的なアーキテクチャを通じて、プロトコルの課題に直接アプローチし、Raft、EPaxos、HotStuff、BullShark などの産業界および学術界のコアプロトコルにおいて、これまで存在が知られていなかった15のプロトコルレベルのDeep Bugを一気に発見しました。対照的に、GPT-5.2やClaude 4.5などのネイティブな大規模モデルは次々と失敗し、ゼロ点でした。マルチエージェント（Multi-Agent）システムと「エージェント化されたセキュリティ監査」（Agentic Quality Control）が2026年で最も注目される分野となっている今、Agoraは単なる論文ではなく、実用可能な産業レベルの解決策を提示しています。

論文：《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》

1. 背景：0G と NUS が強力に連携し、長期にわたるシステム知識の蓄積と Multi-Agent パラダイムのクロスオーバー・クロスジェネレーション統合

分散型合意プロトコルの進化は、天才的な革新の歴史であると同時に、数多くのトップエンジニアが血を流して踏み外した歴史でもある。チューリング賞受賞者であるラムポートが指摘したように、分散型プロトコルの実装の正しさを保証することは、絶えず揺れる迷宮の中で目隠しをして歩き抜けることと同等の難易度を伴う。そしてこの「地獄級」の競技場で、市場は静かに移行しつつある。ガートナーの観察によると、マルチエージェントシステムに対する企業からのコンサルティング問い合わせは1年余りで10倍以上に急増しており、マルチエージェントプラットフォーム市場も年間ほぼ2倍の高速拡張期に入っている——「マルチエージェント協調」を最もハードコアな基盤システム検証に活用することは、最先端の仮説から産業の必須要件へと変貌しつつある。

この地獄級の競争環境において、輝かしい看板を掲げるテクノロジー大手がまず重資本型の探求を開始した。例えば業界をリードするAnthropicは、最近Claude Code内でGlasswingプロジェクトを推進しているが、このプロジェクトはAgentを用いてインフラの底层をテストしようとしているものの、依然として最高レベルの商用大規模モデルに極めて依存しており、プロジェクトの詳細は不明確で、限定的に極めて少数の大手テクノロジー機関および多国籍大手との非公開協力のみを実施している。さらに致命的なのは、こうした大手のソリューションが実行中に恐ろしいほどのトークン消費量を示す可能性があり、この高額な計算リソースの壁と重資本路線が、予算が限られたスタートアップ企業や中小企業を直接的に排除していることである。

小規模な企業やオープンソースコミュニティは、最高レベルの自動化脆弱性監査ツールを使えない運命なのでしょうか？

0G Labsのエンジニアたちと、新加坡国立大学の劉祥、北京郵電大学の宋飒、孫勇教授、および北京大学智能学院の博士課程学生の張钊為と研究員の張策尧が、エージェント分野における豊富な知識をシステムに活かし、「小で大を制する」革新的な取り組みを展開し、その成果は2026年AIトップ会議ICMLに採択されました。

学術界の「長期的なシステム知識の蓄積」が、産業界の「課題と鋭い感覚」と出会ったとき、次世代のシステムセキュリティ革命はどのようにして爆発するのか？

0Gチームは、ブロックチェーンコンセンサスプロトコルの実装において、実践レベルの攻防経験を豊富に蓄積しており、高性能分散システム、低レベル並行制御、およびシステム形式的検証の分野においても深い学術的基盤を有している。彼らは、Fuzzingなどの従来の手法が産業級コードベースに対して状態空間の爆発により制限されることが多いことを深く理解している。複数の研究者は、長年にわたり蓄積された分散システムのグローバル不変性（invariants）の論理的推論知識を「魂」として、最先端のマルチエージェント協調パラダイムと自動化ハーネスアーキテクチャに組み込み、オープンで平等なAgoraフレームワークを発表した。

同時に、業界の最先端にあるモジュラーAIインフラストラクチャーおよび高性能分散型データ可用性ネットワークとして、0Gチームはブロックチェーンコンセンサスプロトコルおよび高並列BFT（ Byzantine Fault Tolerance）アーキテクチャの産業実装において、非常に豊富なプロダクションレベルの攻防経験と現実世界のプロトコル欠陥サンプルを蓄積しています。

このクロスオーバーな統合は、ゲームのルールを根本的に変えました。それは無計画なブルートフォーステストでも、分野の知識に欠ける大規模モデルによる「盲人が象を触る」ようなものでもなく、専門化されたエージェントの役割分担を通じて、熟練したシステム専門家が数十年にわたり培ってきた論理的直感を、エージェント間のゲーム理論的相互作用と協調に変換し、従来のテストツールに対して次元を越えた圧倒的優位性を実現しました。

Glasswingが巨額のトップトークンを消費する重資本路線とは対照的に、Agoraは中小企業に非常に優しい代替案を提供します——基盤モデルが「やや劣る」がコストパフォーマンスが高い状況でも、洗練されたドメイン認識型マルチエージェント協調アーキテクチャを通じて、ハードコアなDeep Bugを特定できることを実証しました！

2. 痛点：単一LLMは壁を越えられず、分散システムには「深層ロジックのダモクレスの剣」が懸かっている

ビッグデータ、ブロックチェーン、分散データベースが支配する今日、コンセンサスプロトコル（Paxos、Raft、PBFT など）はデジタル世界の基盤である。しかし、コンセンサスプロトコルの実装は有名な「地獄級の難易度」を有している。etcd といった、世界中の数多くのトップエンジニアによって長年にわたり鍛えられ、運用されてきた工業用のベンチマークプロジェクトでさえ、汗をかかせるようなディープバグ（深层逻辑漏洞）を依然として抱えている。

このような脆弱性は、メモリリークや整数オーバーフローなどの一般的な低レベル実装バグとは異なり、複数の実行段階にまたがり、複雑な並行状態に依存します。悪意を持ってトリガーされると、コアデータの破損を引き起こすだけでなく、災害級の金融損失をも招く可能性があります。

近年、大きな話題となった大規模言語モデル（LLM）は、一般的なコード分析では優れた性能を発揮するが、分散合意には「知能が足りない」ように見える。それらは局所的なコードの表面的な欠陥を特定することはできるが、グローバルステートに依存するプロトコルレベルの論理的脆弱性には対応できず、単体のLLMは局所的なコードの泥沼に陥り、グローバルな時系列推論をまったく行えない。

3. 破局：Agora の3つのエージェントによる乾坤大転換とコアハーネスアーキテクチャ

この僵局を打破するために、Agoraは、学術界で古典的な仮説駆動テスト（Hypothesis-Driven Testing, HDT）パラダイムを大規模モデルAgentシステムに初めて導入しました。効率的なグローバル推論を実現するため、Agoraは従来の「単独作戦」モードを完全に廃止し、ワークフローをそれぞれ専門化された3つのAgentに精巧に分離しました：

オーケストレーターエージェント（調整者）：グローバルステータスの維持と既知の脆弱性の類推による「脆弱性の悪用」を担当；

ストラテジーエージェント：分散型ドメイン知識を注入し、CFTおよびBFTプロトコルに対して攻撃的な異常シナリオを生成します。

TestGenエージェント（コード官）：実行志向。Agoraが実際に実装され、有効なテストを自動生成する鍵は、その核心となる自動テストアーキテクチャにある。

そのアーキテクチャは以下の図の通りです：

Agoraの全体設計において、この「小で大を制す」平等の魔法は空想から生まれたものではなく、洗練されたエージェント相互作用メカニズムとテストHarnessアーキテクチャの深層的な統合から生み出されたものです。

研究チームは、システムフレームワーク内部に、極めて簡素で効率的な通信とメモリメカニズム（Succinct Memory & Communication）を専用で設計し、各エージェントが自らの核心タスクに集中しつつ、不要なコンテキスト転送オーバーヘッドを最小限に抑えました。この極限の通信制約下で、オーケストレーターエージェント（グローバルな調整とステート制御を担当）、ストラテジーエージェント（分散型異常環境とシナリオ生成を担当）、およびTestGenエージェント（コードテストと動的評価Evaluationを担当）が完璧に連携し、Harnessアーキテクチャを駆動し、要件を満たしています。

自動化クローズドループの二刀流：Strategy Agent が抽象的な分散攻撃シナリオを推論した後、高度に非結合されたインタラクションフレームワークに基づき、TestGen Agent が即座に下層のテストを起動します。このアーキテクチャは、Go や Rust などの異なるプログラミング言語環境を跨いで攻撃仮説を実行可能なユニットテストに変換できる強力な環境適応能力を備えており、効率的なリフレクションループ（Reflection-Loop）技術も内蔵しています。

環境でテストがエラーを発生させた場合、システムは呼び出しスタックと実行ログを正確かつリアルタイムで捕捉し、それを簡略化してAgentに送信して特定の自己修正を実行します。この「複数Agentの極簡な相互作用＋動的Harnessの閉ループ」の有機的統合により、Agoraは極めて低いトークンコストで最も隠蔽された深層ロジックバグを正確に捕捉するとともに、誤検出率が極めて低い詳細な分析レポートを生成します。

その最終実行の概要は以下の図の通りです：

4. 成果：15のトップレベルのゼロデイDeep Bugを獲得、大規模モデルのベースラインはすべてゼロ

評価結果は衝撃的でした。研究チームは、生産環境で使用されているetcdや新興パブリックチェーンSuiの基盤コンポーネントを含む4つの著名なコンセンサスプロトコルライブラリに対して包括的なテストを実施し、GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5、Qwen3 Coderなどの最先端モデルと比較しました。

その結果は、0G自体が動作するコンセンサスシステムをより安全にするだけでなく、圧倒的な次元の差をもたらします：

15の新規Logic Deep Bugが浮上：Agoraは、これまで誰も知らなかった15のプロトコルレベルの深层論理脆弱性を特定しました。これらの脆弱性は、実行不一致、単調性違反、トポロジー欠陥、署名脆弱性など、高リスク分野にまたがっています。

ネイティブ大モデルが全面的に剃り上げ：一方、基線モデル（先進的なReAct動的ツールチェーンを搭載していても）は、このような深いロジックの脆弱性に対してすべて開き直り（0/15）。大量のTokenを消費するものの、低レベルのコード実装バグにしか対応できない。

極低い誤検出率と圧倒的なコストパフォーマンス：Agoraが生成したすべてのバグレポートのうち、真のロジック脆弱性の割合は73.9%に達し（誤検出率はわずか26.1%）、さらに、熟練アーキテクトを悩ませるトップレベルのロジックバグを1つ発見するのに必要なトークン消費量は平均して約5.32Mトークン（約40ドル）に過ぎず、コストパフォーマンスが非常に高いです。

複数のLLMでの結果は以下の通りです：

5. 未来：高い拡張性で、さらに多くの底层のハードコアな「未開拓領域」へ進出

Agoraの成功は、分散システムのセキュリティに強力な後押しをもたらすだけでなく、大規模モデルの垂直産業アプリケーションへの実装に道筋を示しました。

特に重要なのは、Agoraのアーキテクチャ設計が非常に高い拡張性と汎用性を示していることです。研究チームは、Agoraがプラグインやスキルの形で広くユーザーに再現・利用できると強調しており、私たちのコード（github.com/0gfoundation/agora）にはそのようなスキルを提供しています。さらに、Agoraの「大規模モデル＋複数エージェント協調＋仮説駆動」パラダイムは、合意プロトコルに限定されません。その下層のワークフロー制御と上層のドメイン知識ベース、テストが深く分離されているため、このアーキテクチャは多くのユーザーが合意プロトコルのデバッグに迅速に活用できるだけでなく、「プラグアンドプレイ」方式で、同様に「深層ロジックのバグ地獄」に悩まされる他のハードコアな分野にも素早く展開できます：

データベース並行制御（Concurrency Control）：分散データベースが極端な隔離レベル（例：直列化 Serializable）における複雑なトランザクション衝突の欠陥をテストするために使用されます。

オペレーティングシステムカーネル／並行システム：マルチスレッドインフラストラクチャに隠されたデッドロックと競合状態を深く探求する。

Web3 スマートコントラクト監査：複雑な経済モデルを伴うクロスチェーンプロトコルおよびDeFiロジックに対する深度なセキュリティ境界探査。ブロックチェーンセキュリティ市場は2026年までに約85億ドル規模に達すると予想されており、複数エージェントセキュリティシステムを用いてスマートコントラクト監査を実施し、監査サイクルを数週間から数時間に短縮する商業製品が登場しており、市場需要が爆発的に拡大しています。

AgoraとそのHarnessアーキテクチャが、産業級の基盤インフラにおけるAI自動化セキュリティ時代を正式に開幕するかもしれません。

Agoraは、さまざまな分野で発見されたより多くのdeep bugを通じて、coding LLMの能力をより良くテストできると信じています。また、発見されたdeep bugのユースケースは、coding LLMのコード理解能力の向上にも役立ちます。

Agoraは、金融安全取引の基盤となるコンセンサスプロトコル、並行制御、スマートコントラクトなどのコードリポジトリのセキュリティを大幅に向上させます。また、Agoraはより多くのテクノロジー企業がより深いロジックバグを発見するのを支援し、より少ないトークンでより効率的に資金を節約します！

さらに重要なのは、これが現在最も注目されている2つの分野にぴったり当てはまることです。1つ目は、マルチエージェントシステムが実験段階から本格的な生産段階へと移行していることです。ガートナーは、2028年までに3割以上の企業ソフトウェアにエージェント型AIが組み込まれると予測しており、マルチエージェントプラットフォームの市場規模は数年以内に百億ドル規模から数百億ドル規模へと急拡大すると見られています。2つ目は、「エージェントによってエージェントを監査する」エージェント化品質管理（Agentic Quality Control）が2026年の業界標準となることです。

Veracode 2025レポートによると、AIが生成したコードの約45%にセキュリティ脆弱性が含まれており、エージェント型AIのセキュリティ市場は年間約42%の複合成長率で急拡大しています。このような背景のもと、Agoraはテクノロジー企業がより低いトークンコストでより深いロジックバグを発見できるようにし、セキュリティ監査を「週単位で課金される人的作業」から「時間単位で提供される自動化された能力」へと昇格させます。

そしてこの分野の構図が徐々に明確になる中で、最も大きな声を上げる大手企業ではなく、最初に方法論を確立し、それを継続的に再現できるチームが真に先手を取る。

元のリンク

リズムBlockBeatsの採用ポジションを詳しく見る

律動 BlockBeats 公式コミュニティへようこそ：

Telegram サブスクリプショングループ：https://t.me/theblockbeats

Telegram コミュニティ：https://t.me/BlockBeats_App

Twitter公式アカウント：https://twitter.com/BlockBeatsAsia