Sumber asli: Jiqizhixin

“Sang Graal” dari sistem terdistribusi—protokol konsensus (Consensus Protocols)—sejak lama menjadi “neraka bug” bagi insinyur infrastruktur tingkat atas. Karena statusnya sangat kompleks dan saling terkait antar node, pengujian tradisional dan LLM monolitik hampir tidak berdaya menghadapi Deep Bug (celah logika mendalam) yang sulit.

Baru-baru ini, peneliti dari tim akademik dan industri terkemuka seperti 0G Labs, Universitas Nasional Singapura, Universitas Peking, dan Universitas Telekomunikasi Beijing, yang memiliki makalah diterima di ICML 2026 terbaru, memperkenalkan kerangka kerja pengujian otomatis pertama yang secara mendalam mengintegrasikan pengetahuan domain dengan kolaborasi multi-agent model besar—Agora.

Framework ini, melalui arsitektur inovatif, secara langsung menangani titik lemah protokol, dan berhasil menemukan 15 bug tingkat protokol yang sebelumnya tidak dikenal di dalam protokol inti industri dan akademis seperti Raft, EPaxos, HotStuff, dan BullShark. Sebaliknya, model besar native sekuat GPT-5.2 dan Claude 4.5 sama sekali gagal, dengan hasil nol. Di tengah tren saat ini di mana sistem multi-agent dan 'agentic quality control' menjadi dua jalur paling panas tahun 2026, Agora tidak hanya menyajikan sebuah paper, tetapi juga solusi industri yang dapat diimplementasikan.

Paper: Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents

1. Latar belakang: 0G berkolaborasi erat dengan NUS, menggabungkan pengetahuan sistem jangka panjang dengan sintesis lintas generasi dan paradigma Multi-Agent

Perkembangan protokol konsensus terdistribusi adalah sejarah inovasi brilian sekaligus kisah berdarah-darah dari ribuan insinyur terkemuka yang pernah salah langkah. Seperti yang dikatakan penerima Hadiah Turing Lamport, menjamin kebenaran implementasi protokol terdistribusi sama sulitnya dengan berjalan tanpa penglihatan melalui labirin yang terus bergoyang. Di jalur yang "sangat sulit" ini, pasar sedang berubah diam-diam: menurut observasi Gartner, permintaan konsultasi perusahaan untuk sistem multi-agent meningkat lebih dari sepuluh kali lipat dalam lebih dari satu tahun, dan pasar platform multi-agent pun memasuki periode ekspansi cepat hampir dua kali lipat per tahun—menggunakan "kolaborasi multi-agent" untuk verifikasi sistem dasar paling canggih kini berubah dari gagasan mutakhir menjadi kebutuhan industri.

Menghadapi lintasan yang sangat sulit ini, raksasa teknologi dengan reputasi cemerlang telah memulai eksplorasi berbasis aset berat. Sebagai contoh, Anthropic yang merupakan pemimpin industri baru-baru ini mendorong proyek Glasswing di dalam Claude Code, yang meskipun mencoba menggunakan Agent untuk menguji infrastruktur dasar, arsitekturnya tetap sangat bergantung pada model besar komersial teratas, detail proyeknya tetap tidak jelas, dan hanya bekerja sama secara tertutup dengan sejumlah kecil lembaga teknologi besar dan raksasa multinasional. Lebih mematikan lagi, solusi raksasa semacam ini mungkin menunjukkan konsumsi Token yang menakutkan selama operasi, hambatan komputasi dan pendekatan berbasis aset berat ini secara langsung menghalangi perusahaan rintisan dan UMKM dengan anggaran terbatas.

Apakah perusahaan kecil dan komunitas open source terlahir untuk tidak mampu menggunakan alat audit kerentanan otomatis tingkat atas?

Insinyur dari 0G Labs bersama Liu Xiang dari Universitas Nasional Singapura, Song Sa dan Profesor Sun Yong dari Universitas Telekomunikasi Beijing, serta mahasiswa doktoral Zhang Zhaowei dan peneliti Zhang Ceyao dari Sekolah Intelijen Universitas Peking, menerapkan keahlian mendalam mereka di bidang Agent ke dalam sistem, melakukan inovasi revolusioner "dengan sumber daya kecil mencapai hasil besar", dan karya mereka telah diterima di konferensi top AI 2026, ICML.

Pengendapan pengetahuan sistem jangka panjang dari dunia akademis bertemu dengan "titik nyeri dan indra tajam" dari dunia industri, bagaimana cara memicu revolusi keamanan sistem generasi berikutnya?

Tim 0G telah mengakumulasi pengalaman pertahanan dan serangan produksi yang sangat kaya dalam penerapan protokol konsensus blockchain; sementara tim memiliki dasar akademis yang sangat mendalam di bidang sistem terdistribusi berkinerja tinggi, kontrol konkurensi tingkat bawah, dan verifikasi formal sistem. Mereka memahami bahwa metode tradisional (seperti Fuzzing) sering terbatas oleh ledakan ruang status ketika menghadapi kodebase tingkat industri. Beberapa peneliti memutuskan untuk menyuntikkan pengetahuan logis inferensi invariant global sistem terdistribusi yang telah lama dikumpulkan sebagai "jiwa" ke dalam paradigma kolaborasi agen multi-terkini dan arsitektur Harness otomatis, meluncurkan kerangka kerja terbuka dan setara Agora.

Sambil itu, sebagai infrastruktur AI modular dan jaringan ketersediaan data terdesentralisasi berkinerja tinggi di garis depan industri, tim 0G telah mengumpulkan pengalaman pertahanan dan serangan tingkat produksi yang sangat kaya serta sampel cacat protokol dunia nyata dalam penerapan industri protokol konsensus blockchain dan arsitektur BFT (Byzantine Fault Tolerance) berkonkurensi tinggi.

Integrasi lintas bidang ini benar-benar mengubah aturan permainan: bukan sekadar pengujian kekerasan sembarangan, bukan pula model besar yang tidak memiliki pengetahuan domain seperti "orang buta menyentuh gajah", tetapi melalui pembagian peran Agent yang profesional, intuisi logis puluhan tahun dari pakar sistem dialihkan menjadi permainan dan kolaborasi antar-Agent, sehingga memiliki kekuatan inti untuk menekan alat pengujian tradisional.

Berbeda dengan Glasswing yang mengandalkan pendekatan berat dengan menelan sejumlah besar token top, Agora membawa solusi alternatif yang sangat ramah bagi UMKM—ia membuktikan bahwa bahkan dengan model dasar yang "sedikit lebih rendah" namun lebih hemat biaya, melalui arsitektur kolaborasi multi-Agent yang cerdas berbasis domain, tetap mampu mengungkap bug mendalam yang sulit!

2. Masalah: LLM monolitik sulit melampaui batas, sistem terdistribusi menggantungkan "Pedang Damokles logika mendalam"

Di era di mana big data, blockchain, dan database terdistribusi menguasai segalanya, protokol konsensus (seperti Paxos, Raft, PBFT, dll.) adalah fondasi dasar seluruh dunia digital. Namun, implementasi protokol konsensus terkenal memiliki tingkat kesulitan "level neraka". Bahkan proyek industri standar seperti etcd yang telah diuji oleh ribuan insinyur terkemuka di seluruh dunia dan berjalan bertahun-tahun, tetap menyimpan Deep Bug (celah logika mendalam) yang bisa membuat keringat dingin.

Lubang keamanan semacam ini berbeda dari lubang implementasi rendah biasa seperti memory leak atau integer overflow, karena melintasi beberapa tahap eksekusi dan bergantung pada status konkuren yang kompleks. Jika dipicu secara jahat, tidak hanya akan menyebabkan kerusakan data inti, tetapi juga dapat memicu kerugian finansial yang bencana.

Meskipun model bahasa besar (LLM) yang populer dalam beberapa tahun terakhir menunjukkan kinerja luar biasa dalam analisis kode umum, mereka tampak 'kurang cerdas' ketika menghadapi konsensus terdistribusi. Mereka paling banyak mampu mengidentifikasi cacat permukaan pada kode lokal, tetapi ketika menghadapi kerentanan logika tingkat protokol yang bergantung pada status global, LLM monolitik sering terjebak dalam kode lokal dan sama sekali tidak mampu melakukan penalaran urutan global.

3. Terobosan: Tiga Agent Agora dan Arsitektur Harness Inti

Untuk mengatasi kebuntuan ini, Agora pertama kali memperkenalkan paradigma pengujian berbasis hipotesis (Hypothesis-Driven Testing, HDT) klasik dari dunia akademik ke dalam sistem Agent model besar. Untuk mencapai inferensi global yang efisien, Agora sepenuhnya meninggalkan model tradisional 'berjuang sendiri' dan memecah alur kerja menjadi tiga Agent yang sangat spesialisasi, masing-masing memiliki peran yang jelas:

Orchestrator Agent (Coordinator): Bertanggung jawab atas pemeliharaan status global dan eksploitasi kerentanan berdasarkan contoh yang diketahui;

Strategy Agent (Strategis): Bertanggung jawab untuk menyuntikkan pengetahuan domain terdistribusi, menghasilkan skenario anomali yang sangat agresif untuk protokol CFT dan BFT.

TestGen Agent (Code Officer): Praktis. Kunci utama agar Agora benar-benar dapat diimplementasikan dan menghasilkan pengujian yang efektif secara otomatis adalah arsitektur pengujian otomatis intinya.

Arsitekturnya seperti yang ditunjukkan pada gambar:

Dalam desain keseluruhan Agora, keajaiban egaliter "bermodal kecil untuk meraih keuntungan besar" ini bukan muncul begitu saja, tetapi berasal dari integrasi mendalam antara mekanisme interaksi agen cerdas dan arsitektur Harness pengujian.

Tim peneliti secara khusus merancang mekanisme komunikasi dan memori yang sangat sederhana dan efisien (Succinct Memory & Communication) di dalam kerangka sistem, meminimalkan overhead transmisi konteks yang tidak perlu sambil memastikan setiap Agent fokus pada tugas intinya. Di bawah batasan komunikasi ekstrem ini, Orchestrator Agent (bertanggung jawab atas koordinasi global dan kontrol status), Strategy Agent (bertanggung jawab atas generasi lingkungan dan skenario anomali terdistribusi), serta TestGen Agent (bertanggung jawab atas pengujian kode dan evaluasi dinamis Evaluation) saling terjalin dengan sempurna, bersama-sama mendorong dan memenuhi arsitektur Harness:

Otomatisasi siklus tertutup yang saling melengkapi: Setelah Strategy Agent menghasilkan skenario serangan terdistribusi yang abstrak, TestGen Agent dapat segera memicu pengujian dasar berkat kerangka interaksi yang sangat terpisah. Arsitektur ini tidak hanya memiliki kemampuan adaptasi lingkungan yang kuat, mampu melintasi berbagai lingkungan bahasa pemrograman seperti Go dan Rust, serta mengubah hipotesis serangan menjadi unit test yang dapat dijalankan secara nyata, tetapi juga dilengkapi teknologi siklus refleksi (Reflection-Loop) yang efisien.

Saat pengujian mengalami kesalahan di lingkungan, sistem akan secara akurat dan real-time menangkap stack trace dan log eksekusi, lalu mengirimkannya kembali secara ringkas ke Agent untuk koreksi mandiri yang terarah. Kombinasi sinergis dari «interaksi minimal multi-Agent + loop Harness dinamis» ini tidak hanya memungkinkan Agora untuk menangkap bug logika mendalam yang paling tersembunyi dengan biaya Token sangat rendah, tetapi juga menghasilkan laporan analisis rinci dengan tingkat false positive yang sangat rendah.

Gambaran akhirnya ditunjukkan seperti berikut:

4. Hasil: Membawa pulang 15 Deep Bug tingkat atas, baseline model besar semuanya gagal

Hasil evaluasi sangat mengejutkan. Tim peneliti melakukan uji coba menyeluruh pada empat perpustakaan protokol konsensus terkenal (termasuk etcd tingkat produksi dan komponen dasar Sui, blockchain publik baru), serta membandingkan model-model terkuat di dunia seperti GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5, dan Qwen3 Coder.

Hasilnya tidak hanya membuat sistem konsensus yang dijalankan oleh 0G menjadi lebih aman, tetapi juga menunjukkan serangan mendominasi yang tak tertandingi:

15 kerentanan logika mendalam Logic Deep baru muncul: Agora berhasil menemukan 15 kerentanan logika tingkat protokol yang sebelumnya tidak diketahui. Kerentanan-kerentanan ini mencakup bidang-bidang berisiko tinggi seperti perbedaan eksekusi, pelanggaran monotonisitas, cacat topologi, dan kerentanan tanda tangan.

Model besar asli sepenuhnya gagal: sebaliknya, model dasar (bahkan yang dilengkapi rantai alat dinamis ReAct yang canggih) semuanya gagal total (0/15) saat menghadapi kerentanan logika mendalam ini. Mereka menghabiskan banyak Token, tetapi hanya berputar-putar pada bug implementasi kode tingkat rendah.

Tingkat false positive sangat rendah dan nilai yang sangat tinggi: Dari semua laporan bug yang dihasilkan oleh Agora, 73,9% merupakan lubang logika nyata (tingkat false positive hanya 26,1%). Lebih menakjubkan lagi, rata-rata hanya memerlukan sekitar 5,32M token (sekitar $40) untuk menemukan satu bug logika tingkat tinggi yang bisa membuat arsitek berpengalaman kehilangan rambut, dengan nilai yang sangat tinggi.

Hasil di berbagai LLM ditunjukkan sebagai berikut:

5. Masa depan: Kemampuan penyebaran tinggi, memasuki lebih banyak wilayah inti dasar yang belum tersentuh

Keberhasilan Agora tidak hanya memberikan dorongan kuat terhadap keamanan sistem terdistribusi, tetapi juga menunjukkan arah penerapan model besar dalam aplikasi industri vertikal.

Yang terutama penting, arsitektur Agora menunjukkan skalabilitas dan universalitas yang sangat tinggi. Tim peneliti menekankan bahwa Agora juga dapat dengan cepat direplikasi dan digunakan oleh pengguna luas dalam bentuk plugin atau skill, dan kami menyediakan skill terkait di kode kami (github.com/0gfoundation/agora) untuk membantu replikasi. Lebih dari itu, paradigma "model besar + kolaborasi multi-agent + berbasis hipotesis" Agora tidak hanya terbatas pada protokol konsensus. Karena kontrol alur kerja dasar dan basis pengetahuan domain tingkat atas serta pengujian telah terpisah secara mendalam, ini berarti arsitektur ini tidak hanya dapat membantu banyak pengguna dengan cepat menggunakan protokol konsensus untuk debug, tetapi juga dapat dengan cepat diterapkan secara "plug-and-play" ke bidang-bidang keras lainnya yang juga menderita "neraka celah logika mendalam":

Kontrol konkurensi database: Digunakan untuk menguji cacat konflik transaksi kompleks pada database terdistribusi di bawah tingkat isolasi ekstrem (seperti serializable).

Kernel sistem operasi / sistem konkuren: Menemukan secara mendalam deadlock dan race condition tersembunyi di dalam infrastruktur multithreading.

Pemeriksaan kontrak pintar Web3: Pengecekan mendalam terhadap batas keamanan untuk protokol lintas rantai dan logika DeFi yang melibatkan model ekonomi kompleks. Pasar keamanan blockchain diperkirakan mencapai sekitar $8,5 miliar pada tahun 2026, dan telah muncul produk komersial yang menggunakan sistem keamanan multi-agens untuk melakukan pemeriksaan kontrak pintar, mengurangi siklus pemeriksaan dari beberapa minggu menjadi beberapa jam, permintaan pasar sedang meledak.

Era otomasi keamanan AI berbasis infrastruktur dasar tingkat industri mungkin secara resmi dimulai oleh Agora dan arsitektur Harness-nya.

Kami percaya bahwa Agora dapat membantu menguji kemampuan LLM pemrograman lebih baik melalui lebih banyak deep bug yang ditemukan di berbagai bidang, dan kasus deep bug yang ditemukan juga dapat membantu LLM pemrograman meningkatkan pemahaman kode.

Agora dapat secara signifikan meningkatkan keamanan kode repositori yang menjadi dasar transaksi keuangan yang aman, seperti protokol konsensus, kontrol konkurensi, dan kontrak cerdas. Selain itu, Agora juga dapat membantu lebih banyak perusahaan teknologi menemukan bug logika yang lebih dalam, dengan menghabiskan lebih sedikit token, sehingga lebih hemat biaya namun lebih efisien!

Lebih penting lagi, ini tepat menyasar dua jalur paling panas saat ini: pertama, sistem agen ganda sedang berpindah dari eksperimen ke produksi—Gartner memperkirakan pada tahun 2028 lebih dari tiga puluh persen perangkat lunak perusahaan akan memiliki AI agentic, dan pasar platform agen ganda dalam beberapa tahun mendatang akan melonjak dari skala puluhan miliar dolar menjadi ratusan miliar dolar; kedua, pengendalian kualitas berbasis agen (Agentic Quality Control) yang menggunakan agen untuk memeriksa agen akan menjadi standar industri pada tahun 2026.

Dalam konteks laporan Veracode 2025 yang menunjukkan sekitar 45% kode yang dihasilkan AI mengandung kerentanan keamanan, dan pasar keamanan agentic AI tumbuh dengan laju pertumbuhan tahunan majemuk sekitar 42%, Agora memungkinkan perusahaan teknologi untuk menemukan Logic Bug yang lebih dalam dengan biaya token yang lebih rendah, mengubah audit keamanan dari “aktivitas manusia yang dibayar per minggu” menjadi “kemampuan otomatis yang diserahkan per jam”.

Dan ketika tatanan lomba ini mulai jelas, pihak yang benar-benar memperoleh keunggulan awal seringkali bukanlah raksasa dengan suara paling keras, melainkan tim yang paling awal berhasil mengimplementasikan metodologinya dan mampu mereplikasi secara berkelanjutan.

Link asli

Klik untuk mengetahui posisi yang sedang dibuka oleh BlockBeats

Selamat bergabung dengan komunitas resmi BlockBeats:

Grup langganan Telegram: https://t.me/theblockbeats

Grup Telegram: https://t.me/BlockBeats_App

Akun resmi Twitter: https://twitter.com/BlockBeatsAsia