Nguồn gốc bài viết: Machine Heart

“圣杯” của hệ thống phân tán — các giao thức đồng thuận (Consensus Protocols), từ lâu đã là “địa ngục bug” của các kỹ sư hạ tầng cấp cao. Do trạng thái cực kỳ phức tạp và các nút đa dạng đan xen, các bài kiểm tra truyền thống và LLM đơn thể gần như bất lực trước các Deep Bug (lỗ hổng logic sâu xa).

Gần đây, một bài báo được chấp nhận tại ICML 2026 mới nhất, do các nhà nghiên cứu từ các đội ngũ học thuật và công nghiệp hàng đầu như 0G Labs, Đại học Quốc gia Singapore, Đại học Bắc Kinh và Đại học Bưu chính Viễn thông Bắc Kinh, đã đề xuất khung kiểm thử tự động hóa đầu tiên tích hợp sâu sắc kiến thức lĩnh vực với sự hợp tác đa tác nhân của mô hình lớn — Agora.

Khung này thông qua kiến trúc sáng tạo, trực tiếp giải quyết các điểm đau của giao thức, và đã phát hiện 15 lỗi sâu cấp giao thức hoàn toàn mới chưa từng được biết đến trong các giao thức cốt lõi công nghiệp và học thuật như Raft, EPaxos, HotStuff, BullShark. So sánh với các mô hình ngôn ngữ lớn mạnh mẽ như GPT-5.2, Claude 4.5, vốn đều thất bại và không phát hiện được lỗi nào. Trong bối cảnh hệ thống đa tác nhân (Multi-Agent) và “kiểm soát chất lượng tác nhân” (Agentic Quality Control) đang trở thành hai lĩnh vực nóng nhất năm 2026, Agora không chỉ đưa ra một bài báo nghiên cứu, mà còn là một giải pháp công nghiệp có thể triển khai thực tế.

Bài luận: 《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》

1. Bối cảnh: 0G hợp tác chặt chẽ với NUS, kết hợp xuyên ngành, xuyên thế hệ giữa tích lũy kiến thức hệ thống lâu dài và mô hình Multi-Agent

Sự phát triển của các giao thức đồng thuận phân tán vừa là lịch sử sáng tạo thiên tài, vừa là hành trình đầy máu me của vô số kỹ sư hàng đầu từng va chạm với sai lầm. Như nhà nhận giải Turing Lamport từng nói, việc đảm bảo tính chính xác trong thực hiện giao thức phân tán khó khăn không kém gì việc đi xuyên qua một mê cung liên tục rung lắc trong bóng tối. Và ngay trên con đường “khủng khiếp” này, thị trường đang âm thầm chuyển dịch: Theo Gartner, lượng tư vấn doanh nghiệp về hệ thống đa tác nhân đã tăng hơn mười lần trong hơn một năm, và thị trường nền tảng đa tác nhân cũng bước vào giai đoạn mở rộng nhanh chóng với tốc độ gần như gấp đôi mỗi năm — việc ứng dụng “hợp tác đa Agent” vào xác minh hệ thống nền tảng phức tạp nhất đang dần trở thành nhu cầu thực tế trong ngành.

Trước con đường đầy thử thách này, các đế chế công nghệ được vinh danh đã率先 tiến hành các cuộc khám phá với vốn đầu tư lớn. Ví dụ, Anthropic – nhà tiên phong trong ngành – gần đây đã thúc đẩy dự án Glasswing trong Claude Code, dù thử nghiệm sử dụng Agent để tiếp cận hạ tầng cốt lõi, nhưng kiến trúc của nó vẫn cực kỳ phụ thuộc vào các mô hình lớn thương mại hàng đầu. Chi tiết dự án vẫn chưa được công bố rõ ràng và chỉ hợp tác kín với một số ít tổ chức công nghệ lớn và các tập đoàn đa quốc gia. Đáng lo ngại hơn, các giải pháp của những đế chế này có thể thể hiện lượng Token tiêu thụ kinh khủng trong quá trình vận hành; rào cản tính toán cao và con đường đầu tư nặng nề này trực tiếp loại trừ các công ty khởi nghiệp và doanh nghiệp vừa và nhỏ có ngân sách hạn chế.

Liệu các công ty nhỏ và cộng đồng mã nguồn mở có thật sự không thể sử dụng các công cụ kiểm tra lỗ hổng tự động hóa cấp cao không?

Các kỹ sư từ 0G Labs cùng Lưu Tường từ Đại học Quốc gia Singapore, Tống Sát và Tôn Dũng từ Đại học Bưu chính Viễn thông Bắc Kinh, cùng với nghiên cứu sinh Trương Chiêu và nghiên cứu viên Trương Sách Nhiêu từ Trường Trí tuệ nhân tạo, Đại học Bắc Kinh, đã ứng dụng kiến thức chuyên sâu của họ trong lĩnh vực Agent để phát triển hệ thống, thực hiện một đột phá mang tính cách mạng “lấy nhỏ thắng lớn”, và công trình của họ đã được chấp nhận tại hội nghị hàng đầu về AI năm 2026 – ICML.

Sự tích lũy kiến thức hệ thống lâu dài từ giới học thuật gặp phải những điểm đau và trực giác nhạy bén từ giới công nghiệp, làm thế nào để kích hoạt cuộc cách mạng an toàn hệ thống thế hệ tiếp theo?

Đội ngũ 0G đã tích lũy kinh nghiệm thực tế phong phú trong việc triển khai và phòng thủ các giao thức đồng thuận blockchain; đồng thời, đội ngũ này có nền tảng học thuật sâu sắc trong các lĩnh vực hệ thống phân tán hiệu năng cao, kiểm soát song song cấp nền tảng và xác minh hình thức hệ thống. Họ hiểu rõ rằng các phương pháp truyền thống (như fuzzing) thường bị hạn chế bởi sự bùng nổ không gian trạng thái khi đối mặt với các thư viện mã công nghiệp. Nhóm các nhà nghiên cứu đã quyết định kết hợp tri thức suy luận logic về các bất biến toàn cục của hệ thống phân tán tích lũy lâu dài làm “linh hồn”, đưa vào mô hình hợp tác đa tác nhân tiên tiến nhất cùng kiến trúc Harness tự động hóa, từ đó ra mắt khung mã nguồn mở Agora.

Đồng thời, với tư cách là cơ sở hạ tầng AI mô-đun hóa hàng đầu ngành và mạng khả dụng dữ liệu phi tập trung hiệu năng cao, đội ngũ 0G đã tích lũy kinh nghiệm phòng thủ và tấn công cấp sản xuất phong phú cùng các mẫu lỗi giao thức thực tế trong việc triển khai công nghiệp của các giao thức đồng thuận blockchain và kiến trúc BFT (Byzantine Fault Tolerance) có khả năng xử lý đồng thời cao.

Sự kết hợp liên ngành này đã thay đổi hoàn toàn luật chơi: nó không phải là thử nghiệm bạo lực mù quáng, cũng không phải là mô hình lớn thiếu hiểu biết lĩnh vực như “người mù sờ voi”, mà thông qua sự phân công chuyên môn của các Agent, chuyển hóa trực giác suy luận logic của các chuyên gia hệ thống sau nhiều thập kỷ thành sự cạnh tranh và phối hợp giữa các Agent, từ đó sở hữu sức mạnh vượt trội so với các công cụ kiểm thử truyền thống.

Khác với chiến lược vốn nặng nề của Glasswing, vốn thường nuốt chửng các Token cấp cao với số lượng khổng lồ, Agora mang đến một giải pháp thay thế cực kỳ thân thiện với các doanh nghiệp vừa và nhỏ—nó chứng minh rằng ngay cả khi mô hình nền tảng “chưa hoàn hảo” nhưng có chi phí hiệu quả cao hơn, thông qua kiến trúc phối hợp đa Agent nhạy cảm với lĩnh vực tinh vi, vẫn có thể phát hiện ra những lỗi Deep Bug cứng đầu!

2. Điểm đau: LLM đơn thể khó vượt qua ranh giới, hệ thống phân tán treo lơ lửng "thanhtam Damocles" về logic sâu sắc

Trong thời đại mà big data, blockchain và cơ sở dữ liệu phân tán thống trị, các giao thức đồng thuận (như Paxos, Raft, PBFT...) chính là nền tảng hạ tầng của toàn bộ thế giới số. Tuy nhiên, việc triển khai các giao thức đồng thuận nổi tiếng là “độ khó địa ngục”. Ngay cả những dự án tiêu chuẩn công nghiệp như etcd, đã được hàng ngàn kỹ sư hàng đầu toàn cầu rèn giũa và vận hành nhiều năm, vẫn ẩn chứa những Deep Bug (lỗ hổng logic sâu xa) khiến người ta toát mồ hôi lạnh.

Các lỗ hổng này khác với các lỗ hổng thực thi cấp thấp phổ biến như rò rỉ bộ nhớ, tràn số nguyên, chúng trải dài qua nhiều giai đoạn thực thi và phụ thuộc vào trạng thái đồng thời phức tạp. Một khi bị kích hoạt một cách ác ý, chúng không chỉ gây hư hỏng dữ liệu cốt lõi mà còn có thể dẫn đến tổn thất tài chính nghiêm trọng.

Mặc dù các mô hình ngôn ngữ lớn (LLM) gần đây đã thể hiện hiệu suất nổi bật trong phân tích mã thông thường, nhưng khi đối mặt với sự đồng thuận phân tán, chúng lại tỏ ra “thiếu thông minh”. Chúng chỉ có thể phát hiện ra các lỗi bề mặt trong mã cục bộ, còn đối với các lỗ hổng logic cấp giao thức phụ thuộc vào trạng thái toàn cục, các LLM đơn thể thường bị mắc kẹt trong mã cục bộ và hoàn toàn không thể thực hiện suy luận theo trình tự toàn cục.

3. Phá thế: Ba Agent của Agora và kiến trúc Harness cốt lõi

Để phá vỡ tình thế bế tắc này, Agora lần đầu tiên đưa vào hệ thống Agent mô hình lớn phương pháp kiểm định dựa trên giả thuyết (Hypothesis-Driven Testing, HDT) kinh điển trong học thuật. Để đạt được suy luận toàn cục hiệu quả, Agora hoàn toàn từ bỏ mô hình “đơn độc chiến đấu” truyền thống, tách biệt luồng công việc một cách tinh vi thành ba Agent chuyên môn hóa cao, mỗi cái đảm nhiệm một vai trò riêng biệt:

Agent Orchestrator (Người điều phối): chịu trách nhiệm duy trì trạng thái toàn cục và khai thác lỗ hổng thông qua suy luận từ các lỗ hổng đã biết;

Strategy Agent (Strategist): Chịu trách nhiệm bổ sung kiến thức lĩnh vực phân tán, tạo ra các kịch bản bất thường mang tính tấn công cao cho các giao thức CFT và BFT.

TestGen Agent (Code Officer): Người hành động thực tế. Chìa khóa để Agora thực sự có thể triển khai và tạo vòng lặp tự động hóa các bài kiểm tra hiệu quả nằm ở kiến trúc kiểm thử tự động cốt lõi của nó.

Kiến trúc của nó được hiển thị như sau:

Trong thiết kế tổng thể của Agora, phép màu bình đẳng “lấy nhỏ thắng lớn” này không phải xuất hiện một cách ngẫu nhiên, mà đến từ sự tích hợp sâu sắc giữa cơ chế tương tác tác nhân thông minh và kiến trúc Harness kiểm thử.

Đội ngũ nghiên cứu đã thiết kế riêng một cơ chế giao tiếp và bộ nhớ cực kỳ tối giản và hiệu quả (Succinct Memory & Communication) trong khung hệ thống, nhằm giảm thiểu tối đa chi phí truyền tải ngữ cảnh dư thừa, đồng thời đảm bảo mỗi Agent tập trung vào nhiệm vụ cốt lõi của mình. Trong ràng buộc giao tiếp cực hạn này, Orchestrator Agent (chịu trách nhiệm phối hợp toàn cục và kiểm soát trạng thái), Strategy Agent (chịu trách nhiệm tạo ra môi trường bất thường và các kịch bản phân tán) cùng TestGen Agent (chịu trách nhiệm kiểm thử mã và đánh giá động态 Evaluation) đã ăn khớp hoàn hảo, cùng nhau thúc đẩy và đáp ứng kiến trúc Harness:

Tự động hóa vòng khép kín kết hợp hai yếu tố: Sau khi Strategy Agent suy diễn các kịch bản tấn công phân tán trừu tượng, TestGen Agent có thể ngay lập tức khởi động các bài kiểm tra ở cấp độ hạ tầng, nhờ vào khung tương tác được tách rời cao. Kiến trúc này không chỉ có khả năng tự thích nghi mạnh mẽ với môi trường, có thể vượt qua các môi trường lập trình khác nhau như Go, Rust để chuyển đổi các giả thuyết tấn công thành các bài kiểm tra đơn vị có thể chạy thực tế, mà còn tích hợp công nghệ vòng phản xạ (Reflection-Loop) hiệu quả.

Khi một lỗi xảy ra trong quá trình chạy thử nghiệm trong môi trường, hệ thống sẽ chính xác và thời gian thực ghi lại ngăn gọi và nhật ký thực thi, sau đó gửi lại một cách tinh gọn cho Agent để tự sửa chữa có định hướng. Sự kết hợp hài hòa giữa “tương tác cực kỳ đơn giản đa Agent + vòng lặp Harness động” không chỉ giúp Agora phát hiện chính xác những lỗi logic sâu xa nhất với chi phí Token cực thấp, mà còn tạo ra các báo cáo phân tích chi tiết với tỷ lệ báo sai cực kỳ thấp.

Tổng quan về hoạt động cuối cùng của nó được hiển thị như sau:

4. Thành quả: Đạt được 15 lỗ hổng zero-day cấp cao, baseline mô hình lớn đều về không

Kết quả đánh giá thật sự gây ấn tượng mạnh. Nhóm nghiên cứu đã tiến hành kiểm tra toàn diện trên bốn thư viện giao thức đồng thuận nổi tiếng (bao gồm etcd dùng trong sản xuất và các thành phần nền tảng của Sui, một chuỗi công cộng mới nổi), đồng thời so sánh các mô hình mạnh nhất hiện nay như GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 và Qwen3 Coder.

Kết quả không chỉ làm cho hệ thống đồng thuận chạy trên 0G trở nên an toàn hơn, mà còn mang lại một cú đánh hạ cấp áp đảo:

15 lỗ hổng Logic Deep mới được phát hiện: Agora đã phát hiện thành công 15 lỗ hổng sâu cấp giao thức chưa từng được biết đến trước đây. Các lỗ hổng này nằm trong các lĩnh vực nguy hiểm cao như sự khác biệt thực thi, vi phạm tính đơn điệu, lỗi topo và lỗ hổng chữ ký.

Toàn bộ mô hình bản địa đều bị loại bỏ hoàn toàn: Trong khi đó, các mô hình cơ sở (ngay cả khi được trang bị chuỗi công cụ động ReAct tiên tiến) đều hoàn toàn thất bại (0/15) khi đối mặt với các lỗ hổng logic sâu sắc như vậy. Chúng tiêu tốn một lượng lớn Token nhưng chỉ có thể xoay quanh các lỗi triển khai mã cấp thấp.

Tỷ lệ báo lỗi sai cực thấp và hiệu suất chi phí cực cao: Trong tất cả các báo cáo lỗi do Agora tạo ra, tỷ lệ lỗ hổng logic thực sự lên tới 73,9% (tỷ lệ báo lỗi sai chỉ 26,1%). Đáng kinh ngạc hơn, trung bình chỉ cần tiêu tốn khoảng 5,32M tokens (tương đương khoảng 40 đô la Mỹ) để phát hiện một lỗ hổng logic cấp cao khiến các kiến trúc sư giàu kinh nghiệm rụng hết tóc, hiệu suất chi phí cực kỳ cao.

Kết quả trên nhiều LLM như sau:

5. Tương lai: Khả năng mở rộng cao, tiến vào nhiều vùng "vùng đất hoang" cốt lõi hơn

Sự thành công của Agora không chỉ tăng cường niềm tin vào tính bảo mật của các hệ thống phân tán, mà còn chỉ ra hướng đi cho việc ứng dụng các mô hình lớn vào các lĩnh vực công nghiệp chuyên biệt.

Đặc biệt quan trọng, kiến trúc của Agora thể hiện tính mở rộng và tính phổ dụng cực cao. Nhóm nghiên cứu nhấn mạnh rằng Agora còn có thể được người dùng rộng rãi tái tạo và sử dụng dưới dạng plugin hoặc skill, và chúng tôi đã cung cấp các skill tương ứng trong mã nguồn (github.com/0gfoundation/agora) để hỗ trợ tái tạo. Không chỉ vậy, mô hình “đại mô hình + hợp tác đa agent + hướng dẫn bởi giả thuyết” của Agora không chỉ giới hạn trong giao thức đồng thuận. Do sự tách biệt sâu sắc giữa cơ chế điều khiển luồng làm việc nền tảng và kho tri thức lĩnh vực cấp cao cùng các bài kiểm tra, điều này có nghĩa là kiến trúc này không chỉ giúp nhiều người dùng nhanh chóng áp dụng để gỡ lỗi giao thức đồng thuận, mà còn có thể được triển khai nhanh chóng sang các lĩnh vực chuyên sâu khác cũng đang chịu đựng “địa ngục lỗ hổng logic sâu” theo cách “cắm và chạy” (Plug-and-Play):

Kiểm soát đồng thời cơ sở dữ liệu (Concurrency Control): Được sử dụng để kiểm tra các lỗi xung đột giao dịch phức tạp trong cơ sở dữ liệu phân tán ở mức cô lập cực đoan (ví dụ: chuỗi hóa Serializable).

Hạt nhân hệ điều hành / Hệ thống đồng thời: Khám phá sâu các lỗi chết và điều kiện cạnh tranh ẩn trong cơ sở hạ tầng đa luồng.

Kiểm toán hợp đồng thông minh Web3: Khám phá sâu các ranh giới bảo mật đối với các giao thức liên chuỗi và logic DeFi có mô hình kinh tế phức tạp. Thị trường bảo mật blockchain dự kiến đạt quy mô khoảng 8,5 tỷ USD vào năm 2026, và đã xuất hiện các sản phẩm thương mại sử dụng “hệ thống bảo mật đa tác nhân” để kiểm toán hợp đồng thông minh, rút ngắn chu kỳ kiểm toán từ vài tuần xuống còn vài giờ, nhu cầu thị trường đang bùng nổ.

Thời đại an ninh tự động hóa AI với cơ sở hạ tầng cấp công nghiệp có thể chính thức được mở ra bởi Agora và kiến trúc Harness của nó.

Chúng tôi có lý do để tin rằng Agora có thể giúp cải thiện việc kiểm tra khả năng lập trình của LLM thông qua việc phát hiện thêm nhiều deep bug trong các lĩnh vực khác nhau, và các trường hợp deep bug mà nó phát hiện cũng có thể giúp LLM nâng cao khả năng hiểu mã.

Agora có thể nâng cao đáng kể độ an toàn của các kho mã nguồn làm nền tảng cho các giao dịch tài chính an toàn, như giao thức đồng thuận, kiểm soát song song và hợp đồng thông minh. Ngoài ra, Agora còn giúp nhiều công ty công nghệ phát hiện ra những lỗi logic sâu hơn với ít token hơn, tiết kiệm chi phí nhưng hiệu quả hơn!

Quan trọng hơn, điều này đúng lúc bắt kịp hai xu hướng nóng nhất hiện nay: một là hệ thống đa tác nhân đang từ giai đoạn thí nghiệm chuyển sang ứng dụng thực tế — Gartner dự đoán đến năm 2028, hơn 30% phần mềm doanh nghiệp sẽ tích hợp AI tác nhân, quy mô thị trường nền tảng đa tác nhân trong vài năm tới sẽ tăng từ mức hàng chục tỷ USD lên hàng trăm tỷ USD; hai là việc “dùng tác nhân kiểm tra tác nhân” — kiểm soát chất lượng dựa trên tác nhân (Agentic Quality Control) — đang trở thành tiêu chuẩn ngành vào năm 2026.

Trong bối cảnh báo cáo Veracode 2025 chỉ ra rằng khoảng 45% mã do AI tạo ra chứa lỗ hổng bảo mật, và thị trường bảo mật agentic AI đang tăng trưởng với tốc độ hàng năm khoảng 42%, Agora giúp các công ty công nghệ khai thác sâu hơn các Logic Bug với chi phí token thấp hơn, nâng cấp việc kiểm toán bảo mật từ “hoạt động tính theo tuần dựa trên nhân lực” thành “khả năng tự động hóa giao hàng theo giờ”.

Và khi cấu trúc của con đường này dần rõ ràng, những đội ngũ thực sự chiếm được lợi thế tiên phong thường không phải là những gã khổng lồ có tiếng nói lớn nhất, mà là đội ngũ sớm nhất đã vận hành thành công phương pháp luận và có khả năng nhân bản liên tục.

Original link

Nhấp để tìm hiểu các vị trí đang tuyển của律动BlockBeats

Chào mừng bạn tham gia cộng đồng chính thức của律动 BlockBeats:

Nhóm đăng ký Telegram: https://t.me/theblockbeats

Nhóm giao lưu Telegram: https://t.me/BlockBeats_App

Tài khoản chính thức trên Twitter: https://twitter.com/BlockBeatsAsia