Source : Machine Heart
Le « Saint-Graal » des systèmes distribués — les protocoles de consensus — a longtemps été un « enfer de bugs » pour les ingénieurs infrastructures de haut niveau. En raison de leur extrême complexité d'état et de l'interconnexion de plusieurs nœuds, les tests traditionnels et les LLM monolithiques sont presque impuissants face aux Deep Bugs (failles logiques profondes).
Récemment, des chercheurs provenant de 0G Labs ainsi que de l'Université nationale de Singapour, de l'Université de Pékin et de l'Université des télécommunications de Pékin, parmi d'autres équipes académiques et industrielles de premier plan, ont proposé, dans un article accepté à ICML 2026, le premier cadre d'automatisation des tests intégrant de manière approfondie les connaissances de domaine et la collaboration multi-agent avec des grands modèles — Agora.
Ce cadre, grâce à une architecture innovante, cible directement les points douloureux des protocoles et a identifié, en une seule fois, 15 bugs profonds au niveau du protocole jamais vus auparavant dans des protocoles industriels et académiques majeurs tels que Raft, EPaxos, HotStuff et BullShark. En comparaison, des modèles de langage natifs aussi puissants que GPT-5.2 et Claude 4.5 ont échoué, avec un bilan de zéro. Alors que les systèmes multi-agents et l'« audit de sécurité agentic » deviennent les deux domaines les plus populaires en 2026, Agora ne propose pas seulement un article de recherche, mais une solution industrielle concrète et mise en œuvre.
Article : Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents
1. Context: 0G teams up with NUS, combining long-term systematic knowledge with a cross-generational, cross-domain integration of the Multi-Agent paradigm
L'évolution des protocoles de consensus distribué est à la fois l'histoire d'innovations géniales et le récit sanglant des erreurs commises par d'innombrables ingénieurs de premier plan. Comme l'a dit le lauréat du prix Turing, Lamport, garantir la correction de l'implémentation des protocoles distribués revient à naviguer les yeux bandés dans un labyrinthe en constante agitation. Sur ce parcours « extrêmement difficile », le marché est en train de basculer discrètement : selon Gartner, la demande en conseil pour les systèmes multi-agents a augmenté de plus de dix fois en un an et demi, et le marché des plateformes multi-agents entre dans une phase d'expansion rapide, presque doublant chaque année — utiliser la « collaboration multi-agents » pour valider les systèmes les plus fondamentaux passe désormais de l'idée de pointe à une nécessité industrielle.
Face à cette voie extrêmement exigeante, les géants technologiques, porteurs de gloire, ont lancé des explorations intensives en capitaux. Par exemple, Anthropic, leader du secteur, a récemment avancé en interne le projet Glasswing dans Claude Code ; bien qu’il tente d’interagir avec l’infrastructure de base via des agents, son architecture repose toujours fortement sur les plus grands modèles commerciaux de pointe. Les détails du projet restent très peu clairs, et il ne collabore qu’avec un très petit nombre d’institutions technologiques majeures et de géants multinationaux dans le cadre de partenariats confidentiels. Plus grave encore, ces solutions de géants peuvent présenter une consommation terrifiante de tokens ; ce mur de puissance de calcul élevé et cette approche lourde en capitaux excluent directement les startups et les PME aux budgets limités.
Les petites entreprises et les communautés open source sont-elles condamnées à ne pas pouvoir se permettre les meilleurs outils d'audit automatisé de vulnérabilités ?
Les ingénieurs de 0G Labs, en collaboration avec Liu Xiang de l'Université nationale de Singapour, Song Sa et Sun Yong de l'Université des télécommunications de Pékin, ainsi que Zhang Zhaowei, doctorant, et Zhang Ceyao, chercheur, de l'École d'intelligence de l'Université de Pékin, ont appliqué leur expertise approfondie dans le domaine des agents pour développer un système d'innovation disruptive « petit mais puissant », dont les travaux ont été acceptés à la conférence ICML 2026, l'une des plus prestigieuses en IA.
La « synthèse à long terme des connaissances systémiques » du monde académique rencontre les « points douloureux et l'odorat aiguisé » du monde industriel : comment déclencher la prochaine révolution en matière de sécurité systémique ?
L'équipe 0G possède une expérience de production approfondie en matière d'attaques et de défenses dans la mise en œuvre de protocoles de consensus blockchain ; elle dispose également d'une solide fondation académique dans les domaines des systèmes distribués à haute performance, du contrôle de concurrence de bas niveau et de la vérification formelle des systèmes. Elle comprend que les méthodes traditionnelles (telles que le fuzzing) sont souvent limitées par l'explosion de l'espace d'état lorsqu'elles sont appliquées à des bases de code industrielles. Plusieurs chercheurs ont décidé d'incorporer, comme « âme », les connaissances accumulées sur les invariants globaux des systèmes distribués dans une nouvelle architecture multi-agents de pointe et un système d'automatisation Harness, lançant ainsi le cadre open-source et équitable Agora.
Dans le même temps, en tant qu'infrastructure modulaire d'IA de pointe et de réseau décentralisé de disponibilité des données à haute performance, l'équipe 0G a acquis une expérience de production très riche en matière de défense et d'attaque, ainsi que des exemples réels de défauts de protocole, dans la mise en œuvre industrielle des protocoles de consensus blockchain et des architectures BFT (Byzantine Fault Tolerance) à haute concurrence.
Cette fusion interdisciplinaire a complètement changé la donne : ce n’est ni un test aveugle et brutal, ni un grand modèle dépourvu de connaissance du domaine et se comportant comme des aveugles touchant un éléphant, mais une répartition spécialisée des agents qui transforme l’intuition logique acquise au fil de décennies par des experts système en jeux et synergies entre agents, lui conférant ainsi une puissance concrète pour surpasser les outils de test traditionnels.
Contrairement à Glasswing, qui adopte une approche lourde consistant à consommer d'énormes jetons de haut niveau, Agora propose une alternative extrêmement favorable aux petites et moyennes entreprises — il démontre qu'il est possible de détecter des bugs complexes même avec un modèle de base légèrement moins performant mais plus rentable, grâce à une architecture sophistiquée de plusieurs agents coordonnés sensibles au domaine !
2. Douleur : Le modèle LLM unique peine à franchir la limite, tandis que les systèmes distribués portent la lame de Damoclès de la logique profonde
Aujourd'hui, où les grandes données, la blockchain et les bases de données distribuées dominent, les protocoles de consensus (comme Paxos, Raft, PBFT, etc.) constituent la fondation sous-jacente de tout le monde numérique. Cependant, l'implémentation des protocoles de consensus est réputée pour être d'une « difficulté extrême ». Même des projets industriels de référence, comme etcd, forgé par des centaines d'ingénieurs de premier plan à travers le monde et opérationnel depuis des années, cachent encore des Deep Bug (failles logiques profondes) qui font frémir.
Ces vulnérabilités diffèrent des vulnérabilités d'implémentation courantes telles que les fuites de mémoire ou les débordements d'entiers ; elles traversent plusieurs étapes d'exécution et dépendent d'états concurrentiels complexes. Une fois déclenchées de manière malveillante, elles peuvent non seulement endommager les données essentielles, mais aussi provoquer des pertes financières catastrophiques.
Bien que les grands modèles linguistiques (LLM) récents aient fait preuve d'une excellente performance dans l'analyse de code courant, ils se révèlent « peu intelligents » face à la consensus distribué. Ils ne parviennent qu'à identifier des défauts superficiels dans le code local, tandis que, face à des vulnérabilités logiques au niveau du protocole dépendant de l'état global, les LLM monolithiques tombent souvent dans l'impasse du code local et ne peuvent absolument pas effectuer un raisonnement temporel global.
3. Briser la impasse : Les trois agents d’Agora et leur architecture principale Harness
Pour briser cette impasse, Agora introduit pour la première fois le paradigme classique de test guidé par les hypothèses (Hypothesis-Driven Testing, HDT) issu du milieu académique dans les systèmes d'agents de grands modèles. Pour réaliser un raisonnement global efficace, Agora abandonne complètement le modèle traditionnel de « travail isolé » et décompose subtilement le flux de travail en trois agents hautement spécialisés, chacun ayant un rôle précis :
Agent Orchestrator : responsable de la maintenance de l'état global et de l'exploitation des vulnérabilités par généralisation à partir de vulnérabilités connues ;
Agent de stratégie : chargé d'injecter des connaissances de domaine distribuées pour générer des scénarios anormaux très agressifs pour les protocoles CFT et BFT.
TestGen Agent (Code Officer) : Pragmatique. La clé pour permettre à Agora de se concrétiser et de générer automatiquement des tests efficaces réside dans son architecture de test automatisé centrale.
Son architecture est illustrée comme suit :

Dans la conception globale d'Agora, ce « sortilège d'égalité » qui permet de miser petit pour gagner grand ne vient pas de nulle part, mais résulte de l'intégration profonde entre son mécanisme d'interaction d'agents intelligents et son architecture de test Harness.
L'équipe de recherche a conçu à l'intérieur du cadre système un mécanisme de communication et de mémoire extrêmement simplifié et efficace (Succinct Memory & Communication), réduisant au minimum le surcoût de transmission du contexte redondant tout en permettant à chaque Agent de se concentrer sur sa tâche principale. Sous cette contrainte de communication extrême, l'Agent Orchestrator (chargé de la coordination globale et du contrôle d'état), l'Agent Strategy (chargé de la génération d'environnements et de scénarios anormaux distribués) et l'Agent TestGen (chargé des tests de code et de l'évaluation dynamique Evaluation) s'entrelacent parfaitement pour piloter et satisfaire l'architecture Harness :
La boucle automatisée en synergie : après que l’Agent Stratégie a déduit des scénarios d’attaque distribués abstraits, l’Agent TestGen peut immédiatement lancer les tests sous-jacents grâce à un cadre d’interaction fortement désaccouplé. Cette architecture possède non seulement une forte capacité d’adaptation aux environnements, permettant de convertir les hypothèses d’attaque en tests unitaires exécutables à travers différents environnements de programmation tels que Go et Rust, mais intègre également une technologie de boucle de réflexion (Reflection-Loop) efficace.
Lorsqu'une erreur se produit lors de l'exécution des tests dans l'environnement, le système capture avec précision et en temps réel la pile d'appels et les journaux d'exécution, puis les renvoie de manière condensée à l'Agent pour une auto-correction ciblée. Cette combinaison harmonieuse de « plusieurs Agents en interaction minimale + boucle dynamique de Harness » permet à Agora de détecter avec un coût en tokens extrêmement faible les bogues logiques profonds les plus subtils, tout en produisant des rapports d'analyse détaillés avec un taux de faux positifs extrêmement bas.
Aperçu du fonctionnement final comme indiqué ci-dessous :

4. Résultats : 15 top zero-day Deep Bugs décrochés, les baseline de grands modèles ont tous obtenu un score nul
Les résultats de l'évaluation sont impressionnants. L'équipe de recherche a mené un examen complet sur quatre bibliothèques de protocoles de consensus célèbres (y compris etcd utilisé en production et les composants fondamentaux de Sui, une nouvelle chaîne publique), en comparant les modèles les plus avancés au monde, tels que GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 et Qwen3 Coder.
Le résultat ne rend pas seulement le système de consensus fonctionnant sur 0G plus sûr, mais offre également un avantage écrasant :
15 nouvelles failles logiques profondes de Logic Deep révélées : Agora a identifié avec succès 15 failles profondes au niveau du protocole auparavant inconnues. Ces failles touchent des domaines critiques tels que les divergences d'exécution, les violations de monotonie, les défauts topologiques et les vulnérabilités de signature.
Les modèles natifs sont complètement éliminés : en revanche, les modèles de référence (même dotés de la chaîne d'outils dynamiques ReAct avancée) échouent entièrement face à ce type de vulnérabilité logique profonde (0/15). Ils consomment une grande quantité de tokens, mais ne parviennent qu'à tourner autour de bogues d'implémentation de code de bas niveau.
Taux de faux positifs extrêmement faible et rapport qualité-prix exceptionnel : parmi tous les rapports de bugs générés par Agora, 73,9 % sont des vulnérabilités logiques réelles (taux de faux positifs uniquement de 26,1 %). Encore plus impressionnant : il faut en moyenne environ 5,32 M de tokens (environ 40 dollars américains) pour découvrir un bug logique de haut niveau capable de faire perdre tous ses cheveux à un architecte expérimenté, ce qui en fait un rapport qualité-prix exceptionnel.
Les résultats sur plusieurs LLM sont les suivants :

5. Avenir : haute extensibilité, pénétration de nouveaux domaines fondamentaux plus exigeants
Le succès d'Agora n'a pas seulement renforcé la sécurité des systèmes distribués, mais a également tracé la voie pour l'application industrielle verticale des grands modèles.
Ce qui est particulièrement crucial, c’est que l’architecture d’Agora démontre une grande extensibilité et généralité. L’équipe de recherche souligne qu’Agora peut également être rapidement reproduite et utilisée par un large éventail d’utilisateurs sous forme de plugins ou de skills ; notre code (github.com/0gfoundation/agora) fournit des skills correspondants pour faciliter la reproductibilité. Encore plus important, le paradigme « grand modèle + collaboration multi-agent + hypothèse-driven » d’Agora ne se limite pas aux protocoles de consensus. En raison du découplage profond entre le contrôle du flux de travail sous-jacent et les bases de connaissances de domaine ainsi que les tests en couche supérieure, cette architecture permet non seulement d’aider de nombreux utilisateurs à diagnostiquer rapidement les protocoles de consensus, mais aussi de s’étendre de manière « brancher et utiliser » (Plug-and-Play) à d’autres domaines exigeants confrontés aux mêmes « enfers des failles logiques profondes » :
Contrôle de concurrence des bases de données : utilisé pour tester les défauts de conflit de transactions complexes dans des bases de données distribuées sous des niveaux d'isolement extrêmes (tels que la sérialisation Serializable).
No translation provided.
Audit de contrats intelligents Web3 : exploration approfondie des limites de sécurité pour les protocoles cross-chain et la logique DeFi impliquant des modèles économiques complexes. Le marché de la sécurité blockchain devrait atteindre environ 8,5 milliards de dollars d'ici 2026, et des produits commerciaux utilisant des « systèmes de sécurité multi-agents » pour l'audit de contrats intelligents ont déjà vu le jour, réduisant le cycle d'audit de plusieurs semaines à quelques heures. La demande du marché explose.
L'ère de l'automatisation sécurisée par l'IA pour les infrastructures de base industrielles pourrait être officiellement ouverte par Agora et son architecture Harness.
Nous avons des raisons de croire qu'Agora peut aider à mieux tester les capacités des LLM de codage en découvrant davantage de deep bugs dans divers domaines, et que les cas d'utilisation de deep bugs qu'il identifie peuvent également améliorer la compréhension du code par les LLM de codage.
Agora peut considérablement renforcer la sécurité des dépôts de code servant de base à des protocoles de consensus, à la gestion de concurrence, à des contrats intelligents, etc., pour des transactions financières sécurisées. De plus, Agora permet à davantage d'entreprises technologiques de détecter des bugs logiques plus profonds, tout en consommant moins de tokens, ce qui permet d'économiser des fonds tout en étant plus efficace !
Plus important encore, cela coïncide exactement avec les deux secteurs les plus chauds actuels : d'une part, les systèmes multi-agents passent de l'expérimentation à la production — Gartner prévoit qu'au plus tard en 2028, plus de trente pour cent des logiciels d'entreprise intégreront de l'IA agente, et le marché des plateformes multi-agents passera de plusieurs dizaines de milliards de dollars à plusieurs centaines de milliards dans les prochaines années ; d'autre part, le contrôle qualité agente (Agentic Quality Control), consistant à utiliser des agents pour vérifier des agents, deviendra la norme de l'industrie en 2026.
Dans le contexte du rapport Veracode 2025 indiquant qu'environ 45 % du code généré par l'IA contient des vulnérabilités de sécurité et que le marché de la sécurité des IA agentic croît à un taux composé annuel d'environ 42 %, Agora permet aux entreprises technologiques de détecter des Logic Bugs plus profonds à un coût en token plus faible, transformant l'audit de sécurité d'une tâche humaine facturée à la semaine en une capacité automatisée livrée à l'heure.
Et lorsque le paysage de ce segment devient progressivement plus clair, ce ne sont souvent pas les géants les plus bruyants qui prennent l'avantage, mais plutôt l'équipe qui a le premier mis en œuvre une méthodologie efficace et capable de la reproduire de manière durable.
Cliquez pour en savoir plus sur les postes vacants chez BlockBeats
Rejoignez la communauté officielle de律动 BlockBeats :
Groupe Telegram abonné : https://t.me/theblockbeats
Groupe Telegram : https://t.me/BlockBeats_App
Compte officiel Twitter : https://twitter.com/BlockBeatsAsia
