Fuente original: Machine Heart

El "Santo Grial" de los sistemas distribuidos: los protocolos de consenso (Consensus Protocols), durante mucho tiempo han sido el "infierno de bugs" para los ingenieros de infraestructura de élite. Debido a su complejidad extrema y la interconexión de múltiples nodos, las pruebas tradicionales y los LLM monolíticos son casi impotentes frente a los Deep Bugs (vulnerabilidades lógicas profundas).

Recientemente, en el más reciente ICML 2026, investigadores de equipos académicos e industriales de élite, incluidos 0G Labs, la Universidad Nacional de Singapur, la Universidad de Pekín y la Universidad de Telecomunicaciones de Pekín, presentaron el primer marco de prueba automatizada que integra profundamente el conocimiento del dominio con la colaboración multi-agente de grandes modelos: Agora.

Este marco, mediante una arquitectura innovadora, aborda directamente los puntos débiles del protocolo y ha descubierto 15 errores profundos previamente desconocidos a nivel de protocolo en sistemas industriales y académicos clave como Raft, EPaxos, HotStuff y BullShark. En comparación, potentes modelos nativos como GPT-5.2 y Claude 4.5 fallaron por completo, obteniendo cero aciertos. En un momento en que los sistemas multi-agente (Multi-Agent) y la "auditoría de seguridad basada en agentes" (Agentic Quality Control) se han convertido en las vías más populares de 2026, Agora no solo presenta un artículo académico, sino también una solución industrial viable y aplicable.

Artículo: Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents

1. Context: 0G and NUS join forces, integrating long-term system knowledge with a cross-generational, cross-domain Multi-Agent paradigm

La evolución de los protocolos de consenso distribuido es al mismo tiempo la historia de innovaciones geniales y la crónica sangrienta de los errores cometidos por innumerables ingenieros de élite. Como dijo el premio Turing Lamport, garantizar la corrección de la implementación de protocolos distribuidos es tan difícil como recorrer a ciegas un laberinto en constante movimiento. Y precisamente en esta pista de «nivel infernal», el mercado está cambiando silenciosamente: según Gartner, la consulta empresarial sobre sistemas multiagente se ha multiplicado por más de diez en poco más de un año, y el mercado de plataformas multiagente está entrando en una fase de expansión acelerada, con crecimientos anuales cercanos al doble: utilizar la «cooperación multiagente» para validar sistemas subyacentes más exigentes está pasando de una idea de vanguardia a una necesidad industrial.

Ante esta carrera de nivel infernal, los gigantes tecnológicos con prestigio han iniciado primero exploraciones intensivas en capital. Por ejemplo, Anthropic, líder de la industria, ha impulsado internamente en Claude Code el proyecto Glasswing, que, aunque intenta utilizar Agentes para probar la infraestructura subyacente, sigue dependiendo extremadamente de los mayores modelos comerciales de última generación; los detalles del proyecto son escasamente conocidos y solo se colabora de forma cerrada con un número muy reducido de grandes instituciones tecnológicas y gigantes multinacionales. Aún más grave es que estas soluciones de los gigantes pueden mostrar un consumo terrorífico de tokens durante su funcionamiento; esta alta barrera de cálculo y este enfoque intensivo en capital excluyen directamente a startups y pequeñas y medianas empresas con presupuestos limitados.

¿Acaso las pequeñas empresas y las comunidades de código abierto están destinadas a no poder permitirse herramientas profesionales de auditoría automática de vulnerabilidades?

Los ingenieros de 0G Labs, junto con Liu Xiang de la Universidad Nacional de Singapur, Song Sa y el profesor Sun Yong de la Universidad de Telecomunicaciones de Beijing, y el estudiante de doctorado Zhang Zhao wei y el investigador Zhang Ce yao de la Escuela de Inteligencia Artificial de la Universidad de Pekín, han aplicado su profundo conocimiento en el campo de los Agentes para impulsar un sistema, logrando una innovación disruptiva «con poco contra mucho», cuyo trabajo ha sido aceptado en la conferencia de élite de IA 2026, ICML.

El "acumulo sistemático de conocimiento a largo plazo" del mundo académico se encuentra con las "dolencias y el olfato agudo" del mundo industrial: ¿cómo se puede desencadenar la próxima revolución en seguridad de sistemas?

El equipo de 0G ha acumulado una extensa experiencia práctica en ataque y defensa en la implementación de protocolos de consenso blockchain; además, posee una profunda base académica en sistemas distribuidos de alto rendimiento, control de concurrencia a nivel inferior y verificación formal de sistemas. Saben que los métodos tradicionales (como el fuzzing) suelen verse limitados por la explosión del espacio de estados al enfrentarse a bases de código industriales. Varios investigadores decidieron incorporar el conocimiento acumulado durante mucho tiempo sobre la lógica de inferencia de invariante global en sistemas distribuidos como el «alma» dentro del más avanzado paradigma de colaboración multiagente y la arquitectura automatizada de Harness, lanzando así el marco abierto y equitativo Agora.

Al mismo tiempo, como infraestructura modular de IA de vanguardia y red descentralizada de disponibilidad de datos de alto rendimiento, el equipo de 0G ha acumulado una experiencia productiva extremadamente rica en ataques y defensas, así como muestras reales de defectos en protocolos, en la implementación industrial de protocolos de consenso blockchain y arquitecturas BFT (Byzantine Fault Tolerance) de alta concurrencia.

Esta fusión interdisciplinaria ha cambiado por completo las reglas del juego: no es una prueba ciega y violenta, ni un modelo grande que carece de conocimiento del dominio y que actúa como "ciegos tocando un elefante", sino que, mediante la especialización y la división de agentes, convierte la intuición lógica acumulada durante décadas por expertos del sistema en una dinámica de juego y colaboración entre agentes, otorgándole una fuerza sólida capaz de superar a las herramientas de prueba tradicionales.

A diferencia de Glasswing, que sigue una estrategia de alto costo y consume grandes cantidades de tokens de primer nivel, Agora ofrece una alternativa extremadamente amigable para pequeñas y medianas empresas—demuestra que, incluso con modelos base ligeramente inferiores y mayor rentabilidad, mediante una arquitectura sofisticada de múltiples agentes con percepción de dominio, aún se pueden detectar errores profundos.

2. Dolor: Los LLM monolíticos tienen dificultades para trascender los límites; los sistemas distribuidos tienen colgando sobre ellos la "espada de Damocles de la lógica profunda"

Hoy en día, donde el big data, la blockchain y las bases de datos distribuidas lo dominan todo, los protocolos de consenso (como Paxos, Raft, PBFT, etc.) son la base subyacente de todo el mundo digital. Sin embargo, la implementación de protocolos de consenso es famosa por su dificultad «nivel infierno». Incluso proyectos industriales de referencia como etcd, pulidos por innumerables ingenieros de élite mundiales y en funcionamiento durante años, aún ocultan Deep Bugs (vulnerabilidades lógicas profundas) que hacen sudar frío.

Estas vulnerabilidades difieren de las vulnerabilidades de implementación comunes, como fugas de memoria o desbordamientos de enteros, ya que abarcan múltiples etapas de ejecución y dependen de estados concurrentes complejos. Una vez activadas de forma maliciosa, no solo pueden causar daños en los datos centrales, sino también provocar pérdidas financieras catastróficas.

Aunque los grandes modelos de lenguaje (LLM) han sido muy populares en años recientes y destacan en el análisis de código general, se ven «limitados en inteligencia» frente al consenso distribuido. Solo pueden identificar defectos superficiales en código local, pero ante vulnerabilidades lógicas a nivel de protocolo que dependen del estado global, los LLM monolíticos suelen quedar atrapados en el código local y no pueden realizar razonamiento temporal global.

3. Rompiendo el impasse: Los tres agentes de Agora y la arquitectura principal Harness

Para romper este impasse, Agora introdujo por primera vez el paradigma de prueba basada en hipótesis (Hypothesis-Driven Testing, HDT), clásico en el ámbito académico, en los sistemas de Agentes de grandes modelos. Para lograr una inferencia global eficiente, Agora descartó por completo el modelo tradicional de «trabajo individual» y desacopló hábilmente el flujo de trabajo en tres Agentes altamente especializados, cada uno con un rol específico:

Agente Orchestrator (coordinador): responsable del mantenimiento del estado global y la "explotación de vulnerabilidades" por analogía con vulnerabilidades conocidas;

Agente de Estrategia: Responsable de inyectar conocimiento de dominio distribuido para generar escenarios anómalos altamente agresivos para los protocolos CFT y BFT.

Agente TestGen (Código): Práctico. Lo que permite que Agora se implemente realmente y genere pruebas efectivas en un ciclo cerrado es su arquitectura de prueba automatizada central.

Su arquitectura se muestra en la figura:

En el diseño general de Agora, esta magia de igualdad «pequeña pero poderosa» no surge de la nada, sino que proviene de la profunda integración entre su sofisticado mecanismo de interacción de agentes y la arquitectura Harness de prueba.

El equipo de investigación diseñó internamente en el marco del sistema un mecanismo de comunicación y memoria extremadamente simplificado y eficiente (Succinct Memory & Communication), reduciendo al mínimo el overhead de transmisión de contexto redundante mientras se asegura que cada Agent se enfoque en sus tareas centrales. Bajo estas restricciones de comunicación extremas, el Orchestrator Agent (responsable de la coordinación global y el control de estado), el Strategy Agent (responsable de la generación de entornos anómalos distribuidos y escenarios) y el TestGen Agent (responsable de las pruebas de código y la evaluación dinámica Evaluation) se entrelazan perfectamente, impulsando y satisfaciendo conjuntamente la arquitectura Harness:

La automatización en bucle cerrado con sinergia dual: tras el Strategy Agent deduce escenarios abstractos de ataques distribuidos, el TestGen Agent puede iniciar inmediatamente las pruebas subyacentes gracias a un marco de interacción altamente desacoplado. Esta arquitectura no solo posee una poderosa capacidad de adaptación al entorno, capaz de atravesar entornos de diferentes lenguajes de programación como Go y Rust, transformando hipótesis de ataque en pruebas unitarias ejecutables reales, sino que también incorpora una tecnología eficiente de bucle de reflexión (Reflection-Loop).

Cuando se produce un error durante la ejecución de la prueba en el entorno, el sistema captura con precisión y en tiempo real la pila de llamadas y los registros de ejecución, y los envía de forma resumida al Agente para una corrección automática dirigida. Esta integración combinada de «interacción mínima entre múltiples Agentes + bucle dinámico de Harness» permite que Agora detecte con un costo de Token extremadamente bajo los errores lógicos profundos más sutiles, y genere informes de análisis detallados con una tasa de falsos positivos extremadamente baja.

La vista general de su ejecución final se muestra en la figura:

4. Resultados: Se obtuvieron 15 top zero-day Deep Bugs; el baseline del modelo grande obtuvo cero en todos los casos

Los resultados de la evaluación son impresionantes. El equipo de investigación llevó a cabo una revisión integral en cuatro bibliotecas de protocolos de consenso de gran renombre, incluyendo componentes de producción como etcd y los componentes subyacentes de la nueva cadena pública Sui, y comparó modelos de vanguardia como GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 y Qwen3 Coder.

El resultado no solo hace que el sistema de consenso en el que opera 0G sea más seguro, sino que también presenta un impacto abrumador de reducción de dimensión:

Se han descubierto 15 nuevas vulnerabilidades lógicas profundas de Logic Deep: Agora identificó con éxito 15 vulnerabilidades profundas a nivel de protocolo previamente desconocidas. Estas vulnerabilidades abarcan áreas críticas como divergencias de ejecución, violaciones de monotonía, defectos topológicos y vulnerabilidades de firma.

Todos los modelos nativos fueron eliminados por completo: en contraste, los modelos base (incluso aquellos equipados con la avanzada cadena de herramientas dinámicas ReAct) fallaron por completo ante este tipo de vulnerabilidades lógicas profundas (0/15). Consumieron una gran cantidad de tokens, pero solo pudieron girar en torno a errores de implementación de código básicos.

Tasa de falsos positivos extremadamente baja y relación calidad-precio excepcional: en todos los informes de errores generados por Agora, el 73.9% son vulnerabilidades lógicas reales (tasa de falsos positivos solo del 26.1%). Lo más asombroso es que, en promedio, solo se necesitan aproximadamente 5.32M tokens (equivalentes a unos 40 dólares) para descubrir cada error lógico de alto nivel que haría perder el cabello a un arquitecto experimentado, lo que representa una relación calidad-precio excelente.

Los resultados en múltiples LLM son los siguientes:

5. Futuro: Alta escalabilidad, entrando en más áreas fundamentales avanzadas «sin explorar»

El éxito de Agora no solo fortalece la seguridad de los sistemas distribuidos, sino que también marca el camino para la implementación de modelos grandes en aplicaciones industriales verticales.

Lo más importante es que la arquitectura de Agora demuestra una alta escalabilidad y generalidad. El equipo de investigación enfatiza que Agora también puede ser rápidamente replicado y utilizado por una amplia gama de usuarios en forma de plugins o skills; en nuestro código (github.com/0gfoundation/agora) se proporcionan skills correspondientes para facilitar la replicación. Además, el paradigma de «gran modelo + cooperación de múltiples agentes + hipótesis impulsada» de Agora no se limita únicamente a los protocolos de consenso. Debido a que su control de flujo de trabajo subyacente y su base de conocimiento de dominio superior, junto con las pruebas, están profundamente desacoplados, esto significa que la arquitectura no solo puede ayudar a numerosos usuarios a depurar rápidamente protocolos de consenso, sino que también puede extenderse de forma «plug-and-play» a otros campos exigentes que sufren igualmente del «infierno de las fallas lógicas profundas»:

Control de concurrencia de la base de datos: utilizado para probar defectos de conflicto de transacciones complejas en bases de datos distribuidas bajo niveles de aislamiento extremos (como serializable).

Núcleo del sistema operativo / Sistemas concurrentes: Descubrimiento profundo de bloqueos ocultos y condiciones de carrera en la infraestructura de subprocesos múltiples.

Auditoría de contratos inteligentes de Web3: exploración profunda de los límites de seguridad para protocolos multicanal y lógica DeFi con modelos económicos complejos. Se espera que el mercado de seguridad blockchain alcance aproximadamente 8.500 millones de dólares en 2026, y ya han surgido productos comerciales que utilizan «sistemas de seguridad multiagente» para auditar contratos inteligentes, reduciendo el ciclo de auditoría de semanas a horas. La demanda del mercado está experimentando un auge.

La era de la automatización de seguridad con IA basada en infraestructura de nivel industrial podría estar siendo oficialmente iniciada por Agora y su arquitectura Harness.

Tenemos motivos para creer que Agora puede ayudar a probar mejor la capacidad de los LLM de codificación mediante la identificación de más errores profundos en diversos campos, y los casos de uso de errores profundos descubiertos también pueden ayudar a mejorar la comprensión de código de los LLM de codificación.

Agora puede mejorar significativamente la seguridad de los repositorios de código que sirven como base para protocolos de consenso, control de concurrencia, contratos inteligentes y otros aspectos fundamentales de transacciones financieras seguras. Además, Agora puede ayudar a más empresas tecnológicas a descubrir bugs lógicos más profundos, utilizando menos tokens y ahorrando dinero de manera más eficiente.

Más importante aún, esto coincide exactamente con las dos tendencias más populares en la actualidad: primero, los sistemas multiagente están pasando de la experimentación a la producción; Gartner estima que para 2028, más del 30 % del software empresarial incluirá IA agente, y el mercado de plataformas multiagente aumentará en pocos años de cientos de miles de millones a cientos de miles de millones de dólares; segundo, el control de calidad basado en agentes (Agentic Quality Control), es decir, "usar agentes para revisar agentes", se convertirá en el estándar de la industria en 2026.

En el contexto del informe Veracode 2025, que indica que aproximadamente el 45% del código generado por IA contiene vulnerabilidades de seguridad, y con el mercado de seguridad de IA agente creciendo a una tasa compuesta anual de aproximadamente el 42%, Agora permite a las empresas tecnológicas descubrir errores lógicos más profundos con un menor costo de tokens, transformando la auditoría de seguridad de una tarea humana facturada por semana en una capacidad automatizada entregada por hora.

Y cuando el panorama de esta categoría se vuelve más claro, quienes suelen aprovechar la ventaja inicial no son los gigantes con más ruido, sino el equipo que primero pone en práctica su metodología y puede replicarla de forma sostenible.

Enlace original

Haz clic para conocer los puestos disponibles en BlockBeats

Bienvenido a la comunidad oficial de律动 BlockBeats:

Grupo de suscripción de Telegram: https://t.me/theblockbeats

Grupo de Telegram: https://t.me/BlockBeats_App

Cuenta oficial de Twitter: https://twitter.com/BlockBeatsAsia