Fonte original: Machine Heart

O "Santo Graal" dos sistemas distribuídos — protocolos de consenso (Consensus Protocols) — tem sido, por muito tempo, o "inferno de bugs" para engenheiros de infraestrutura de alto nível. Devido à sua complexidade extrema e à interconexão de múltiplos nós, os testes tradicionais e os LLMs monolíticos são quase impotentes diante de Deep Bugs (vulnerabilidades lógicas profundas).

Recentemente, um artigo aceito na ICML 2026, de pesquisadores de equipes acadêmicas e industriais de ponta, incluindo 0G Labs, Universidade Nacional de Cingapura, Universidade de Pequim e Universidade de Comunicações de Pequim, apresentou o primeiro framework de teste automatizado que integra profundamente conhecimento de domínio e colaboração multi-agente de grandes modelos — Agora.

Este framework, por meio de uma arquitetura inovadora, atinge diretamente os pontos críticos do protocolo, eliminando de uma só vez 15 Deep Bugs previamente desconhecidos em protocolos industriais e acadêmicos fundamentais como Raft, EPaxos, HotStuff e BullShark! Em comparação, poderosos modelos nativos como GPT-5.2 e Claude 4.5 falharam completamente, com zero acertos. No momento em que sistemas Multi-Agent e "Auditoria de Segurança Agêntica" (Agentic Quality Control) se tornam as principais tendências de 2026, o Agora não oferece apenas um artigo acadêmico, mas sim uma solução industrial viável.

Artigo: Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents

1. Context: 0G teams up with NUS, integrating long-term systematic knowledge with a cross-generational, cross-domain fusion of the Multi-Agent paradigm

A evolução dos protocolos de consenso distribuído é ao mesmo tempo uma história de inovação genial e uma saga sangrenta de countless engenheiros de ponta enfrentando obstáculos. Como afirmou o ganhador do Prêmio Turing, Lamport, garantir a correção da implementação de protocolos distribuídos é tão difícil quanto percorrer cegamente um labirinto em constante agitação. E nessa rota "nível infernal", o mercado está silenciosamente mudando: segundo a Gartner, a procura por consultorias empresariais em sistemas multiagentes aumentou mais de dez vezes em mais de um ano, e o mercado de plataformas multiagentes entrou em um período de expansão acelerada, quase dobrando anualmente — usar a "colaboração multiagentes" para validar sistemas de base mais complexos está se transformando de uma ideia de ponta em uma necessidade industrial.

Diante desta pista de nível infernal, as gigantes tecnológicas com reputação de excelência lideraram explorações baseadas em ativos pesados. Por exemplo, a Anthropic, líder do setor, recentemente avançou internamente no projeto Glasswing no Claude Code; embora tenha tentado usar Agentes para testar a infraestrutura de base, sua arquitetura ainda depende extremamente dos maiores modelos comerciais de ponta. Os detalhes do projeto permanecem vagos e são compartilhados apenas com um número extremamente limitado de grandes instituições tecnológicas e gigantes multinacionais por meio de parcerias fechadas. Mais fatalmente, essas soluções das grandes empresas podem exibir um consumo de Token assustadoramente alto durante a execução — essa barreira elevada de poder computacional e abordagem baseada em ativos pesados excluem diretamente startups e pequenas e médias empresas com orçamentos limitados.

Será que pequenas empresas e comunidades de código aberto estão fadadas a não conseguirem usar ferramentas profissionais de auditoria automatizada de vulnerabilidades?

Engenheiros da 0G Labs, juntamente com Liu Xiang da Universidade Nacional de Cingapura, Song Sa e Sun Yong da Universidade de Telecomunicações de Pequim, e o doutorando Zhang Zhaowei e o pesquisador Zhang Ceyao da Escola de Inteligência da Universidade de Pequim, aplicaram seu profundo conhecimento no campo de Agentes ao sistema, realizando uma inovação disruptiva de “pequeno contra grande”, cujo trabalho foi aceito na conferência de ponta em IA de 2026, ICML.

O "acúmulo de conhecimento sistêmico de longo prazo" da academia encontrou as "dor e sensibilidade aguda" da indústria; como desencadear a próxima revolução em segurança de sistemas?

A equipe do 0G acumulou extensa experiência prática em ataque e defesa em protocolos de consenso blockchain; além disso, possui profunda base acadêmica em sistemas distribuídos de alto desempenho, controle de concorrência em nível inferior e verificação formal de sistemas. Eles compreendem que métodos tradicionais (como Fuzzing) frequentemente enfrentam limitações devido à explosão do espaço de estados ao lidar com repositórios de código industriais. Vários pesquisadores decidiram incorporar o conhecimento acumulado ao longo do tempo sobre lógica de inferência de invariâncias globais em sistemas distribuídos como uma "alma" dentro do mais avançado paradigma de coordenação multiagente e arquitetura automatizada de Harness, lançando o framework aberto e equitativo Agora.

Ao mesmo tempo, como infraestrutura modular de IA de ponta e rede descentralizada de disponibilidade de dados de alto desempenho, a equipe da 0G acumulou extensa experiência prática em ataque e defesa e amostras reais de falhas de protocolo no落地 de protocolos de consenso blockchain e arquiteturas BFT (Byzantine Fault Tolerance) de alta concorrência.

Essa integração transversal mudou completamente as regras do jogo: não é um teste cego e violento, nem um grande modelo sem conhecimento de domínio, como “cegos tocando um elefante”, mas sim, por meio da especialização e divisão de agentes, transforma a intuição lógica acumulada por especialistas do sistema ao longo de décadas em jogos e colaboração entre agentes, dotando-o de uma força robusta capaz de superar ferramentas tradicionais de teste.

Ao contrário da abordagem de alto custo do Glasswing, que consome grandes quantias de tokens de topo, a Agora traz uma alternativa extremamente amigável para pequenas e médias empresas — ela demonstra que, mesmo com modelos base ligeiramente inferiores e maior custo-benefício, é possível identificar bugs complexos por meio de uma arquitetura sofisticada de múltiplos agentes com percepção de domínio!

2. Dores: O LLM único não consegue ultrapassar os limites; o sistema distribuído suspende a "Espada de Dâmocles da lógica profunda"

Hoje, em um mundo dominado por big data, blockchain e bancos de dados distribuídos, protocolos de consenso (como Paxos, Raft, PBFT, etc.) são a base fundamental de todo o mundo digital. No entanto, a implementação de protocolos de consenso é famosa por sua "dificuldade nível inferno". Mesmo projetos industriais de referência, como o etcd, refinado por inúmeros engenheiros de ponta globais e em operação há anos, ainda escondem Deep Bugs (vulnerabilidades lógicas profundas) que deixam os desenvolvedores com suor frio.

Essas vulnerabilidades diferem de falhas de implementação comuns, como vazamentos de memória e estouro de inteiro, pois abrangem múltiplos estágios de execução e dependem de estados concorrentes complexos. Se acionadas maliciousmente, podem não apenas causar danos aos dados principais, mas também provocar perdas financeiras catastróficas.

Embora os grandes modelos de linguagem (LLM) dos últimos anos tenham se destacado na análise de código comum, eles se mostram "pouco inteligentes" diante do consenso distribuído. Eles conseguem, no máximo, identificar defeitos superficiais no código local, mas diante de vulnerabilidades lógicas em nível de protocolo que dependem do estado global, os LLMs monolíticos frequentemente ficam presos no código local, incapazes de realizar raciocínio temporal global.

3. Quebrando o impasse: A tripla mudança de agente da Agora e a arquitetura principal do Harness

Para quebrar este impasse, a Agora introduz pela primeira vez o paradigma de teste baseado em hipóteses (Hypothesis-Driven Testing, HDT), clássico na academia, nos sistemas de Agentes de grandes modelos. Para alcançar raciocínio global eficiente, a Agora descarta completamente o modelo tradicional de "trabalho isolado" e desconpoe elegantemente o fluxo de trabalho em três Agentes altamente especializados, cada um com sua função específica:

Agente Orchestrator (coordenador): responsável pela manutenção do estado global e pela exploração de vulnerabilidades com base em vulnerabilidades conhecidas;

Strategy Agent (Strategy Agent): responsável por injetar conhecimento de domínio distribuído e gerar cenários anômalos altamente agressivos para os protocolos CFT e BFT.

Agente TestGen (Código): Prático. O que permite que o Agora seja realmente implementado e gere testes eficazes em um ciclo fechado é sua arquitetura automatizada de testes.

Sua arquitetura é mostrada na figura abaixo:

No design geral da Agora, essa magia de igualdade de "pequeno contra grande" não surge do nada, mas sim da profunda integração entre seu sofisticado mecanismo de interação de agentes e a arquitetura do Harness de teste.

A equipe de pesquisa projetou internamente no framework do sistema um mecanismo de comunicação e memória extremamente simples e eficiente (Succinct Memory & Communication), reduzindo ao mínimo o overhead de transmissão de contexto redundante, enquanto mantém cada Agent focado em suas tarefas principais. Sob estas restrições de comunicação extremas, o Orchestrator Agent (responsável pela coordenação global e controle de estado), o Strategy Agent (responsável pela geração de ambientes e cenários anômalos distribuídos) e o TestGen Agent (responsável pelo teste de código e avaliação dinâmica Evaluation) se entrelaçam perfeitamente, impulsionando e satisfazendo conjuntamente a arquitetura Harness:

A automação em闭环 de duas espadas unidas: após o Strategy Agent inferir cenários abstratos de ataque distribuído, o TestGen Agent, com base em um framework de interação altamente desconectado, pode imediatamente iniciar os testes subjacentes. Essa arquitetura não apenas possui uma forte capacidade de adaptação ao ambiente, permitindo transformar hipóteses de ataque em testes unitários reais e executáveis,跨越 ambientes de linguagens de programação diferentes como Go e Rust, mas também incorpora tecnologia eficiente de loop de reflexão (Reflection-Loop).

Quando um erro ocorre durante a execução do teste no ambiente, o sistema captura com precisão e em tempo real a pilha de chamadas e os logs de execução, enviando-os de forma compacta de volta ao Agente para correção direcionada. A combinação integrada de «interação mínima entre múltiplos Agentes +闭环 dinâmico do Harness» permite que o Agora identifique com custo extremamente baixo em tokens os bugs lógicos mais ocultos e produza relatórios analíticos detalhados com taxa de falsos positivos extremamente baixa.

A visão geral do funcionamento final é mostrada na figura:

4. Resultado: 15 principais bugs zero-day conquistados, baseline do modelo grande com pontuação zero em todos os casos

Os resultados da avaliação são impressionantes. A equipe de pesquisa realizou uma revisão abrangente em quatro bibliotecas de protocolos de consenso renomadas (incluindo o etcd em produção e os componentes fundamentais da nova cadeia pública Sui), comparando os modelos mais avançados do planeta, como GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 e Qwen3 Coder.

O resultado não apenas torna o sistema de consenso que executa o 0G mais seguro, mas também apresenta um ataque esmagador de redução de dimensão:

15 novas falhas profundas de Logic Deep emergem: a Agora descobriu com sucesso 15 vulnerabilidades profundas de nível de protocolo anteriormente desconhecidas. Essas falhas abrangem áreas críticas como divergência de execução, violação de monotonicidade, defeitos topológicos e vulnerabilidades de assinatura.

Todos os modelos nativos foram totalmente eliminados: em contraste, os modelos de referência (mesmo com a avançada cadeia de ferramentas dinâmicas ReAct) falharam completamente diante desse tipo de vulnerabilidade lógica profunda (0/15). Eles consumiram uma grande quantidade de tokens, mas só conseguiram girar em torno de bugs de implementação de código de baixo nível.

Taxa de falsos positivos extremamente baixa e excelente custo-benefício: em todos os relatórios de bugs gerados pela Agora, 73,9% são vulnerabilidades lógicas reais (taxa de falsos positivos de apenas 26,1%). Mais impressionante ainda: em média, apenas 5,32M de tokens (aproximadamente 40 dólares) são necessários para descobrir um bug lógico de alto nível capaz de deixar arquitetos sênior sem cabelo — excelente custo-benefício.

Os resultados em múltiplos LLMs são apresentados abaixo:

5. Futuro: Alta escalabilidade, entrando em mais áreas fundamentais desafiadoras

O sucesso do Agora não apenas fortaleceu a segurança dos sistemas distribuídos, mas também apontou o caminho para a implementação de grandes modelos em aplicações industriais verticais.

Particularmente importante é que a arquitetura do Agora demonstra alta escalabilidade e generalidade. A equipe de pesquisa enfatiza que o Agora também pode ser rapidamente replicado e utilizado por uma ampla gama de usuários na forma de plugins ou skills; fornecemos skills correspondentes em nosso código (github.com/0gfoundation/agora) para auxiliar na replicação. Além disso, o paradigma do Agora — “grande modelo + cooperação de múltiplos agentes + hipótese impulsionada” — não se limita apenas a protocolos de consenso. Devido ao profundo desacoplamento entre o controle de fluxo de trabalho subjacente e a base de conhecimento de domínio superior, bem como os testes, isso significa que a arquitetura não apenas ajuda diversos usuários a diagnosticar rapidamente protocolos de consenso, mas também pode ser rapidamente expandida para outros domínios intensivos, igualmente afetados pelo “inferno das falhas lógicas profundas”, de forma “plug-and-play”:

Controle de concorrência de banco de dados: utilizado para testar defeitos de conflito de transações complexas em bancos de dados distribuídos sob níveis extremos de isolamento (como serializável Serializable).

Núcleo do sistema operacional / Sistemas concorrentes: Descubra profundamente deadlocks e condições de corrida ocultas na infraestrutura de multithreading.

Auditoria de contratos inteligentes Web3: investigação aprofundada dos limites de segurança para protocolos cross-chain e lógica DeFi com modelos econômicos complexos. O mercado de segurança blockchain está previsto para atingir cerca de US$ 8,5 bilhões em 2026, e já surgiram produtos comerciais que utilizam "sistemas de segurança multiagente" para auditoria de contratos inteligentes, reduzindo o ciclo de auditoria de semanas para horas. A demanda do mercado está explodindo.

A era de automação de segurança por IA com infraestrutura de base industrial pode estar sendo oficialmente iniciada pela Agora e sua arquitetura Harness.

Temos motivos para acreditar que o Agora pode ajudar a testar melhor a capacidade dos LLMs de codificação por meio da descoberta de mais deep bugs em diversos domínios, e os casos de uso de deep bugs encontrados também podem ajudar os LLMs de codificação a aprimorar sua compreensão de código.

Agora pode aumentar significativamente a segurança dos repositórios de código que servem como base para protocolos de consenso, controle de concorrência, contratos inteligentes e outros aspectos de transações financeiras seguras. Além disso, o Agora também pode ajudar mais empresas de tecnologia a descobrir bugs de lógica mais profundos, consumindo menos tokens e economizando dinheiro de forma mais eficiente!

Mais importante ainda, isso coincide exatamente com as duas tendências mais quentes atualmente: primeiro, os sistemas multiagente estão passando da fase experimental para a produção — a Gartner prevê que, até 2028, mais de 30% dos softwares empresariais incorporarão IA agente, e o mercado de plataformas multiagente saltará de bilhões para centenas de bilhões de dólares nos próximos anos; segundo, o controle de qualidade baseado em agentes (Agentic Quality Control) — ou seja, usar agentes para revisar agentes — está se tornando o padrão da indústria em 2026.

Na esteira do relatório Veracode 2025, que aponta que cerca de 45% do código gerado por IA contém vulnerabilidades de segurança, e do mercado de segurança de IA agente, que cresce a uma taxa composta anual de cerca de 42%, a Agora permite que empresas de tecnologia encontrem bugs de lógica mais profundos com custos de token mais baixos, transformando a auditoria de segurança de uma atividade humana cobrada por semana em uma capacidade automatizada entregue por hora.

E quando o cenário dessa赛道 se torna mais claro, os que realmente conquistam a vantagem inicial não são geralmente as maiores empresas com mais visibilidade, mas sim a equipe que primeiro validou sua metodologia e consegue replicá-la continuamente.

Link original

Clique para saber mais sobre as vagas em aberto na BlockBeats

Bem-vindo ao grupo oficial da BlockBeats:

Grupo de assinatura no Telegram: https://t.me/theblockbeats

Grupo de Telegram: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia