Conquista 15 vulnerabilidades zero-day de alto nível: estrutura de agente inteligente de depuração de protocolo de consenso construída por 0G Lab em colaboração com a Nova Universidade Nacional, equipe de Pequim e equipe de Pequim Universidade de Comunicação

Fonte original: Máquina do Coração

O "Santo Graal" dos sistemas distribuídos — protocolos de consenso (Consensus Protocols), há muito tempo é o "Inferno de Bugs" para engenheiros de infraestrutura de alto nível. Devido à sua complexidade de estado extrema, com múltiplos nós entrelaçados, testes tradicionais e grandes modelos de linguagem (LLMs) monolíticos quase não conseguem lidar com Deep Bugs (falhas lógicas profundas).

Recentemente, um artigo de submissão ao ICML 2026, de pesquisadores da 0G Labs, Universidade Nacional de Cingapura, Universidade de Pequim, Universidade de Pequim de Comunicações e outras equipes acadêmicas e industriais de ponta, propôs a primeira estrutura de teste automatizado que integra profundamente conhecimento de domínio com múltiplos agentes de grandes modelos — o Agora.

Essa estrutura, por meio de uma arquitetura inovadora, aborda diretamente os pontos críticos do protocolo, e, nos protocolos industriais e acadêmicos centrais como Raft, EPaxos, HotStuff, BullShark, eliminou de uma só vez 15 Deep Bugs de nível de protocolo até então desconhecidos! Em comparação, modelos nativos como GPT-5.2, Claude 4.5, todos fracassaram, sem sucesso. Com múltiplos agentes (Multi-Agent) e a "Auditoria de Segurança com Agentes" (Agentic Quality Control) se tornando as áreas mais quentes de 2026, o Agora oferece não apenas um artigo, mas uma solução industrial pronta para implementação.

Artigo: "Agora: Rumo à Detecção Autônoma de Bugs em Protocolos de Consenso de Nível de Produção com Agentes LLM"

  1. Contexto: Parceria forte entre 0G e NUS, acumulando conhecimento de sistemas de longo prazo e fusão de paradigma Multi-Agent entre gerações ===================================================

A evolução dos protocolos de consenso distribuído é tanto uma história de inovação genial quanto uma história sangrenta de erros cometidos por engenheiros de elite. Como disse Lamport, vencedor do Prêmio Turing, garantir a correção na implementação de protocolos distribuídos é tão difícil quanto atravessar um labirinto em constante movimento às cegas. E nesta "rodada infernal", o mercado está mudando silenciosamente: segundo a Gartner, a consultoria de sistemas multi-agentes cresceu mais de dez vezes em um ano, e o mercado de plataformas multi-agentes entrou em uma fase de expansão quase exponencial — usar "colaboração de múltiplos agentes" para validar sistemas de baixo nível mais difíceis está deixando de ser uma ideia de ponta para se tornar uma necessidade industrial.

Diante desta pista de inferno, gigantes tecnológicos com recursos abundantes lideraram a exploração. Por exemplo, a Anthropic, líder do setor, recentemente promoveu o projeto Glasswing no Claude Code, tentando usar agentes para testar infraestrutura de baixo nível, mas sua arquitetura ainda depende fortemente de modelos comerciais de ponta, detalhes do projeto permanecem obscuros, e a colaboração é restrita a poucas grandes empresas de tecnologia e corporações multinacionais. Ainda mais crítico, esses planos podem consumir uma quantidade assustadora de tokens durante a execução, criando uma barreira de custo alto que exclui startups e pequenas empresas de orçamentos limitados.

Será que pequenas empresas e comunidades open source estão condenadas a não poderem usar ferramentas de auditoria automatizada de vulnerabilidades de ponta?

Engenheiros da 0G Labs, Liu Xiang da NUS, Song Sa da UESTC, Sun Yong e o estudante de doutorado Zhang Zhao da Universidade de Pequim, uniram seus profundos conhecimentos em agentes para uma inovação disruptiva de "pequeno para grande", que já foi submetida ao ICML 2026.

O "acúmulo de conhecimento de longo prazo" na academia encontrou o "ponto de dor e olfato aguçado" na indústria. Como impulsionar a próxima revolução em segurança de sistemas?

A equipe da 0G acumulou vasta experiência prática em ataques e defesas de protocolos de consenso blockchain; além disso, possui uma sólida base acadêmica em sistemas distribuídos de alto desempenho, controle de concorrência de baixo nível e verificação formal de sistemas. Eles sabem que métodos tradicionais (como fuzzing) frequentemente enfrentam limitações devido à explosão do espaço de estados. Assim, decidiram incorporar seu conhecimento de invariantes globais de sistemas distribuídos como "alma" do sistema, injetando-o na mais avançada paradigma de colaboração multi-agente e na arquitetura de harness automatizado, lançando o framework open source e equitativo Agora.

Simultaneamente, como líder em infraestrutura modular de IA e redes de disponibilidade de dados descentralizadas de alto desempenho, a equipe da 0G acumulou vasta experiência prática em ataques e deficiências reais de protocolos de consenso blockchain e BFT (Byzantine Fault Tolerance).

Essa fusão interdisciplinar mudou radicalmente as regras do jogo: não se trata de testes cegos e violentos, nem de modelos de grande porte sem conhecimento de domínio ("tateando elefantes às cegas"), mas de dividir tarefas entre agentes especializados, transformando décadas de intuição lógica de especialistas em sistemas em uma competição e colaboração entre agentes, conferindo uma força de impacto profundo que supera as ferramentas tradicionais de teste.

Ao contrário da abordagem de alto custo e consumo de tokens da Glasswing, o Agora oferece uma alternativa extremamente amigável para pequenas e médias empresas — demonstrando que, mesmo com modelos base "um pouco inferiores" e maior custo-benefício, uma arquitetura colaborativa de múltiplos agentes com percepção de domínio pode ainda assim detectar Deep Bugs complexos!

  1. Ponto de dor: Monolitos LLM enfrentam limites, enquanto sistemas distribuídos permanecem sob a "Espada de Damocles" da lógica profunda ======================================

Hoje, com big data, blockchain e bancos de dados distribuídos dominando, os protocolos de consenso (como Paxos, Raft, PBFT) formam a base do mundo digital. Contudo, a implementação de protocolos de consenso é notoriamente difícil. Mesmo projetos industriais como o etcd, refinados por inúmeros engenheiros de elite globalmente e operando há anos, escondem Deep Bugs (falhas lógicas profundas) que fazem suar frio.

Essas vulnerabilidades diferem de bugs comuns de implementação, como vazamentos de memória ou estouros de inteiros, pois atravessam múltiplas fases de execução e dependem de estados concorrentes complexos. Quando exploradas maliciosamente, podem corromper dados essenciais ou causar perdas financeiras catastróficas.

Modelos de linguagem (LLMs) de grande porte, embora excelentes na análise de código comum, mostram-se "completamente inúteis" diante de protocolos distribuídos. Eles podem detectar falhas superficiais locais, mas, ao enfrentar vulnerabilidades de lógica de protocolo que dependem de estado global, ficam presos na análise de trechos específicos, incapazes de realizar inferências de sequências globais.

  1. Solução: A grande mudança com os três agentes do Agora e sua arquitetura central de harness ========================================

Para romper esse impasse, o Agora introduziu pela primeira vez a clássica hipótese de teste orientado por hipóteses (HDT) da academia no sistema de agentes de grande modelo. Para realizar inferências globais eficientes, o Agora abandonou o modo de "ataque individual" e desacoplou o fluxo de trabalho em três agentes altamente especializados:

Agente Orquestrador (Orchestrator): responsável por manter o estado global e explorar vulnerabilidades conhecidas;

Agente Estratégia (Strategy): responsável por injetar conhecimento de domínio de consenso distribuído, gerando cenários de ataque altamente desafiadores para CFT e BFT;

Agente Teste (TestGen): responsável por implementar testes de código práticos. A chave para a implementação prática do Agora está na sua arquitetura de testes automatizados.

A arquitetura, ilustrada na figura:

No design geral do Agora, essa "pequena colaboração" não é por acaso, mas resultado de uma interação inteligente e profunda entre agentes e a arquitetura de harness.

A equipe projetou um mecanismo de comunicação e memória extremamente simples e eficiente (Memória e Comunicação Concisas), que garante que cada agente se concentre em sua tarefa principal, minimizando o custo de transmissão de contexto redundante. Com essas restrições de comunicação, o Agente Orquestrador (responsável por coordenação e controle de estado), o Agente Estratégia (que gera cenários de ataque distribuídos) e o Agente Teste (que realiza testes de código e avaliações dinâmicas) trabalham em perfeita sinergia, alimentando a arquitetura de harness:

Uma dupla de ciclo de automação: quando o Agente Estratégia deduz cenários de ataque distribuídos abstratos, a estrutura de interação altamente desacoplada permite que o Agente Teste inicie imediatamente os testes subjacentes. Essa arquitetura possui forte capacidade de adaptação ao ambiente, podendo transformar hipóteses de ataque em testes unitários reais, mesmo em linguagens diferentes como Go ou Rust, e ainda usar uma técnica de ciclo de reflexão (Reflection-Loop).

Se um teste gerar erro, o sistema captura com precisão o stack trace e logs de execução, e os envia de forma otimizada para o agente, que realiza autoajuste direcionado. Essa combinação de "interação minimalista entre múltiplos agentes + ciclo de harness dinâmico" permite que o Agora detecte Deep Bugs profundos com baixo custo de tokens, além de gerar relatórios detalhados com taxa de falsos positivos extremamente baixa.

A visão geral final do funcionamento é ilustrada na figura:

  1. Resultados: 15 Deep Bugs de alto nível detectados, baseline de grandes modelos zerado ============================================

Os resultados de avaliação foram surpreendentes. A equipe testou quatro bibliotecas de protocolos de consenso renomadas (incluindo o etcd de produção e componentes do Sui, uma nova blockchain), comparando com modelos de ponta como GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 e Qwen3 Coder.

Os resultados não só aumentaram a segurança dos sistemas de consenso da 0G, mas também mostraram uma vitória esmagadora:

15 Deep Bugs inéditos: o Agora descobriu 15 vulnerabilidades de lógica profunda até então desconhecidas, envolvendo divergências de execução, violações de monotonicidade, falhas topológicas e vulnerabilidades de assinatura.

Modelos nativos de grande porte totalmente derrotados: mesmo com ferramentas avançadas como ReAct, esses modelos não conseguiram detectar nenhuma das 15 vulnerabilidades, consumindo muitos tokens e ficando presos em bugs de implementação de baixo nível.

Baixo índice de falsos positivos e alta relação custo-benefício: entre todos os relatórios de bugs gerados pelo Agora, 73,9% eram vulnerabilidades de lógica real (falsos positivos apenas 26,1%). Além disso, detectar um bug de lógica de alto nível que faria um arquiteto perder cabelo custou em média apenas 5,32 milhões de tokens (cerca de 40 dólares), com um custo-benefício extremamente alto.

Os resultados em vários LLMs são ilustrados na figura:

  1. Futuro: alta escalabilidade, expansão para mais áreas técnicas "não exploradas" =========================

O sucesso do Agora não só reforça a segurança de sistemas distribuídos, mas também aponta para o caminho de aplicação industrial de modelos de grande porte.

O mais importante é que a arquitetura do Agora demonstra alta escalabilidade e versatilidade. A equipe enfatiza que o Agora pode ser rapidamente reproduzido por usuários por meio de plugins ou skills, com códigos disponíveis em (github.com/0gfoundation/agora). Além disso, o paradigma de "grande modelo + múltiplos agentes colaborativos + hipótese orientada" não se limita a protocolos de consenso. Como sua lógica de fluxo de trabalho e banco de conhecimento de domínio e testes estão profundamente desacoplados, essa arquitetura pode ser aplicada rapidamente a outros domínios críticos que também enfrentam "infernos de lógica profunda":

Controle de concorrência de bancos de dados: para testar conflitos complexos em transações de bancos de dados distribuídos sob níveis extremos de isolamento (como serializável);

Kernel de sistemas operacionais / sistemas concorrentes: para descobrir deadlocks e condições de corrida ocultas na infraestrutura multithread;

Auditoria de contratos inteligentes Web3: para explorar profundamente as fronteiras de segurança de protocolos cross-chain e DeFi com modelos econômicos complexos. O mercado de segurança blockchain deve atingir cerca de 8,5 bilhões de dólares em 2026, com produtos comerciais que usam "sistemas de segurança multi-agentes" para auditoria de contratos inteligentes, reduzindo ciclos de auditoria de semanas para horas, em rápida expansão.

Na era da automação de segurança de infraestrutura de alto nível, o Agora e sua arquitetura de harness podem estar liderando a revolução.

Acreditamos que o Agora, ao descobrir mais deep bugs em diversos domínios, pode melhorar significativamente a capacidade de testes de LLMs de codificação, além de ajudar na compreensão de código por esses modelos.

O Agora pode aumentar a segurança de repositórios de código de protocolos de consenso, controle de concorrência, contratos inteligentes e outros fundamentos de segurança financeira, além de ajudar empresas a detectar bugs de lógica mais profundos com menor consumo de tokens, economizando recursos de forma mais eficiente!

Mais importante, o Agora encaixa-se exatamente nas duas áreas mais quentes atualmente: primeiro, o sistema multi-agente está passando de experimental para produção — a Gartner estima que até 2028, mais de 30% das empresas terão software embutido com IA agentic, e o mercado de plataformas multi-agentes deve saltar de centenas de milhões para bilhões de dólares em poucos anos; segundo, a "qualidade de controle por agentes de agentes" (Agentic Quality Control) está se tornando padrão na indústria em 2026.

Segundo o relatório Veracode 2025, cerca de 45% do código gerado por IA contém vulnerabilidades de segurança, e o mercado de segurança de IA agentic cresce a uma taxa composta de aproximadamente 42% ao ano. Nesse contexto, o Agora permite que empresas descubram deep bugs com menor custo de tokens, elevando a auditoria de segurança de "trabalho humano semanal" para "automação entregue por hora".

À medida que o cenário se esclarece, quem realmente lidera o mercado não são os gigantes mais barulhentos, mas as equipes que primeiro validaram suas metodologias e podem replicá-las continuamente.

Link original

Clique para conhecer as vagas na BlockBeats

Participe do grupo oficial da BlockBeats no Telegram:

Canal de assinatura: https://t.me/theblockbeats

Grupo de discussão: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia

SUI1,25%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado