Conjunto de dados DeNovoSWE lançado para geração de código de longo prazo

Com a constante melhoria das capacidades dos Agentes de Código baseados em LLM, cada vez mais pesquisadores perceberam que chegou a hora de avançar para a próxima fase: tarefas de longo prazo mais próximas das necessidades de cenários reais. Assim, surgiram benchmarks para avaliação de tarefas de longo prazo, como NL2RepoBench e BeyondSWE. As expectativas em relação ao papel dos Agentes de Código evoluíram gradualmente de mantenedores de repositórios para arquitetos, capazes de planejar e concluir tarefas de longo prazo envolvendo todo o código de um repositório.

Recentemente, a Escola de Inteligência Artificial Gaoling da Universidade Renmin da China concluiu pesquisas relacionadas e lançou oficialmente o conjunto de dados DeNovoSWE, focado em tarefas de engenharia de software de longo prazo, especialmente na geração zero de código em nível de repositório.

Link do artigo: https://arxiv.org/pdf/2606.10728

Link do repositório: https://github.com/AweAI-Team/DeNovoSWE

Link dos dados: https://huggingface.co/collections/AweAI-Team/denovoswe

Construiu-se um conjunto de dados de alta qualidade para tarefas de SWE de longo prazo, utilizando os mecanismos Divide & Conquer e Critic & Repair, resultando em um conjunto de dados aberto e de alta qualidade contendo 4.818 dados reais — esse avanço fornece grandes volumes de dados para o treinamento da capacidade de longo prazo do Code Agent, melhorando significativamente sua habilidade em tarefas de longo prazo.

O artigo também fornece um método de filtragem baseado na dificuldade das questões, aliviando eficazmente o conflito entre a proporção de questões difíceis e a qualidade da trajetória.

Os experimentos mostram que o Qwen3-30B-A3B-Instruct treinado com o DeNovoSWE melhorou de 5,8% para 47,2% no BeyondSWE-Doc2Repo e de 4,3% para 23,0% no NL2RepoBench, demonstrando uma melhoria significativa na capacidade de geração de código em nível de repositório com dados de longo prazo.

Reconstruir todo o repositório a partir de um documento

No último ano, com o aumento de grandes conjuntos de dados de SWE, como Scale-SWE, os agentes de código avançaram rapidamente em tarefas reais de engenharia de software, como o SWE-bench. Mas, à medida que os modelos se tornam cada vez mais habilidosos em “corrigir um issue” ou “alterar algumas linhas de bug”, uma questão mais crítica começa a surgir: os agentes realmente possuem capacidade de engenharia de software de longo prazo? Os resultados dos modelos mais avançados, como BeyondSWE-Doc2Repo e NL2RepoBench, não são promissores.

O desenvolvimento de software no mundo real muitas vezes não se trata de alterar uma função ou adicionar uma condição, mas sim compreender os requisitos, planejar a arquitetura, criar arquivos, projetar APIs, gerenciar dependências, integrar módulos e, finalmente, fazer com que todo o repositório passe nos testes.

Em outras palavras, o desafio é a geração em nível de repositório com horizonte longo: a partir de um documento de tarefa, gerar um repositório de software completo, executável e verificável. É exatamente isso que o DeNovoSWE busca resolver.

Documentação de alta qualidade para a tarefa de "gerar repositório do zero"

Na geração de documento para repositório, o documento não é apenas o README nem uma simples lista de APIs. Ele é, essencialmente, a única entrada para que o agente inteligente reconstrua todo o repositório.

Um documento de tarefa de alta qualidade deve atender, no mínimo, a dois critérios fundamentais.

Primeiro, ele deve ser bem organizado.

Tarefas em nível de repositório são naturalmente complexas, envolvendo múltiplos módulos, interfaces, configurações, estruturas de dados e fluxos de interação. Se a documentação simplesmente agrupar descrições de funções, o agente facilmente se perderá em informações fragmentadas. Portanto, a documentação deve primeiro apresentar uma visão geral clara do repositório e, em seguida, dividir-se em capítulos conforme capacidades ou fluxos de trabalho, garantindo que cada parte corresponda a limites funcionais bem definidos.

Em segundo lugar, deve partir de uma avaliação confiável.

O documento não pode ser muito curto, pois isso transformaria a tarefa em um problema mal definido, forçando o modelo a adivinhar sem direção para passar na avaliação; nem muito longo, pois isso revelaria diretamente os detalhes da implementação, eliminando o desafio da tarefa.

Documentação de alta qualidade deve descrever os comportamentos-chave nos quais a avaliação se baseia: incluindo caminho de importação, API pública, entradas e saídas, parâmetros padrão, comportamentos de exceção, configurações, strings de padrão, campos retornados, etc., além de descrever as funções aproximadas que precisam ser concluídas. Ou seja, a documentação deve ser suficiente para permitir que um agente reproduza comportamentos testáveis, mas não deve se tornar uma cópia do código de implementação.

Essa também é a ideia central do DeNovoSWE: tornar os documentos legíveis, implementáveis e verificáveis.

Método DeNovoSWE

DeNovoSWE estrutura a tarefa de engenharia de software de longo prazo, grande escala e verificável de "gerar um repositório completo a partir de documentação". Em vez de documentação escrita manualmente, ela constrói automaticamente instâncias de alta qualidade por meio de um fluxo de trabalho multiagente em sandbox. Todo o método pode ser resumido em duas etapas: Divide e Conquer.

Na fase Divide, o sistema primeiro analisa o repositório-alvo, dividindo-o em várias capacidades de repositório.

Cada capacidade corresponde a uma capacidade ou fluxo de trabalho central no repositório, como autenticação e conexão, leitura e gravação de dados, processamento em lote, fluxos de exportação, etc. Dessa forma, o problema complexo de geração do repositório é dividido em várias seções de documento com estrutura clara.

Ao mesmo tempo, o DeNovoSWE executará os testes unitários originais e coletará rastros de execução, identificando quais funções, classes e interfaces realmente afetam a avaliação, distinguindo adicionalmente componentes diretos, componentes indiretos principais e componentes indiretos não principais: as interfaces diretamente chamadas pelos testes devem ser documentadas em detalhes; os componentes indiretos principais que afetam o comportamento observável também precisam ser cobertos; já as implementações internas não principais podem ser deixadas para o agente explorar livremente.

Na fase Conquer, o DeNovoSWE gera documentos por habilidade usando o mecanismo Draft-Critic-Repair. O agente Draft escreve primeiro o rascunho; o agente Critic verifica se o documento omite APIs-chave, contratos de comportamento ou informações estruturais; e o agente Repair corrige o documento com base no feedback. Esse ciclo é iterado repetidamente até que cada seção de habilidade seja suficientemente clara, completa e alinhada com a avaliação.

Finalmente, os documentos de capacidades diferentes serão combinados em um único documento de tarefa completo, servindo como a única base para o agente gerar um repositório do zero.

Dificuldade: Por que isso é uma tarefa de longo prazo?

A dificuldade da tarefa DeNovoSWE vem de uma mudança fundamental: ela não é mais correção em nível de issue, mas geração de repositório inteiro.

Em tarefas tradicionais de SWE, os agentes geralmente enfrentam um repositório já existente, precisando apenas localizar bugs, modificar código local e passar nos testes.

No DeNovoSWE, o agente enfrenta um ambiente limpo: o código-fonte original e os testes foram removidos, o histórico do git foi redefinido e todos os canais potenciais de vazamento, como cache, resíduos de site-packages, wheels do pip e artefatos compilados temporários, também foram eliminados. Isso significa que o agente deve confiar plenamente na documentação para reconstruir todo o repositório. Ele precisa planejar a estrutura do projeto, criar arquivos de módulos, definir interfaces públicas, implementar interações entre arquivos, gerenciar dependências e configurações, e corrigir erros continuamente por meio de múltiplas edições e feedbacks de testes.

Qualquer desvio na assinatura da API, campo de retorno, tipo de exceção ou comportamento padrão pode levar à falha do teste. Erros também se acumulam ao longo do tempo: um módulo mal projetado no início pode afetar vários arquivos e cadeias de chamadas subsequentes.

Para lidar com as diferenças de dificuldade entre repositórios, o DeNovoSWE também propôs o filtragem de trajetórias sensível à dificuldade. Em termos simples, tarefas fáceis devem exigir taxas de aprovação mais altas, enquanto tarefas difíceis não devem ser descartadas inteiramente por não atingirem uma pontuação perfeita. O DeNovoSWE define diferentes limiares de filtragem para intervalos de dificuldade com base na complexidade estrutural e na avaliação de dificuldade pelo LLM, equilibrando assim qualidade e diversidade.

Isso é especialmente importante para tarefas de longo prazo: quanto mais complexo o repositório, mais difícil é passar por todos os testes de uma só vez, mas as trajetórias difíceis, de baixa pontuação e parcialmente bem-sucedidas ainda contêm habilidades valiosas de planejamento e implementação de longo prazo.

Resultados do experimento

DeNovoSWE finalmente construiu 4.818 instâncias de tarefas de document-to-repository de alta qualidade. É um ambiente de engenharia de software de longo prazo executável, avaliável e treinável.

Os resultados experimentais mostram que o DeNovoSWE trouxe um aumento significativo na capacidade do modelo de gerar repositórios de longo prazo. No Qwen3-30B-A3B-Instruct, o modelo original obteve apenas 5,8% no BeyondSWE-Doc2Repo e 4,3% no NL2RepoBench. O Scale-SWE-Agent treinado com dados SWE de nível de issue melhorou para 29,2% e 18,3%, indicando que os dados SWE comuns têm efeito de transferência. No entanto, quando o modelo foi treinado com o DeNovoSWE, o desempenho aumentou ainda mais para 47,2% e 23,0%.

Isso indica que os dados voltados para "corrigir bugs" não podem substituir completamente os dados de longo prazo voltados para "gerar repositórios completos". Para que o agente realmente aprenda engenharia em nível de repositório, é necessário construir ambientes de treinamento especificamente voltados para tarefas de longo prazo.

Na base Qwen3.5-35B-A3B mais potente, o DeNovoSWE também gera retornos estáveis: o BeyondSWE-Doc2Repo aumentou de 43,8% para 50,0%, e o NL2RepoBench subiu de 23,5% para 27,1%. Isso reforça que os benefícios do DeNovoSWE não são resultado de uma adaptação acidental a um único modelo, mas sim provenientes dos próprios dados de longo prazo de alta qualidade.

Conclusão

A próxima fase dos agentes de código não é apenas corrigir issues individuais mais rapidamente, mas sim compreender documentação, planejar arquitetura, organizar módulos, implementar interfaces e, finalmente, gerar um repositório de software completo e funcional.

DeNovoSWE sistematizou este objetivo para construir um conjunto de dados treinável, verificável e escalável. Ele responde a uma questão fundamental: que tipo de dados realmente treina agentes com capacidades de engenharia de software de longo prazo?

A resposta não é mais código fragmentado, nem questões mais simples, mas sim tarefas de geração de repositórios completos, de alta qualidade, estruturadas, alinhadas à avaliação e anti-vazamento.

Comece com um documento e reconstrua todo o repositório. Este é o obstáculo que os agentes de código de longo prazo precisam ultrapassar.

Referência: https://arxiv.org/pdf/2606.10728

Este artigo é do número oficial do WeChat "Nova Inteligência", editado por: LRST