Se lanzó el conjunto de datos DeNovoSWE para la generación de código con horizonte largo

A medida que las capacidades de los Agentes de Código LLM continúan mejorando, cada vez más investigadores reconocen que ha llegado el momento de avanzar hacia la siguiente etapa: tareas de largo plazo más cercanas a las necesidades del mundo real. Así han surgido varios benchmarks para evaluar tareas de largo plazo, como NL2RepoBench y BeyondSWE. Las expectativas sobre el rol que deben asumir los Agentes de Código han evolucionado gradualmente, pasando de ser mantenedores de repositorios a arquitectos capaces de planificar y completar tareas de largo plazo que abarcan todo el código de un repositorio.

Recientemente, la Escuela de Inteligencia Artificial Gaoling de la Universidad Renmin de China completó una investigación relevante y lanzó oficialmente el conjunto de datos DeNovoSWE, enfocado en tareas de ingeniería de software a largo plazo, especialmente en la generación desde cero de código a nivel de repositorio.

Enlace al artículo: https://arxiv.org/pdf/2606.10728

Enlace del repositorio: https://github.com/AweAI-Team/DeNovoSWE

Enlace de datos: https://huggingface.co/collections/AweAI-Team/denovoswe

Construcción de un conjunto de datos de alta calidad mediante los mecanismos Divide & Conquer y Critic & Repair, logrando con éxito el escalado de tareas SWE de largo alcance y creando un conjunto de datos de código abierto de alta calidad para tareas SWE de largo alcance que contiene 4.818 datos reales: este logro proporciona grandes volúmenes de datos para el entrenamiento de la capacidad de largo alcance de Code Agent, mejorando significativamente la capacidad de Code Agent en tareas de largo alcance.

El artículo también proporciona un método de filtrado basado en la dificultad de las preguntas, lo que mitiga eficazmente el equilibrio entre la proporción de preguntas difíciles y la calidad de la trayectoria.

Los experimentos muestran que Qwen3-30B-A3B-Instruct entrenado con DeNovoSWE mejora de 5.8% a 47.2% en BeyondSWE-Doc2Repo y de 4.3% a 23.0% en NL2RepoBench, demostrando una mejora significativa en la capacidad de generación de código a nivel de repositorio gracias a datos de largo alcance.

Reconstruir todo el repositorio a partir de un documento

Durante el último año, con el aumento de grandes conjuntos de datos de SWE como Scale-SWE, los agentes de código han progresado rápidamente en tareas reales de ingeniería de software, como SWE-bench. Sin embargo, a medida que los modelos se vuelven cada vez más hábiles en «arreglar un issue» o «modificar algunas líneas de bug», surge una pregunta más crítica: ¿los agentes realmente poseen capacidad de ingeniería de software a largo plazo? Según los resultados de modelos de vanguardia como BeyondSWE-Doc2Repo y NL2RepoBench, el rendimiento no es satisfactorio.

El desarrollo de software en el mundo real a menudo no se trata de modificar una función o agregar una condición, sino de comprender los requisitos, planificar la arquitectura, crear archivos, diseñar API, gestionar dependencias, integrar módulos y finalmente hacer que todo el repositorio funcione correctamente en las pruebas.

En otras palabras, lo difícil es la generación a nivel de repositorio con horizonte largo: partir de un documento de tarea para generar un repositorio de software completo, ejecutable y verificable. Este es precisamente el problema que DeNovoSWE busca resolver.

High-quality "Generate Repository from Scratch" task documentation

En la generación de document-to-repository, el documento no es solo un README ni una lista simple de API. Es esencialmente la única entrada para que el agente inteligente reconstruya todo el repositorio.

Un documento de tarea de alta calidad debe cumplir al menos dos criterios fundamentales.

Primero, debe estar bien organizado.

Los proyectos a nivel de repositorio son inherentemente complejos, ya que incluyen múltiples módulos, interfaces, configuraciones, estructuras de datos y flujos de interacción. Si la documentación simplemente agrupa las descripciones de funciones, los agentes fácilmente se pierden en información fragmentada. Por lo tanto, la documentación debe comenzar con una visión general clara del repositorio, luego dividirse en capítulos según capacidades o flujos de trabajo, asegurando que cada sección corresponda a un límite funcional claro.

En segundo lugar, debe partir desde una evaluación confiable.

El documento no puede ser demasiado corto, de lo contrario la tarea se convierte en un problema subdefinido, lo que podría obligar al modelo a adivinar sin rumbo para pasar la evaluación; tampoco puede ser demasiado largo, de lo contrario se revelarían directamente los detalles de implementación, haciendo que la tarea pierda su desafío.

Un documento de alta calidad debe describir los comportamientos clave sobre los que se basa la evaluación: incluyendo la ruta de importación, la API pública, entradas y salidas, parámetros predeterminados, comportamientos de excepción, opciones de configuración, cadenas de patrón, campos devueltos, etc., así como las funciones aproximadas que se deben completar. Es decir, el documento debe ser lo suficientemente detallado como para permitir que un agente reproduzca comportamientos verificables, pero no debe convertirse en una copia del código de implementación.

Esta es también la idea central de DeNovoSWE: hacer que los documentos sean legibles, implementables y verificables.

Método DeNovoSWE

DeNovoSWE estructura la tarea de generar un repositorio completo a partir de documentación como una tarea de ingeniería de software de largo alcance, a gran escala y verificable. No se trata de documentación escrita manualmente, sino de la construcción automática de instancias de alta calidad mediante un flujo de trabajo multiagente en un entorno aislado. Todo el método se puede resumir en dos pasos: Divide y Vencerás.

En la fase Divide, el sistema primero analiza el repositorio objetivo y lo descompone en varias capacidades de repositorio.

Cada capacidad corresponde a una capacidad o flujo de trabajo principal en el repositorio, como autenticación y conexión, lectura y escritura de datos, procesamiento por lotes, flujos de exportación, etc. De esta manera, el problema de generación del repositorio se divide en varios capítulos de documentación claramente estructurados.

Al mismo tiempo, DeNovoSWE ejecutará las pruebas unitarias originales y recopilará trazas de ejecución para identificar qué funciones, clases e interfaces realmente afectan la evaluación, distinguiendo adicionalmente los componentes directos, los componentes indirectos principales y los componentes indirectos no principales: las interfaces llamadas directamente por las pruebas deben documentarse detalladamente; los componentes indirectos principales que afectan el comportamiento observable también deben cubrirse; mientras que las implementaciones internas no principales pueden dejarse a la discreción del agente.

En la fase Conquer, DeNovoSWE genera documentos por capacidad utilizando el mecanismo Draft-Critic-Repair. El agente Draft primero escribe un borrador; el agente Critic revisa si el documento omite información clave sobre API, contratos de comportamiento o estructura; y el agente Repair corrige el documento según los comentarios. Este ciclo se itera continuamente hasta que cada sección de capacidad sea lo suficientemente clara, completa y alineada con la evaluación.

Ultimately, the different capability documents will be merged into a single comprehensive task document, serving as the sole basis for the agent to generate a repository from scratch.

Dificultad: ¿Por qué es esta una tarea a largo plazo?

La dificultad de la tarea DeNovoSWE proviene de un cambio fundamental: ya no es corrección a nivel de issue, sino generación de todo el repositorio.

En tareas tradicionales de SWE, los agentes suelen enfrentarse a un repositorio existente, donde solo necesitan localizar errores, modificar código local y pasar las pruebas.

En DeNovoSWE, el agente enfrenta un entorno limpio: el código fuente original y las pruebas se han eliminado, el historial de git se ha restablecido, y se han borrado posibles canales de fuga como caché, residuos de site-packages, wheels de pip y productos compilados temporales. Esto significa que el agente debe depender realmente de la documentación para reconstruir todo el repositorio. Necesita planificar la estructura del proyecto, crear archivos de módulos, definir interfaces públicas, implementar interacciones entre archivos, gestionar dependencias y configuraciones, y corregir errores continuamente a través de múltiples ediciones y retroalimentación de pruebas.

Cualquier desviación en la firma de la API, los campos de respuesta, los tipos de excepción o el comportamiento predeterminado puede provocar un fallo en las pruebas. Los errores también se acumulan a lo largo del tiempo: un módulo mal diseñado en una etapa temprana puede afectar a múltiples archivos y cadenas de llamadas posteriores.

Para abordar las diferencias en la dificultad entre los repositorios, DeNovoSWE también propuso un filtrado de trayectorias sensible a la dificultad. En términos sencillos, las tareas fáciles deben requerir una tasa de aprobación más alta, mientras que las tareas difíciles no deben descartarse por completo solo porque no alcanzaron una puntuación perfecta. DeNovoSWE establece umbrales de filtrado distintos para diferentes intervalos de dificultad, basándose en la complejidad estructural y la evaluación de dificultad por LLM, logrando así un equilibrio entre calidad y diversidad.

Esto es especialmente importante para tareas de largo plazo: cuanto más complejo sea el repositorio, más difícil será pasar completamente todas las pruebas de una sola vez, pero las trayectorias con repositorios difíciles, puntuaciones bajas o éxitos parciales aún contienen habilidades valiosas de planificación y ejecución a largo plazo.

Resultados del experimento

DeNovoSWE finalmente construyó 4818 instancias de tareas de document-to-repository de alta calidad. Es un entorno de ingeniería de software a largo plazo ejecutable, evaluatable y entrenable.

Los resultados experimentales muestran que DeNovoSWE mejora significativamente la capacidad del modelo para generar repositorios a largo plazo. En Qwen3-30B-A3B-Instruct, el modelo original alcanzó solo un 5.8% en BeyondSWE-Doc2Repo y un 4.3% en NL2RepoBench. El Scale-SWE-Agent entrenado con datos SWE a nivel de issue mejoró estos resultados hasta un 29.2% y un 18.3%, lo que indica que los datos SWE convencionales sí tienen efecto de transferencia. Sin embargo, cuando el modelo se entrenó con DeNovoSWE, el rendimiento mejoró aún más hasta alcanzar un 47.2% y un 23.0%.

Esto indica que los datos orientados a "arreglar bugs" no pueden reemplazar completamente los datos de largo plazo orientados a "generar repositorios completos". Para que el agente aprenda verdaderamente la ingeniería a nivel de repositorio, es necesario construir entornos de entrenamiento específicamente diseñados para tareas de largo plazo.

En el backbone más potente Qwen3.5-35B-A3B, DeNovoSWE también genera rendimientos estables: BeyondSWE-Doc2Repo aumenta del 43,8% al 50,0%, y NL2RepoBench sube del 23,5% al 27,1%. Esto demuestra aún más que los beneficios de DeNovoSWE no son una adaptación accidental a un solo modelo, sino que provienen del propio datos de largo alcance de alta calidad.

Conclusión

La siguiente fase de los agentes de código no solo consiste en solucionar issues individuales más rápidamente, sino en comprender documentación, planificar arquitecturas, organizar módulos, implementar interfaces y finalmente generar un repositorio de software completo y funcional.

DeNovoSWE sistematizó este objetivo para construir un conjunto de datos entrenable, verificable y escalable. Responde a una pregunta clave: ¿qué tipo de datos realmente puede entrenar a un agente con capacidades de ingeniería de software a largo plazo?

La respuesta no es más código fragmentado ni preguntas más sencillas, sino tareas de generación de repositorios completos de alta calidad, estructuradas, alineadas con evaluación y anti-fuga.

Comenzar desde un documento y reconstruir todo el repositorio. Este es el umbral que los agentes de código a largo plazo deben superar.

Referencias: https://arxiv.org/pdf/2606.10728

Este artículo proviene del canal de WeChat "Neozhiyuan", editado por: LRST