LLM Code Agent की क्षमताओं में लगातार वृद्धि के साथ, अधिक शोधकर्ता इस बात को महसूस कर रहे हैं कि अब वास्तविक परिदृश्य की आवश्यकताओं के अनुरूप दीर्घकालिक कार्यों की ओर बढ़ने का समय आ गया है। इसके परिणामस्वरूप, NL2RepoBench और BeyondSWE जैसे कुछ दीर्घकालिक कार्य मूल्यांकन बेंचमार्क उभरे हैं। Code Agent के लिए लोगों की अपेक्षाएँ धीरे-धीरे रिपॉजिटरी संरक्षक से बदलकर आर्किटेक्ट बन गई हैं, जो पूरे रिपॉजिटरी के कोड के लिए दीर्घकालिक कार्यों की योजना बना सकते हैं।
हाल ही में, रेनमिन यूनिवर्सिटी ऑफ चाइना के गाओलिंग आर्टिफिशियल इंटेलिजेंस स्कूल ने संबंधित शोध पूरा किया और लंबी दूरी के सॉफ्टवेयर इंजीनियरिंग कार्यों, विशेष रूप से रिपॉजिटरी स्तरीय कोड के शून्य से उत्पादन कार्य पर केंद्रित DeNovoSWE डेटासेट का विशाल अपडेट जारी किया।

पेपर का लिंक: https://arxiv.org/pdf/2606.10728
रिपोजिटरी लिंक: https://github.com/AweAI-Team/DeNovoSWE
डेटा लिंक: https://huggingface.co/collections/AweAI-Team/denovoswe
Divide & Conquer और Critic & Repair तंत्र का उपयोग करके उच्च गुणवत्ता वाला डेटासेट बनाया गया और लंबी दूरी के SWE कार्यों के लिए स्केलिंग सफलतापूर्वक प्राप्त की गई, जिससे 4,818 वास्तविक डेटा के साथ एक ओपन-सोर्स उच्च गुणवत्ता वाला लंबी दूरी का SWE कार्य डेटासेट बनाया गया—यह उपलब्धि Code Agent की लंबी दूरी क्षमता प्रशिक्षण के लिए विशाल डेटा प्रदान करती है और Code Agent की लंबी दूरी के कार्यों की क्षमता में महत्वपूर्ण वृद्धि करती है।

पेपर में शीर्षक कठिनाई के आधार पर स्कोरिंग और फिल्टरिंग का भी उपाय प्रदान किया गया है, जिससे कठिन प्रश्नों के अनुपात और ट्रैक्टोर की गुणवत्ता के बीच के समझौते को प्रभावी ढंग से कम किया गया है।

प्रयोगों ने दर्शाया कि DeNovoSWE पर प्रशिक्षित Qwen3-30B-A3B-Instruct, BeyondSWE-Doc2Repo पर 5.8% से बढ़कर 47.2% हो गया और NL2RepoBench पर 4.3% से बढ़कर 23.0% हो गया, जो लंबी दूरी के डेटा के साथ रिपॉजिटरी-स्तरीय कोड जनरेशन क्षमता में महत्वपूर्ण सुधार को दर्शाता है।
एक दस्तावेज़ से पूरे रिपॉजिटरी को पुनः बनाएं
पिछले वर्ष, Scale-SWE जैसे बड़े स्केल SWE डेटा के स्केलिंग के साथ, कोड एजेंट ने SWE-bench जैसे वास्तविक सॉफ्टवेयर इंजीनियरिंग कार्यों पर तेजी से प्रगति की। लेकिन जब मॉडल "एक issue को ठीक करना" और "कुछ पंक्तियों के bug को बदलना" में अधिक कुशल होते गए, तो एक अधिक महत्वपूर्ण प्रश्न सामने आया: क्या एजेंट वास्तव में दीर्घकालीन सॉफ्टवेयर इंजीनियरिंग क्षमता रखते हैं? BeyondSWE-Doc2Repo और NL2RepoBench के अग्रणी मॉडल के परिणामों से पता चलता है कि प्रभाव अच्छा नहीं है।
वास्तविक दुनिया का सॉफ्टवेयर विकास अक्सर केवल एक फ़ंक्शन बदलना या एक शर्त जोड़ना नहीं होता, बल्कि आवश्यकताओं को समझना, आर्किटेक्चर की योजना बनाना, फ़ाइलें बनाना, API डिज़ाइन करना, निर्भरताओं को संभालना, मॉड्यूल्स को जोड़ना, और अंततः पूरे रिपॉजिटरी को परीक्षण में चलाना होता है।
दूसरे शब्दों में, कठिनाई long-horizon repository-level generation है: एक कार्य दस्तावेज़ से एक पूर्ण, कार्यात्मक और सत्यापित करने योग्य सॉफ्टवेयर रिपॉजिटरी बनाना। यही DeNovoSWE हल करना चाहता है।
उच्च गुणवत्ता वाला 「शून्य से रिपॉजिटरी जनरेट」 कार्य दस्तावेज
डॉक्यूमेंट-टू-रिपॉजिटरी जनरेशन में, डॉक्यूमेंट केवल README नहीं होता है, न ही यह एक साधारण API सूची होती है। यह मूल रूप से स्मार्ट एजेंट के लिए पूरे रिपॉजिटरी को पुनः बनाने का एकमात्र प्रवेश बिंदु होता है।
एक उच्च गुणवत्ता वाली कार्य दस्तावेज़ के लिए कम से कम दो मुख्य मानदंडों को पूरा करना आवश्यक है।
पहली बात, इसे अच्छी तरह से संगठित होना चाहिए।
वेयरहाउस स्तर के कार्य स्वाभाविक रूप से जटिल होते हैं, जिनमें कई मॉड्यूल, इंटरफेस, कॉन्फ़िगरेशन, डेटा संरचनाएँ और इंटरैक्शन प्रक्रियाएँ शामिल होती हैं। यदि दस्तावेज़ केवल फ़ंक्शन के विवरण को एक साथ जमा करता है, तो बुद्धिमान एजेंट टुकड़ों की जानकारी में खो सकता है। इसलिए, दस्तावेज़ को पहले स्पष्ट वेयरहाउस ओवरव्यू प्रदान करना चाहिए, फिर क्षमता या कार्यप्रवाह के अनुसार अनुभागों में विभाजित करना चाहिए, ताकि प्रत्येक हिस्सा स्पष्ट कार्य सीमा से मेल खाए।
दूसरा, इसे विश्वसनीय मूल्यांकन के दृष्टिकोण से होना चाहिए।
दस्तावेज़ बहुत कम नहीं होना चाहिए, अन्यथा कार्य अपर्याप्त परिभाषित समस्या बन जाता है, जिससे मॉडल को मूल्यांकन पास करने के लिए अनियंत्रित अनुमान लगाने की आवश्यकता पड़ सकती है; और न ही बहुत अधिक होना चाहिए, अन्यथा कार्य के वास्तविक विवरण सीधे प्रकट हो जाते हैं, जिससे कार्य की चुनौती समाप्त हो जाती है।
उच्च गुणवत्ता वाले दस्तावेज़ को आकलन के लिए आवश्यक मुख्य व्यवहारों का वर्णन करना चाहिए: इंपोर्ट पथ, पब्लिक API, इनपुट/आउटपुट, डिफ़ॉल्ट पैरामीटर, अपवाद व्यवहार, कॉन्फ़िगरेशन विकल्प, पैटर्न स्ट्रिंग्स, रिटर्न फील्ड्स आदि, साथ ही लगभग किन कार्यों को पूरा करने की आवश्यकता है, इसका भी वर्णन करना चाहिए। अर्थात्, दस्तावेज़ इतना पर्याप्त होना चाहिए कि एजेंट टेस्टेबल व्यवहार को पुनः उत्पन्न कर सके, लेकिन इसे कोड का प्रतिलिपि नहीं बनना चाहिए।
यही DeNovoSWE का केंद्रीय विचार है: दस्तावेज़ को पढ़ने योग्य, कार्यान्वयन योग्य और सत्यापित करने योग्य बनाना।
DeNovoSWE विधि
DeNovoSWE ने "डॉक्यूमेंट से पूर्ण रिपॉजिटरी जनरेट करना" को एक बड़े पैमाने और सत्यापित लंबी दूरी के सॉफ्टवेयर इंजीनियरिंग कार्य के रूप में डिज़ाइन किया है। इसमें मानव द्वारा लिखे गए डॉक्यूमेंट का उपयोग नहीं किया जाता, बल्कि एक sandboxed multi-agent workflow के माध्यम से उच्च गुणवत्ता वाले उदाहरण स्वचालित रूप से बनाए जाते हैं। पूरी पद्धति को दो चरणों में सारांशित किया जा सकता है: Divide और Conquer।
Divide चरण में, सिस्टम पहले लक्ष्य रिपॉजिटरी का विश्लेषण करता है और इसे कई repository capabilities में विभाजित करता है।
प्रत्येक क्षमता रिपॉजिटरी में एक केंद्रीय क्षमता या प्रवाह के लिए होती है, जैसे प्रमाणीकरण और कनेक्शन, डेटा पढ़ना और लिखना, बैच प्रोसेसिंग, निर्यात प्रक्रियाएँ आदि। इस तरह, मूल रूप से विशाल रिपॉजिटरी जनरेशन समस्या को कई स्पष्ट संरचित दस्तावेज़ अनुभागों में विभाजित कर दिया जाता है।
इसी समय, DeNovoSWE मूल इकाई परीक्षण चलाता है और निष्पादन ट्रेस एकत्र करता है, जिससे यह पहचान सकता है कि कौन से फ़ंक्शन, क्लास और इंटरफ़ेस वास्तव में मूल्यांकन को प्रभावित करते हैं, और इन्हें सीधे घटकों, मुख्य अप्रत्यक्ष घटकों और गैर-मुख्य अप्रत्यक्ष घटकों में विभाजित करता है: सीधे परीक्षण द्वारा कॉल किए जाने वाले इंटरफ़ेस को विस्तार से दस्तावेज़ीकृत किया जाना चाहिए; जो मुख्य अप्रत्यक्ष घटक दृश्यमान व्यवहार को प्रभावित करते हैं, उन्हें भी कवर किया जाना चाहिए; और गैर-मुख्य आंतरिक कार्यान्वयन को स्मार्ट एजेंट पर छोड़ दिया जा सकता है।
कॉन्कर चरण में, DeNovoSWE एक-एक क्षमता के लिए Draft-Critic-Repair तंत्र का उपयोग करके दस्तावेज़ बनाता है। Draft एजेंट पहले एक प्रारंभिक रूप लिखता है; Critic एजेंट यह जांचता है कि क्या कोई महत्वपूर्ण API, व्यवहार अनुबंध या संरचनात्मक जानकारी लुप्त है; Repair एजेंट फिर प्रतिक्रिया के आधार पर दस्तावेज़ को सुधारता है। यह चक्र तब तक दोहराया जाता है जब तक कि प्रत्येक क्षमता अनुभाग पर्याप्त रूप से स्पष्ट, पूर्ण और मूल्यांकन के साथ समन्वयित न हो जाए।
अंततः, विभिन्न क्षमता दस्तावेजों को एक सम्पूर्ण कार्य दस्तावेज में मिला दिया जाएगा, जो एजेंट को शून्य से रिपॉजिटरी जनरेट करने के लिए एकमात्र आधार बनेगा।
कठिनाई: क्यों यह एक लंबी अवधि का कार्य है?
DeNovoSWE का कार्य एक मौलिक परिवर्तन से जुड़ा है: यह अब issue-स्तरीय ठीक करना नहीं है, बल्कि पूरे रिपॉजिटरी का उत्पादन है।
पारंपरिक SWE कार्य में, एजेंट आमतौर पर एक पहले से मौजूद रिपॉजिटरी का सामना करता है, जिसमें केवल बग की स्थिति निर्धारित करनी, स्थानीय कोड में संशोधन करना और परीक्षण पास करना होता है।
DeNovoSWE में, एजेंट एक साफ़ वातावरण का सामना करता है: मूल स्रोत कोड और परीक्षण हटा दिए गए हैं, git इतिहास रीसेट कर दिया गया है, और कैश, site-packages अवशेष, pip wheel, अस्थायी कंपाइल्ड उत्पाद जैसे संभावित रिसाव मार्गों को भी साफ़ कर दिया गया है। इसका अर्थ है कि एजेंट को पूरे रिपॉजिटरी को पुनर्निर्मित करने के लिए वास्तव में दस्तावेज़ों पर निर्भर करना होगा। इसे प्रोजेक्ट संरचना की योजना बनानी होगी, मॉड्यूल फ़ाइलें बनानी होंगी, पब्लिक इंटरफ़ेस परिभाषित करने होंगे, फ़ाइलों के बीच इंटरैक्शन को लागू करना होगा, निर्भरताओं और कॉन्फ़िगरेशन को संभालना होगा, और बहु-चरण संपादन और परीक्षण प्रतिक्रिया में त्रुटियों को लगातार ठीक करना होगा।
किसी भी API हस्ताक्षर, रिटर्न फील्ड, एक्सेप्शन टाइप या डिफ़ॉल्ट व्यवहार में विचलन के कारण परीक्षण असफल हो सकता है। त्रुटियाँ लंबे समय तक जमा हो सकती हैं: एक प्रारंभिक डिज़ाइन में खराबी वाला मॉड्यूल बाद के कई फ़ाइलों और कॉल चेन को प्रभावित कर सकता है।
विभिन्न रिपॉजिटरी की कठिनाई में अंतर को और अधिक संभालने के लिए, DeNovoSWE ने difficulty-aware trajectory filtering का प्रस्ताव रखा है। सरल शब्दों में, आसान कार्यों के लिए उच्चतर पास दर की आवश्यकता होती है, जबकि कठिन कार्यों को पूर्ण स्कोर न मिलने पर पूरी तरह से फ़िल्टर नहीं किया जाना चाहिए। DeNovoSWE, संरचनात्मक जटिलता और LLM कठिनाई के आधार पर, विभिन्न कठिनाई स्तरों के लिए अलग-अलग फ़िल्टरिंग सीमाएँ निर्धारित करता है, जिससे गुणवत्ता और विविधता के बीच संतुलन बनाया जा सके।
यह लंबी दूरी के कार्यों के लिए विशेष रूप से महत्वपूर्ण है: जितना अधिक जटिल रिपॉजिटरी, उतना ही कठिन होता है कि उसे एक बार में सभी परीक्षणों से गुजारा जा सके, लेकिन इनमें से कठिन रिपॉजिटरी, कम स्कोर और आंशिक सफलता वाली ट्रैजेक्टरी में अभी भी मूल्यवान लंबी दूरी की योजना बनाने और कार्यान्वित करने की क्षमता शामिल है।

परीक्षण परिणाम
DeNovoSWE ने 4818 उच्च गुणवत्ता वाले document-to-repository कार्य उदाहरण बनाए। यह एक कार्यात्मक, मूल्यांकनयोग्य और प्रशिक्षणयोग्य दीर्घ अवधि सॉफ्टवेयर इंजीनियरिंग वातावरण है।


परीक्षण परिणाम दर्शाते हैं कि DeNovoSWE ने मॉडल की दीर्घ अवधि के रिपोजिटरी उत्पादन क्षमता में महत्वपूर्ण सुधार किया है। Qwen3-30B-A3B-Instruct पर, मूल मॉडल ने BeyondSWE-Doc2Repo पर केवल 5.8% और NL2RepoBench पर केवल 4.3% प्रदर्शन किया। सामान्य issue-स्तरीय SWE डेटा का उपयोग करके प्रशिक्षित Scale-SWE-Agent ने इसे 29.2% और 18.3% तक बढ़ाया, जो दर्शाता है कि सामान्य SWE डेटा में वास्तव में स्थानांतरण प्रभाव है। हालाँकि, जब मॉडल को DeNovoSWE के साथ प्रशिक्षित किया गया, तो प्रदर्शन आगे बढ़कर 47.2% और 23.0% हो गया।
यह बताता है कि "बग ठीक करने" के लिए डेटा पूर्ण रिपॉजिटरी बनाने के लिए लंबी दूरी के डेटा का पूर्णतः विकल्प नहीं हो सकता। एजेंट को रिपॉजिटरी-स्तरीय इंजीनियरिंग सीखने के लिए, लंबी दूरी के कार्यों के लिए विशेष रूप से ट्रेनिंग वातावरण बनाने की आवश्यकता होती है।
अधिक शक्तिशाली Qwen3.5-35B-A3B बैकबोन पर, DeNovoSWE भी स्थिर लाभ लाता है: BeyondSWE-Doc2Repo 43.8% से बढ़कर 50.0% हो गया, और NL2RepoBench 23.5% से बढ़कर 27.1% हो गया। यह यह भी साबित करता है कि DeNovoSWE का लाभ किसी एक मॉडल के साथ अस्थायी अनुकूलन का परिणाम नहीं है, बल्कि उच्च गुणवत्ता वाले दीर्घ-परिसर डेटा से आता है।
अंतिम शब्द
कोड एजेंट का अगला चरण, केवल एकल समस्या को तेजी से ठीक करने तक सीमित नहीं है, बल्कि दस्तावेज़ समझने, आर्किटेक्चर की योजना बनाने, मॉड्यूल को संगठित करने, इंटरफ़ेस को लागू करने और अंततः एक पूर्ण कार्यात्मक सॉफ़्टवेयर रिपॉजिटरी उत्पन्न करने में सक्षम है।
DeNovoSWE ने इस लक्ष्य को एक ट्रेनेबल, वेरिफायबल और स्केलेबल डेटासेट के रूप में सुव्यवस्थित किया है। यह एक महत्वपूर्ण प्रश्न का उत्तर देता है: लंबी अवधि के सॉफ्टवेयर इंजीनियरिंग क्षमताओं वाले एजेंट को ट्रेन करने के लिए किस प्रकार का डेटा आवश्यक है?
उत्तर अधिक टुकड़ों वाले कोड या सरल प्रश्न नहीं, बल्कि उच्च गुणवत्ता वाला, संरचित, मूल्यांकन-अनुकूलित और रिपॉजिटरी-स्तरीय जनरेशन कार्य है।
एक दस्तावेज़ से शुरू करके पूरे रिपॉजिटरी को पुनर्निर्मित करें। यह लंबी दूरी के कोड एजेंट के लिए पार करने की सीमा है।
संदर्भ: https://arxiv.org/pdf/2606.10728
यह लेख वेचेन ग्रुप "न्यूज़िज़युन" से आया है, संपादक: LRST
