দীর্ঘ-সময়কালের কোড জেনারেশনের জন্য DeNovoSWE ডেটাসেট প্রকাশিত

LLM কোড এজেন্টের ক্ষমতা বৃদ্ধির সাথে সাথে, আরও বেশি গবেষক বুঝতে শুরু করেছেন যে এখন বাস্তব পরিস্থিতির প্রয়োজনীয়তার দিকে এগিয়ে যাওয়ার সময় এসেছে। ফলস্বরূপ, NL2RepoBench এবং BeyondSWE এর মতো দীর্ঘ-পরিসরের কাজের জন্য বেঞ্চমার্কগুলি উঠে এসেছে। কোড এজেন্টের প্রতি আশা ধীরে ধীরে রিপোজিটরি রক্ষণাবেক্ষণকারীর ভূমিকা থেকে পরিকল্পনা করে সম্পূর্ণ রিপোজিটরির কোডের দীর্ঘ-পরিসরের কাজগুলি সম্পন্ন করতে পারে এমন আর্কিটেক্টের ভূমিকায় পরিণত হচ্ছে।

সাম্প্রতিক সময়ে, চীনা জাতীয় মানবিক বিশ্ববিদ্যালয়ের গাওলিং কৃত্রিম বুদ্ধিমত্তা কলেজ সংশ্লিষ্ট গবেষণা সম্পন্ন করে ডি নোভোএসডব্লিউ ডেটাসেট প্রকাশ করেছে, যা দীর্ঘ-পরিসরের সফটওয়্যার ইঞ্জিনিয়ারিং কাজ, বিশেষ করে রিপোজিটরি-স্তরের কোড শূন্য থেকে তৈরির কাজের উপর ফোকাস করে।

পেপারের লিঙ্ক: https://arxiv.org/pdf/2606.10728

রিপোজিটরি লিঙ্ক: https://github.com/AweAI-Team/DeNovoSWE

ডেটা লিঙ্ক: https://huggingface.co/collections/AweAI-Team/denovoswe

Divide & Conquer এবং Critic & Repair মেকানিজম ব্যবহার করে উচ্চ মানের ডেটাসেট তৈরি করা হয়েছে এবং দীর্ঘ পরিসরের SWE টাস্কের স্কেলিং সফলভাবে অর্জন করা হয়েছে—এই অর্জনটি 4,818টি বাস্তব ডেটা সহ একটি ওপেন-সোর্স, উচ্চ-মানের, দীর্ঘ-পরিসরের SWE টাস্ক ডেটাসেট গঠন করেছে, যা Code Agent-এর দীর্ঘ-পরিসরের ক্ষমতা প্রশিক্ষণের জন্য বৃহৎ ডেটা প্রদান করেছে এবং Code Agent-এর দীর্ঘ-পরিসরের টাস্ক ক্ষমতা উল্লেখযোগ্যভাবে বৃদ্ধি করেছে।

পেপারটিতে প্রশ্নের কঠিনতা অনুযায়ী স্কোরিং এবং ফিল্টারিংয়ের মাধ্যমে কঠিন প্রশ্নের অনুপাত এবং ট্রেজেক্টরি কোয়ালিটির মধ্যে ট্রেড-অফ সমস্যা প্রভাবশালীভাবে হ্রাস করা হয়েছে।

পরীক্ষাগুলি দেখিয়েছে যে DeNovoSWE-এ প্রশিক্ষিত Qwen3-30B-A3B-Instruct বিল্ডসও-ডক২রিপোতে 5.8% থেকে 47.2% এবং NL2RepoBench-এ 4.3% থেকে 23.0% পর্যন্ত উন্নতি দেখিয়েছে, যা দীর্ঘ-পরিসরের ডেটা দ্বারা রিপোজিটরি-স্তরের কোড জেনারেশন ক্ষমতার উল্লেখযোগ্য উন্নতি প্রদর্শন করে।

একটি ডকুমেন্ট থেকে সম্পূর্ণ রিপোজিটরি পুনর্গঠন করুন

গত বছর, Scale-SWE এর মতো বড় স্কেলের SWE ডেটা বৃদ্ধির সাথে সাথে কোড এজেন্টগুলি SWE-bench এর মতো বাস্তব সফটওয়্যার ইঞ্জিনিয়ারিং কাজে দ্রুত উন্নতি লাভ করেছে। কিন্তু মডেলগুলি যখন «একটি issue ঠিক করা» এবং «কয়েকটি bug পরিবর্তন করা»-এ দক্ষ হয়ে উঠল, তখন একটি আরও গুরুত্বপূর্ণ প্রশ্ন উঠে এল: এজেন্টগুলি কি প্রকৃতপক্ষে দীর্ঘমেয়াদী সফটওয়্যার ইঞ্জিনিয়ারিং দক্ষতা অর্জন করেছে? BeyondSWE-Doc2Repo এবং NL2RepoBench-এর প্রান্তিক মডেলগুলির ফলাফলের ভিত্তিতে, ফলাফলগুলি খুবই অপ্রতুল।

বাস্তব জগতের সফটওয়্যার ডেভেলপমেন্ট প্রায়শই শুধু একটি ফাংশন পরিবর্তন বা একটি শর্ত যোগ করা নয়, বরং প্রয়োজনীয়তা বুঝতে, আর্কিটেকচার পরিকল্পনা করতে, ফাইল তৈরি করতে, API ডিজাইন করতে, নির্ভরশীলতা পরিচালনা করতে, মডিউলগুলি সংযুক্ত করতে এবং শেষ পর্যন্ত সম্পূর্ণ রিপোজিটরি টেস্টের মধ্যে চালানো।

অন্যভাবে বললে, কঠিন হলো লং-হরাইজন রিপোজিটরি-লেভেল জেনারেশন: একটি টাস্ক ডকুমেন্ট থেকে একটি সম্পূর্ণ, কার্যকরী এবং যাচাইযোগ্য সফটওয়্যার রিপোজিটরি তৈরি করা। এটিই DeNovoSWE-এর সমাধানের লক্ষ্য।

উচ্চ মানের «শূন্য থেকে রিপোজিটরি জেনারেট» টাস্ক ডকুমেন্ট

ডকুমেন্ট-টু-রিপোজিটরি জেনারেশনে, ডকুমেন্ট শুধুমাত্র README বা সাধারণ API লিস্ট নয়। এটি মূলত স্মার্ট এজেন্টের জন্য পুরো রিপোজিটরি পুনর্গঠনের একমাত্র প্রবেশদ্বার।

একটি উচ্চ মানের কাজ ডকুমেন্টের জন্য কমপক্ষে দুটি মূল মানদণ্ড পূরণ করা প্রয়োজন।

প্রথমত, এটি ভালভাবে সংগঠিত হতে হবে।

রিপোজিটরি স্তরের কাজ স্বাভাবিকভাবেই জটিল, যাতে অনেকগুলি মডিউল, ইন্টারফেস, কনফিগারেশন, ডেটা স্ট্রাকচার এবং ইন্টারঅ্যাকশন প্রক্রিয়া অন্তর্ভুক্ত থাকে। যদি ডকুমেন্টেশন শুধুমাত্র ফাংশনের বর্ণনা একসাথে জমা করে, তাহলে স্মার্ট এজেন্টগুলি বিচ্ছিন্ন তথ্যের মধ্যে হারিয়ে যাবে। তাই, ডকুমেন্টেশনটি প্রথমে একটি স্পষ্ট রিপোজিটরি ওভারভিউ দিতে হবে, তারপর ক্ষমতা বা ওয়ার্কফ্লো অনুযায়ী অধ্যায়গুলির বিভাজন করতে হবে, যাতে প্রতিটি অংশই স্পষ্টভাবে সংজ্ঞায়িত ফাংশনাল বোর্ডারের সাথে মিলে যায়।

দ্বিতীয়ত, এটি একটি বিশ্বস্ত মূল্যায়নের দৃষ্টিকোণ থেকে আসা উচিত।

ডকুমেন্ট খুব কম হলে কাজটি অপরিষ্কার সমস্যা হয়ে যায়, যা মডেলকে অনুমানের উপর নির্ভর করে মূল্যায়ন পার করতে বাধ্য করতে পারে; আবার খুব বেশি হলে বাস্তবায়নের বিস্তারিত প্রকাশ পেয়ে যায়, যার ফলে কাজটির চ্যালেঞ্জ হারিয়ে যায়।

উচ্চমানের ডকুমেন্টেশনটি মূল্যায়নের জন্য প্রয়োজনীয় প্রধান আচরণগুলি বর্ণনা করবে: ইমপোর্ট পাথ, পাবলিক API, ইনপুট-আউটপুট, ডিফল্ট প্যারামিটার, ব্যতিক্রমী আচরণ, কনফিগারেশন আইটেম, মোড স্ট্রিং, রিটার্ন ফিল্ড ইত্যাদি। এছাড়াও, এটি প্রায়শই সম্পন্ন করা প্রয়োজনীয় কাজগুলিরও বর্ণনা দেবে। অর্থাৎ, ডকুমেন্টেশনটি এমনভাবে হতে হবে যাতে একটি স্মার্ট এজেন্ট পরীক্ষা-যোগ্য আচরণকে পুনরায় তৈরি করতে পারে, কিন্তু এটি কোডের প্রতিলিপি হয়ে উঠবে না।

ডিনোভোএসডব্লিউ-এর মূল ধারণা হলো: ডকুমেন্টকে পড়ার যোগ্য, বাস্তবায়নযোগ্য এবং যাচাইযোগ্য করে তোলা।

DeNovoSWE পদ্ধতি

DeNovoSWE একটি বড় স্কেলের, যাচাইযোগ্য দীর্ঘ-পরিসরের সফটওয়্যার ইঞ্জিনিয়ারিং টাস্ক হিসেবে "ডকুমেন্ট থেকে পূর্ণাঙ্গ রিপোজিটরি তৈরি" করেছে। এটি ম্যানুয়ালি লেখা ডকুমেন্ট নয়, বরং একটি sandboxed multi-agent workflow এর মাধ্যমে স্বয়ংক্রিয়ভাবে উচ্চ মানের উদাহরণ তৈরি করে। পুরো পদ্ধতিটি দুটি ধাপে সারাংশ করা যায়: Divide এবং Conquer।

ডিভাইড পর্যায়ে, সিস্টেম লক্ষ্য রিপোজিটরি বিশ্লেষণ করে এটিকে বিভিন্ন রিপোজিটরি ক্ষমতায় বিভক্ত করে।

প্রতিটি ক্ষমতা রিপোজিটরিতে একটি কেন্দ্রীয় ক্ষমতা বা প্রক্রিয়াকে নির্দেশ করে, যেমন প্রমাণীকরণ এবং সংযোগ, ডেটা পড়া ও লেখা, ব্যাচ প্রক্রিয়াকরণ, রপ্তানি প্রক্রিয়া ইত্যাদি। এভাবে, আগের বিশাল রিপোজিটরি জেনারেশন সমস্যাটিকে কয়েকটি সুসংগঠিত দলিলের অধ্যায়ে বিভক্ত করা হয়েছে।

একইসাথে, DeNovoSWE মূল ইউনিট টেস্ট চালায় এবং এক্সিকিউশন ট্রেস সংগ্রহ করে, যে ফাংশন, ক্লাস এবং ইন্টারফেসগুলি বাস্তবে মূল্যায়নকে প্রভাবিত করে তা চিহ্নিত করে, এবং সরাসরি উপাদান, মূল পরোক্ষ উপাদান এবং অ-মূল পরোক্ষ উপাদানগুলিকে আলাদা করে: পরীক্ষার দ্বারা সরাসরি কল করা ইন্টারফেসগুলির বিস্তারিত ডকুমেন্টেশন প্রয়োজন; পর্যবেক্ষণযোগ্য আচরণকে প্রভাবিত করে এমন মূল পরোক্ষ উপাদানগুলিও কভার করা প্রয়োজন; এবং অ-মূল অভ্যন্তরীণ বাস্তবায়নগুলি বুদ্ধিমত্তা-ভিত্তিকভাবে ছেড়ে দেওয়া যেতে পারে।

কনকোর পর্যায়ে, ডিনোভোএসডব্লিউ প্রতিটি ক্ষমতার জন্য ড্রাফ্ট-ক্রিটিক-রিপেয়ার প্রক্রিয়া ব্যবহার করে ডকুমেন্টেশন তৈরি করে। ড্রাফ্ট এজেন্ট প্রথমে একটি প্রাথমিক খসড়া লেখে; ক্রিটিক এজেন্ট দেখে যে কীভাবে মূল এপিআই, আচরণ চুক্তি বা স্ট্রাকচারাল তথ্যগুলি অনুপস্থিত আছে; এবং রিপেয়ার এজেন্ট ফিডব্যাকের ভিত্তিতে ডকুমেন্টেশনটি সংশোধন করে। এই চক্রটি পুনরাবৃত্তি হয়, যতক্ষণ না প্রতিটি ক্ষমতার অধ্যায়টি পর্যাপ্তভাবে স্পষ্ট, সম্পূর্ণ এবং মূল্যায়নের সাথে সঙ্গতিপূর্ণ হয়।

শেষ পর্যন্ত, বিভিন্ন ক্ষমতা দলিলগুলি একটি সম্পূর্ণ কাজ দলিলে একীভূত হবে, যা এজেন্টকে শূন্য থেকে রিপোজিটরি তৈরি করার একমাত্র ভিত্তি হবে।

কঠিনতা: এটি কেন দীর্ঘ সময়ের কাজ?

DeNovoSWE-এর কাজের কঠিনতা একটি মৌলিক পরিবর্তন থেকে আসে: এটি এখন issue-স্তরের সমাধান নয়, বরং পুরো রিপোজিটরি জেনারেশন।

প্রাচীন SWE টাস্কগুলিতে, এজেন্টগুলি সাধারণত একটি ইতিমধ্যে বিদ্যমান রিপোজিটরির সামনে দাঁড়ায়, যেখানে শুধুমাত্র বাগটি খুঁজে বার করা, স্থানীয় কোড পরিবর্তন করা এবং টেস্ট পাস করা প্রয়োজন।

DeNovoSWE-এ, এজেন্ট একটি পরিষ্কার পরিবেশের সামনে দাঁড়ায়: মূল সোর্স কোড এবং টেস্ট সরিয়ে ফেলা হয়েছে, git ইতিহাস রিসেট করা হয়েছে, এবং ক্যাশ, site-packages লিফেজ, pip wheel, অস্থায়ী কম্পাইলড আউটপুটসহ সম্ভাব্য লিফেজ চ্যানেলগুলি পরিষ্কার করা হয়েছে। এর অর্থ হল এজেন্টকে সম্পূর্ণ রিপোজিটরি পুনর্গঠনের জন্য ডকুমেন্টেশনের উপর পুরোপুরি নির্ভর করতে হবে। এটিকে প্রকল্পের স্ট্রাকচার প্ল্যান করতে, মডিউল ফাইলগুলি তৈরি করতে, পাবলিক ইন্টারফেসগুলি সংজ্ঞায়িত করতে, ফাইলগুলির মধ্যে ইন্টারঅ্যাকশনগুলি বাস্তবায়িত করতে, ডিপেনডেনসি এবং কনফিগারেশনগুলি পরিচালনা করতে, এবং মাল্টি-রাউন্ড এডিটিং এবং টেস্টিং ফিডব্যাকের মধ্যে ভুলগুলি ধারাবাহিকভাবে ঠিক করতে হবে।

কোনও API সিগনেচার, রিটার্ন ফিল্ড, এক্সেপশন টাইপ বা ডিফল্ট আচরণের বিচ্যুতি পরীক্ষা ব্যর্থ হওয়ার কারণ হতে পারে। ভুলগুলি দীর্ঘমেয়াদী প্রক্রিয়ায় জমা হয়: একটি প্রাথমিকভাবে অপর্যাপ্তভাবে ডিজাইন করা মডিউল পরবর্তী অনেকগুলি ফাইল এবং কল চেইনকে প্রভাবিত করতে পারে।

বিভিন্ন রিপোজিটরির কঠিনতার পার্থক্য প্রক্রিয়াকরণের জন্য, DeNovoSWE একটি কঠিনতা-সচেতন ট্রাজেক্টরি ফিল্টারিং প্রস্তাব করেছে। সহজভাবে বলা যায়, সহজ টাস্কগুলির জন্য উচ্চতর পাস হার প্রয়োজন, যখন কঠিন টাস্কগুলির ক্ষেত্রে পারফেক্ট স্কোর অর্জন না করার কারণে সম্পূর্ণভাবে বাদ দেওয়া উচিত নয়। DeNovoSWE কাঠামোগত জটিলতা এবং LLM-এর কঠিনতা বিশ্লেষণের ভিত্তিতে বিভিন্ন কঠিনতা ব্যবধানের জন্য ভিন্ন ফিল্টারিং থ্রেশহোল্ড সেট করে, যা গুণমান এবং বৈচিত্র্যের মধ্যে ভারসাম্য বজায় রাখে।

এটি দীর্ঘ পরিসরের কাজগুলির জন্য বিশেষভাবে গুরুত্বপূর্ণ: যত জটিল রিপোজিটরি, তত কঠিন একবারে সমস্ত টেস্ট পাস করা, কিন্তু এই কঠিন রিপোজিটরি, কম স্কোর, আংশিকভাবে সফল ট্রাজেক্টরি এখনও মূল্যবান দীর্ঘ পরিসরের পরিকল্পনা এবং বাস্তবায়ন দক্ষতা ধারণ করে।

পরীক্ষার ফলাফল

DeNovoSWE শেষ পর্যন্ত 4818টি উচ্চ মানের document-to-repository টাস্ক ইনস্ট্যান্স তৈরি করেছে। এটি একটি কার্যকর, মূল্যায়নযোগ্য এবং প্রশিক্ষণযোগ্য দীর্ঘ-পরিসরের সফটওয়্যার ইঞ্জিনিয়ারিং পরিবেশ।

পরীক্ষার ফলাফল দেখায় যে, DeNovoSWE মডেলের দীর্ঘ-পরিসরের রিপোজিটরি জেনারেশন ক্ষমতাকে উল্লেখযোগ্যভাবে উন্নত করেছে। Qwen3-30B-A3B-Instruct-এ, মূল মডেলটি BeyondSWE-Doc2Repo-এ মাত্র 5.8% এবং NL2RepoBench-এ মাত্র 4.3%। সাধারণ issue-স্তরের SWE ডেটা ব্যবহার করে প্রশিক্ষিত Scale-SWE-Agent এটিকে 29.2% এবং 18.3% পর্যন্ত উন্নত করতে পারে, যা নির্দেশ করে যে সাধারণ SWE ডেটার প্রকৃতই স্থানান্তরযোগ্যতা রয়েছে। তবে, মডেলটি DeNovoSWE দিয়ে প্রশিক্ষিত হলে, পারফরম্যান্স 47.2% এবং 23.0% পর্যন্ত আরও উন্নত হয়।

এটি বোঝায় যে, «বাগ ঠিক করা»-এর জন্য ডেটা পুরোপুরি «পুরো রিপোজিটরি তৈরি করা»-এর দীর্ঘ-পরিসরের ডেটাকে প্রতিস্থাপন করতে পারে না। এজেন্টকে প্রকৃতপক্ষে রিপোজিটরি-লেভেল ইঞ্জিনিয়ারিং শেখাতে, দীর্ঘ-পরিসরের কাজের জন্য বিশেষভাবে প্রশিক্ষণ পরিবেশ তৈরি করা প্রয়োজন।

শক্তিশালী Qwen3.5-35B-A3B ব্যাকবোনের উপর DeNovoSWE একইভাবে স্থিতিশীল আয় আনে: BeyondSWE-Doc2Repo 43.8% থেকে 50.0% এ বৃদ্ধি পায়, NL2RepoBench 23.5% থেকে 27.1% এ বৃদ্ধি পায়। এটি আরও প্রমাণ করে যে DeNovoSWE-এর আয় কোনো একটি মডেলের সাথে দুর্ঘটনাজনিতভাবে সামঞ্জস্যপূর্ণ হওয়ার ফলাফল নয়, বরং উচ্চমানের দীর্ঘ-পরিসরের ডেটা থেকে আসে।

শেষ কথা

পরবর্তী পর্যায়ে, কোড এজেন্টগুলি শুধুমাত্র একটি একক ইস্যুকে দ্রুত ঠিক করার পরিবর্তে ডকুমেন্টেশন বুঝতে, আর্কিটেকচার পরিকল্পনা করতে, মডিউলগুলি সংগঠিত করতে, ইন্টারফেসগুলি বাস্তবায়ন করতে এবং অবশেষে একটি সম্পূর্ণ চলমান সফটওয়্যার রিপোজিটরি তৈরি করতে সক্ষম হবে।

DeNovoSWE এই লক্ষ্যটিকে একটি ট্রেনিংযোগ্য, যাচাইযোগ্য এবং স্কেলযোগ্য ডেটাসেট হিসেবে ব্যবস্থাগতভাবে গঠন করেছে। এটি একটি মৌলিক প্রশ্নের উত্তর দেয়: দীর্ঘমেয়াদী সফটওয়্যার ইঞ্জিনিয়ারিং দক্ষতা সম্পন্ন এজেন্টকে প্রশিক্ষিত করতে কী ধরনের ডেটা প্রয়োজন?

উত্তরটি আরও বেশি বিচ্ছিন্ন কোড বা সহজ প্রশ্ন নয়, বরং উচ্চ মানের, সংগঠিত, মূল্যায়ন-সমন্বিত এবং প্রবাহ রোধকারী পুরো রিপোজিটরি জেনারেশন টাস্ক।

একটি ডকুমেন্ট থেকে সম্পূর্ণ রিপোজিটরি পুনর্গঠন করুন। এটিই দীর্ঘস্থায়ী কোড এজেন্টের জন্য অতিক্রম করার প্রয়োজনীয় বাধা।

প্রসঙ্গ: https://arxiv.org/pdf/2606.10728

এই লেখাটি ওয়েইচ্যাট গ্রুপ "নিউজিয়ুয়ান" থেকে এসেছে, সম্পাদনা: LRST