DeNovoSWEデータセットが長期的なコード生成用にリリースされました

LLM Code Agentの能力が継続的に向上するにつれ、ますます多くの研究者が、より現実的なシナリオの要件に近い長期タスクへの次の段階に進む時が来たと認識するようになりました。その結果、NL2RepoBenchやBeyondSWEなどの長期タスク評価ベンチマークが次々と登場しています。Code Agentに期待される役割は、リポジトリの保守者から、リポジトリ全体のコードを計画し実行するアーキテクトへと徐々に変化しています。

近日、中国人民大学高瓴人工知能学院が関連研究を完了し、長距離ソフトウェア工学タスク、特にリポジトリレベルでのコードをゼロから生成するタスクに特化したDeNovoSWEデータセットを発表しました。

論文リンク：https://arxiv.org/pdf/2606.10728

リポジトリリンク：https://github.com/AweAI-Team/DeNovoSWE

データリンク：https://huggingface.co/collections/AweAI-Team/denovoswe

Divide & ConquerおよびCritic & Repairメカニズムを用いて高品質なデータセットを構築し、長距離SWEタスクのスケーリングを成功させ、4,818件の実データを含むオープンソースの高品質長距離SWEタスクデータセットを構築しました。この成果は、Code Agentの長距離能力訓練に大規模なデータを提供し、Code Agentの長距離タスク能力を大幅に向上させました。

論文では、問題の難易度に応じたスコアリングとフィルタリング手法も提供されており、難問の割合とトラジェクトリ品質とのトレードオフを効果的に緩和しています。

実験により、DeNovoSWEでトレーニングされたQwen3-30B-A3B-Instructは、BeyondSWE-Doc2Repoで5.8%から47.2%へ、NL2RepoBenchで4.3%から23.0%へ向上し、長期データがリポジトリレベルのコード生成能力を大幅に向上させることを示しました。

ドキュメントからリポジトリ全体を再構築する

過去1年間、Scale-SWEなどの大規模SWEデータのスケーリングに伴い、コードエージェントはSWE-benchのような実際のソフトウェアエンジニアリングタスクで急速に進歩してきた。しかし、モデルが「1つのイシューを修正する」「数行のバグを直す」ことにますます熟練するにつれ、より重要な問題が浮上してきた：エージェントは本当に長期的なソフトウェアエンジニアリング能力を備えているのか？BeyondSWE-Doc2RepoおよびNL2RepoBenchの最先端モデルの成果を見ると、効果はあまり良くない。

現実のソフトウェア開発では、1つの関数を変更したり、条件分岐を追加したりするだけではなく、要件を理解し、アーキテクチャを設計し、ファイルを作成し、APIを設計し、依存関係を処理し、モジュール間を連携させ、最終的にリポジトリ全体をテストで正常に動作させる必要があります。

言い換えれば、困難なのは長期間にわたるリポジトリレベルの生成、つまりタスクドキュメントから完全で実行可能かつ検証可能なソフトウェアリポジトリを生成することである。これがDeNovoSWEが解決しようとしている問題である。

高品質な「ゼロからリポジトリを生成」タスクドキュメント

ドキュメントからリポジトリ生成において、ドキュメントはREADMEや単純なAPIリストではなく、スマートエージェントがリポジトリ全体を再構築するための唯一の入力ポイントです。

高品質なタスクドキュメントには、少なくとも2つの核心基準を満たす必要があります。

まず、それはwell-organizedでなければなりません。

仓库レベルのタスクは、複数のモジュール、インターフェース、設定、データ構造、およびインタラクションフローを含むため、自然に複雑です。ドキュメントが関数の説明を単に並べただけでは、エージェントは断片的な情報に迷い込んでしまう可能性があります。したがって、ドキュメントはまず明確なリポジトリ全体の概要を提示し、その後、機能またはワークフローに従って章を分割し、各部分が明確な機能境界に対応するようにする必要があります。

第二に、それは信頼できる評価の観点からでなければなりません。

ドキュメントが少なすぎると、タスクが未定義の問題となり、モデルが無駄な推測をしなければ評価を通過できなくなる可能性がある。一方、多すぎると実装の詳細が漏洩し、タスクの挑戦性が失われる。

真正の高品質なドキュメントは、評価に必要な主要な動作を記述すべきです。これには、インポートパス、公開API、入力と出力、デフォルトパラメータ、例外動作、設定項目、パターン文字列、返却フィールドなどが含まれ、同時に概ね達成すべき機能も明記する必要があります。つまり、ドキュメントはエージェントがテスト可能な動作を再現できるほど十分であるべきですが、実装コードのコピーになってはいけません。

これはDeNovoSWEの核心思想でもあります：ドキュメントを読みやすく、実装可能で、検証可能にすること。

DeNovoSWE方法

DeNovoSWEは、「ドキュメントから完全なリポジトリを生成」することを、大規模で検証可能な長期的なソフトウェアエンジニアリングタスクとして構築しています。これは手動で作成されたドキュメントではなく、sandboxedマルチエージェントワークフローを通じて高品質なインスタンスを自動的に構築します。この方法全体は、「分割して制圧」の2ステップで要約できます。

Divide段階では、システムがターゲットリポジトリを分析し、複数のrepository capabilitiesに分割します。

各機能は、認証と接続、データの読み書き、バッチ処理、エクスポートプロセスなど、リポジトリ内の核心的な機能またはワークフローに対応しています。これにより、巨大なリポジトリ生成の課題が、構造化された明確なドキュメントの章に分割されます。

同時に、DeNovoSWEは元のユニットテストを実行し、実行トレースを収集して、どの関数、クラス、インターフェースが評価に実際に影響を与えるかを特定し、直接コンポーネント、コア間接コンポーネント、非コア間接コンポーネントをさらに区別します。テストによって直接呼び出されるインターフェースは詳細に記録する必要があり、観測可能な動作に影響を与えるコア間接コンポーネントもカバーする必要があります。一方、非コアの内部実装はエージェントに自由に任せることが可能です。

Conquer段階では、DeNovoSWE が Draft-Critic-Repair メカニズムを使用して、能力ごとにドキュメントを段階的に生成します。Draftエージェントが最初のドラフトを作成し、Criticエージェントが重要なAPI、行動契約、または構造情報が欠落していないかをチェックします。その後、Repairエージェントがフィードバックに基づいてドキュメントを修正します。このサイクルを繰り返し、各能力の章が十分に明確で、完全であり、評価と整合するまで継続します。

最終的に、異なる能力ドキュメントは統合され、エージェントがリポジトリをゼロから生成するための唯一の基準となる完全なタスクドキュメントになります。

難易度：なぜこれは長期タスクなのですか？

DeNovoSWEのタスクの難易度は、根本的な変化に由来します。これまではイシュー単位の修正でしたが、今やリポジトリ全体の生成となります。

従来のSWEタスクでは、エージェントは通常、既存のリポジトリに直面し、バグを特定し、局所的なコードを修正し、テストを通過すればよい。

DeNovoSWEでは、エージェントはクリーンな環境に直面します。元のソースコードとテストは削除され、git履歴はリセットされ、キャッシュ、site-packagesの残留物、pipワイル、一時的なコンパイル成果物などの潜在的な漏洩経路もすべて除去されます。これは、エージェントがドキュメントに完全に依存してリポジトリ全体を再構築しなければならないことを意味します。エージェントはプロジェクト構造を計画し、モジュールファイルを作成し、公開インターフェースを定義し、ファイル間の相互作用を実装し、依存関係と設定を処理し、複数回の編集とテストフィードバックを通じてエラーを継続的に修正する必要があります。

API署名、返却フィールド、例外タイプ、またはデフォルト動作のいずれかの差異も、テスト失敗を引き起こす可能性があります。エラーは長期にわたって蓄積する可能性があります：初期段階で不適切に設計されたモジュールは、後続の複数のファイルや呼び出しチェーンに影響を与える可能性があります。

異なるリポジトリの難易度差に対応するため、DeNovoSWEはdifficulty-aware trajectory filteringを提案しました。簡単に言えば、簡単なタスクにはより高い通過率を要求し、困難なタスクは完璧なスコアに達しなかったからといってすべて除外すべきではありません。DeNovoSWEは、構造的複雑さとLLMの難易度に基づいて、異なる難易度区間ごとに異なるフィルタリング閾値を設定し、品質と多様性のバランスを実現します。

これは長期タスクにとって特に重要です。より複雑なリポジトリほど、一度ですべてのテストを通過するのが難しくなりますが、その中でも困難なリポジトリ、低スコア、部分的に成功したトレースには、貴重な長期計画と実行能力が含まれています。

実験結果

DeNovoSWEは、4818個の高品質なdocument-to-repositoryタスクインスタンスを構築しました。これは、実行可能で評価可能、かつ学習可能な長期的なソフトウェアエンジニアリング環境です。

実験結果によると、DeNovoSWEはモデルの長期的なリポジトリ生成能力を大幅に向上させました。Qwen3-30B-A3B-Instructでは、元のモデルはBeyondSWE-Doc2Repoで5.8%、NL2RepoBenchで4.3%にとどまりましたが、通常のissueレベルSWEデータで訓練したScale-SWE-Agentは29.2%と18.3%まで向上しました。これは、通常のSWEデータに移転効果があることを示しています。しかし、モデルがDeNovoSWEで訓練された場合、性能はさらに47.2%と23.0%まで向上しました。

これは、バグ修正を目的としたデータでは、完全なリポジトリ生成を目的とした長期的なデータを完全に置き換えることができないことを示している。エージェントがリポジトリレベルのエンジニアリングを真正に習得するためには、長期タスクに特化した訓練環境を構築する必要がある。

より強力なQwen3.5-35B-A3Bバックボーン上で、DeNovoSWEは安定した収益をもたらしました：BeyondSWE-Doc2Repoは43.8%から50.0%へ、NL2RepoBenchは23.5%から27.1%へ向上しました。これは、DeNovoSWEの収益が特定のモデルへの偶然の適合によるものではなく、高品質な長期データ自体に由来することをさらに示しています。

まとめ

コードエージェントの次段階では、単一のイシューをより速く修正するだけでなく、ドキュメントを理解し、アーキテクチャを計画し、モジュールを整理し、インターフェースを実装し、最終的に完全に動作するソフトウェアリポジトリを生成できるようになります。

DeNovoSWEは、この目標を体系的に、訓練可能で検証可能かつ拡張可能なデータセットとして構築しました。これは、どのようなデータが、長期的なソフトウェアエンジニアリング能力を備えたエージェントを真正に訓練できるかという重要な問いに答えています。

答えは、より多くの断片化されたコードやより簡単な問題ではなく、高品質で構造化され、評価と整合し、リークを防ぐフルリポジトリ生成タスクである。

ドキュメントから始めて、リポジトリ全体を再構築する。これはロングレンジコードエージェントが乗り越えなければならない壁である。

参照：https://arxiv.org/pdf/2606.10728

本文は微信公衆アカウント「新智元」より、編集：LRST