Claudeのダイナミックワークフローを用いた深層リサーチの使い方

この3年間で、私はAIを活用して業界調査を行うのが手放せなくなり、情報の選別、整理、関連付け、検証、蓄積を解決するために一連のスキルと支援システムを構築してきました。

この週、Claude Codeのダイナミックなワークフローを深く体験して、ようやく「人は大時代に逆らってはいけない」という言葉の真意を理解した。

もう一度考え直す：AI時代において人が行うべき深い研究とは何か、そして自分とAIの協力・補完関係をどのように構築するか。

一、調査の罠から始めよう

技術調査は、人間にもAIにも陷阱が満ちた行為です（なぜなら、調査の初期段階から大量の情報が流入し、情報や見解が増えるほど、結論はますます曖昧になるからです）。したがって、常に目標そのものに戻ることを忘れてはなりません。

これはこれまでAIが十分に優れていない理由でもあり、注意と連想の観点から見ると、AIは現在の情報量に人類よりもより制限され、真に価値のあるクロスジャンルの連想が弱いからである。

もちろん、AIの優れた点はその実行力であり、エージェント形式で段階的に探求し、整理し、要約することで、細部の損失を完全に回避できます。

この半年、私は公式アカウントにあまり投稿していませんが、業界の主要な戦場にはすべて注目し、研究を重ねてきました。その情報の入力と出力を支えているのは、私が独自に構築したdeep-researchシステムです。

先週、Claude CodeがDynamic Workflows機能をリリースしたのを受けて、彼のデフォルトの能力が自分自身を完全に上回れるかどうか、対決してみたくなりました。

二、Dynamic Workflows とは

Dynamic Workflows（動的ワークフロー）の核心的な考え方は、タスクを実行する前に、AIがそのタスクを完了するためにどのワークフローを使用すべきかを自動で設計し、その後実行を開始することです。

これは以前使用していた「計画モード」と「スキル」と本質的に異なります。計画モードはタスクをより細かく分割するものですが、必ずしも合理的なワークフローに合致するわけではなく、プロンプトの配置によってようやく検証指標を追加できるようになります（これはリサーチにとって極めて重要です）。同様に、プロンプトが存在する場合にのみ、彼はより適切にハーネスルールを事前設定できます。

しかし、ダイナミックワークフローは、受入ロジック、結果の収束、対抗検証などを自動的に組み込みます。

トリガー方法は簡単で、cc内で/deep-researchを直接使用し、いくつかのリサーチテンプレートと入力資料を提供するだけです。動的ワークフロー機能を単独で使用したい場合は、プロンプトに「ultracode」と記述するか、直接「ultracode」と言ってください。使用前に注意してください：トークン消費量は通常の数十倍になります。

三、内蔵の六つのワークフローモード

動的ワークフローの基盤には、公式がまとめた6つのコアスケジューリングモードがあり、これが它が一般的な対話/エージェント/スキルよりも優れている理由です。

実際、この6つのモードの背後には本質的に2つの核心的な問題しかありません：タスクをどのように分割するか？結果をどのように統合するか？6つに分けることは、これら2つの要素の組み合わせにすぎません。

3.1 ルーティングモード（分類して実行）

まずエージェントがタスクの種類を判別し、最も適した専門エージェントにタスクを割り振ります。核心的なロジックはルーティングの選択逻辑であり、並列または反復ではありません。1つのタスクは1つのパスのみを通り、他のパスは完全に実行されません。

例えば、最初に3つのプリセットサブエージェントのロールを設定できます：データを厳格に検証する分析エージェント、執筆に長けた出力エージェント、脆弱性を専門に見つけるチャレンジエージェントです。ルーティング層が現在のサブタスクをどのエージェントに割り当てるかを判断し、1つのエージェントがすべてを担うのではなく、役割を分担します。

このモードの価値は、精度と効率にあります。各エージェントのプロンプトは他の目標に干渉されることなく独立して設計され、垂直的な深さのある探求を実現します。トークン消費が最小限で、応答速度が最速です。責任の境界が明確です。

欠点も明確で、境界が曖昧なタスク（例：「技術的な問題でありながらアカウントの問題でもある」）に対する対応能力が弱い。

3.2 ファンアウトとマージ

私も最もよく使うモードで、核心的なロジックは並列+統合です。タスクをN個の独立したサブタスクに分割して同時に実行し、すべてが完了したら一括で統合します。

速度と隔離が利点です。総所要時間は、すべてのサブタスクの合計ではなく、最も遅いサブタスクの時間に等しくなります。各サブタスクは独立したコンテキストを持ち、互いに干渉せず、あるサブタスクのノイズが他のサブタスクに影響を与えることもありません。

課題は、トークンコストが直列でN倍になること、およびマージ層（Synthesize）自体の難しさ——N経路の構造が異なる出力をどう統合するかという設計上の課題です。サブタスクの分割が不適切だと、見落としや重複カバーが発生します。

3.3 アドバーサリアル検証

核心ロジックは、同じ結論に対して複数のエージェントが「反論」の立場から挑戦し、過半数の票を得た場合にのみ承認されるということです。

Verifier は Worker の思考プロセスを知らず、結果のみを確認するため、モデルが自身で書いたコードをチェックする際に生じる自己評価バイアスが構造的に排除されます。

この手法は、長年私を悩ませてきた問題を解決しました。私たちはよくAIとカジュアルな会話を行いますが、AIはあなたの期待に沿って回答しがちで、確認バイアスが生じやすいです。対話的検証により、AIは反例を探し、データや実験に基づいて検証するよう強制され、あなたの考えに迎合しなくなります。

しかし、この事実を検証する際、彼が誤った判断をすると、WorkerがVerifierに迎合する方向に誘導されてしまうため、意見に頼るのではなく、再現可能な事実に基づくことが優先されます。

冗談で言っているが、AIに問題を探させると、無限に問題を見つけることができるため、問題を探す範囲を制限する必要がある。

3.4 生成とフィルター（Generate & Filter）

核心のロジックは拡散してから収束することです。まず意図的に過剰な候補を生成し、ルーブリックを使って選別し、信頼度の高い結果のみを出力します。

エージェントが「まあまあ」という答えを出力するのではなく、10個生成して検証層でフィルタリングする方が良い。そのための利点は多様性にある。複数のジェネレーターが異なる戦略やプロンプトを用いることで、人間では予想できない解決策を生み出し、フィルタリングステップにより最終出力の品質を高めることができる。

一方で、Filterのルブリックの品質が最終的な結果を直接左右し、ルブリックの設計が間違っていると、プロセス全体が無効になります。

正しい答えが事前にわからない状況、複数の可能性の中から最適なものを選ぶ必要がある場合、多様性が明確に求められる場面に適しています。

Fanout-And-Synthesize と表面的に似ているだけです：両者とも「マルチパラレル → シングルアウトプット」であり、最も混同されやすいです。

重要な違いは意図にあります：Fanout の各パスはタスクの異なる部分を処理し、結果は補完的で、統合時にすべてのパスが貢献します。一方、Generate-And-Filter の各パスは同じタスクを処理し、結果は競合的で、統合時には大部分が破棄されます。前者は「パズル」、後者は「選挙」です。

3.5 ターナメントモード

核心ロジックは競争による淘汰です。N個のエージェントがそれぞれ独立して同じタスクを実行し、ペアワイズ比較を通じて段階的に淘汰され、最終的に最適解が選ばれます。

これは以前、手動で行っていたこと——同じコードの変更を複数のバージョンで実行し、AIにどれが優れているか比較させた。今では、ワークフローに直接組み込むことができる。

優位性は安定性の評価にあります。二つずつの比較（「AとB、どちらが優れているか？」）は、絶対評価（「Aに点数をつける」）よりもはるかに安定しており、評価基準のずれを排除できます。複数ラウンドの競争を経た結果であるため、勝者の信頼性は高いです。

Generate-And-Filter も表面的には似ています：両者とも複数の候補から最適なものを選択します。重要な違いは選択メカニズムにあります。Tournament はペアワイズジャッジを用いて二つずつ比較し、「候補同士が互いに競い合う」方式です。ルブリックが定量化しづらく、判断が本質的に相対的である場合、より信頼性が高くなります。

3.6 ループモード

コアロジックはアダプティブイテレーションであり、継続的に試行を繰り返し、障害に直面した場合はエラーメッセージを収集し、コンテキストを補完して再試行し、受入条件を満たすまで継続します。

本質的には、AIのランダム性と対峙することである：何度か試せば、必ずより良い結果にたどり着ける。しかし、より成熟したアプローチは、対抗検証を組み合わせ、各ループをランダムにではなく、より多くの情報をもって実行することである。

優位性は、作業量が不明なタスクを処理する能力にあります。他の5つのモードはすべてタスクの境界が確定していることを前提としており、Loop Until Done は「何ラウンド行うかわからない」タスクを処理できる唯一のモードです。

脆弱性は潜在的な制御喪失のリスクです——停止条件の設計が不十分だと無限ループになります。各ラウンドのエージェントは新しいコンテキストであり、状態をラウンド間で蓄積できません（明示的にファイルに書き込む場合を除きます）。

四、私のスキルと公式ワークフローのバトル

動的ワークフローが登場する前に、私は独自の deep-research を設計しました。私のそのスキルのロジックは以下のようでした：

KuCoinに新しい機能が追加されました。
AIに公式ドキュメント、ソースコード、市場の声をすべて検索させます。
情報を意味のある要約に圧縮する
複数のエージェント役割による対抗分析、レポート生成
複数のエージェントによるコンテンツの重複率が高いため、自動重複排除

しばらく使用しましたが、使い勝手は良いと思います。しかし、根本的な欠点として、目標指向の収束が欠けています。

また、多くの場合、5番目の重複除去ステップがあっても、価値のある情報を削除してしまうことがよくあります。重複除去をしないと、スキルは長文（1万字以上）を提供し、情報は豊富ですが、「この出来事があなたに何の関係があるのか、あなたは何をすべきか」を直接教えてくれません。

しかし、研究は「意思決定」のために行われるものであり、そのため多くのスキルは研究そのもので止まってしまい、80点は取れるが、最も重要な20点が欠けている。

AIが初期の研究を完了した後でも、満足のいく包括的な結論に達するまで、さらに10回の思考と対話が必要である。

公式の動的ワークフローはさらに何を行いましたか

この週の複数の複雑な調査タスクの実験を通じて、Claude Code に組み込まれた deep research ワークフロー（スキルではなく、cc にコンパイルされて組み込まれたモジュールに注意）は、私が独自に作成したスキルに基づくものと比較して、いくつかの重要な工程が追加されていることに気づきました。

問題分解層：それは直接検索を開始するのではなく、まず質問をし、私の問題を複数のサブ質問に分解します。あなたが本当に理解したいのは何ですか？この出来事はあなたとどのような関係がありますか？どの側面を深く追求する価値がありますか？このステップは、以前私は飛ばしていました。
信頼性評価：各情報の反証可能性を評価し、従来のSEOにおける権威性スコアと同様に、情報源は信頼できるか？引用回数はどの程度か？これはこれまで私が考慮しなかった工程である。
クロス削除、平均マージではなく：以前はすべての結論を平均して選んでいたため、ドキュメントが非常に大きくなりました。ダイナミックワークフローでは、各結論に対して複数のエージェントによる投票を行い、票数が不足したものは削除します。単純なマージではありません。
目標指向の出力：最終的なレポートは情報の積み重ねではなく、元の目標に基づいて判断と提案を提示することである。これを実現する鍵は、複数のサブエージェントの事前設定された機能を活用することである。以前、スキルが最終目標指向になりにくかったのは、膨大な情報の後に指示の重みが低下したためである。

これらのメカニズムはどのような問題を解決しますか？

AIが長時間タスクを処理する際の典型的な問題に焦点を当てています：

目標のずれ：タスク開始時は状態が良いが、途中で何をやっていたのかわからなくなり、終了時にまたリズムを取り戻す——人間が授業中にぼーっとするのに似ている。タスクが長くなるほど顕著になる。

早期停止：走着走着遇到困难，AI却认为自己“已完成”而停下，实际上验收标准根本未达标。

コンテキスト汚染：単一のエージェントが複雑なタスクを実行する場合、前期の大量のプロンプトが後続の実行スペースを圧縮する。より良い方法は、前期のプロンプトを数KB以内に抑え、複数のエージェントでコンテキストを分散させることである。

出力の偏向：AIはあなたの期待に沿って回答しがちであり、口語的な質問がこの問題を引き起こしやすくなります。

一方、動的ワークフローは構造化された方法でこの4つの問題を解決します：早期停止を防ぐために自動で評価指標を追加；並列でコンテキストを隔離；検証による出力バイアスの相殺に対抗；問題を分解して段階的に制約を課し、AIがまず目標を理解してから行動するようにします。

五、まとめ

最後に、筆者は長年にわたり研究者として活動してきましたが、このCCの新しいメカニズムに感嘆しました。このメカニズムには、ルーティング選択、分割・統合、対抗検証、生成フィルタリング、トーナメント選出、ループループの6つのモードが組み込まれており、ほとんどの複雑な研究タスクのスケジューリング要件をカバーしています。

これにより、エージェントのスケジューリングを手動で設計したり、重複排除や交差検証を自分で行ったりする必要がなくなり、これらはすべてワークフローに組み込まれています。

また、彼は情報が不足しており、開発的な問いを探究する際に特に適しており、天然のマルチエージェントスケジューリングとターゲットの分割により、汎用性がさらに向上しています。実際、3年前のAIは、複数の制約のもとで非常に明確な小さな問題を解決することにすでに優れていましたが、AIの真の質的変化は汎用性にあります。これが彼の競合他社との違いであり、単なるコードから真正的なエージェントへと進化し、固定された問題を解決するものから、あらゆる問題に適応できる存在へと変わりました。

したがって、Dynamic Workflows（ダイナミックワークフロー）は「より賢い単一の対話」ではなく、研究プロセスそのものを構造化することです。

以前我需要发起十几次独立对话来进行调研，现在压缩到了3-4次。尽管对应的Token消耗增加了数十倍。

では、なぜまだ3〜4回必要なのでしょうか？私は、その根本原因はこれらの要件の差異にあると思います。

まず、検証メカニズムの厳格さです。私は主にブロックチェーン上の新技術を研究していますが、多くの場合、公式ドキュメントは遅れており、より参考になるのはオープンソースコードやチェーン上のトランザクションなどのデータです。しかし、現在のAIは依然として事実に基づく検証ではなく、公式ドキュメントを基準としています。

次に、完全に跨分野の深層思考です。これはワークフローの事前設定（さまざまな次元のsubAgentを事前に定義して、同じ問題に対して思考させる）によってある程度解決できますが、AIが得意とするのは依然として主流の思考モデルであり、非常に新しく、非常に深く、データ根拠が不足しているケースにはやや劣ります。

第三はソリューションの設計と検証です。ソリューションの意義は提案にあるのではなく、検証とサポートにあります。これは、既存のメカニズム、投入、コストの評価に基づいています。AIを十分にチューニングすればより良くできるかもしれませんが、それは汎用性と矛盾します。

最後は情報の凝縮であり、これは情報の受信者に対する理解度に帰着する。誰かは全くの初心者で、擬人化された表現が必要だが、誰かは一言で心を動かす必要がある~。