Comment utiliser les workflows dynamiques de Claude pour une recherche approfondie

Au cours de ces trois dernières années, je ne peux plus me passer de l’IA pour m’aider dans mes recherches sectorielles, et j’ai même mis en place une série de compétences et de systèmes d’assistance pour résoudre la sélection, la synthèse, la connexion, la vérification et la consolidation des informations.

Ce n’est qu’après avoir expérimenté en profondeur le flux de travail dynamique de Claude Code cette semaine que j’ai compris la véritable signification de cette phrase : « Ne luttez pas contre la grande époque. »

Réfléchissez à nouveau : quelles sont les recherches approfondies que l’être humain doit mener à l’ère de l’IA, et comment établir une relation de collaboration et de complémentarité avec l’IA.

I. Commencer par les pièges de l'enquête

Faire une étude technique est en réalité une entreprise pleine de pièges (que ce soit pour les humains ou pour l'IA), car dès le départ de l'étude, on reçoit une quantité massive d'informations, les opinions se multiplient et les conclusions deviennent de plus en plus floues. Il est donc essentiel de toujours revenir à l'objectif initial.

Cela explique aussi pourquoi l'IA n'est pas encore suffisamment performante : du point de vue de l'attention et de l'association, elle est plus limitée par la quantité d'informations actuelles et présente une faiblesse marquée pour les associations transversales véritablement précieuses.

L'avantage d'IA réside dans son exécution : elle peut, sous forme d'agent, rechercher, regrouper et résumer couche après couche, évitant ainsi toute perte de détail.

Bien que je n’aie pas publié beaucoup sur notre公众号 au cours des six derniers mois, j’ai suivi et étudié de manière exhaustive les principaux domaines de l’industrie, et ce flux d’entrée et de sortie est soutenu par un système de recherche approfondie propre.

Alors que Claude Code a lancé la fonction Dynamic Workflows la semaine dernière, je souhaite m'affronter pour voir si ses capacités par défaut peuvent totalement surpasser les miennes.

What is Dynamic Workflows?

Les flux de travail dynamiques : leur idée centrale consiste à ce que l'IA conçoive automatiquement le flux de travail approprié pour accomplir une tâche avant de l'exécuter.

Cela diffère fondamentalement de notre ancien « mode planifié » et de la fonction « skill ». Le mode planifié consiste à décomposer les tâches en éléments plus fins, mais il ne correspond pas nécessairement à un flux de travail rationnel ; les indicateurs de validation (cruciaux pour la recherche) ne sont ajoutés que selon la manière dont vous organisez vos invites. De même, il ne pourra mieux prédéfinir certaines règles d'harness que si des invites sont fournies.

Mais le flux de travail dynamique intègre automatiquement les logiques de validation, la convergence des résultats et les vérifications adversariales.

Le moyen de déclenchement est simple : utilisez simplement /deep-research dans cc, puis fournissez certains modèles de recherche et des ressources d'entrée. Si vous souhaitez utiliser uniquement la fonction de flux de travail dynamique, utilisez le prompt ou dites simplement ultracode. Avant utilisation, notez que la consommation de tokens est environ une dizaine de fois supérieure à la normale.

Trois : six modèles de flux de travail intégrés

En sous-jacent au flux de travail dynamique, il y a six modèles d'ordonnancement principaux résumés par l'équipe officielle, ce qui explique pourquoi il est plus puissant que les conversations/agents/capacités classiques.

En réalité, derrière ces six modes, il n'y a que deux questions fondamentales : comment décomposer la tâche ? et comment agréger les résultats ? Les séparer en six modes revient simplement à combiner ces deux éléments de différentes manières.

3.1 Mode de routage (Classify-And-Act)

Un agent identifie d'abord le type de tâche, puis la redirige vers l'agent spécialisé le plus adapté. La logique centrale réside dans le choix du routage, et non dans le parallélisme ou l'itération. Une tâche emprunte une seule voie, les autres voies ne sont pas exécutées.

Par exemple, je peux commencer par trois rôles de sous-agents prédéfinis : un agent d’analyse qui vérifie rigoureusement les données, un agent de sortie spécialisé dans l’écriture, et un agent de défi dédié à la recherche de vulnérabilités. La couche de routage détermine quel sous-agent est le plus adapté pour chaque tâche, plutôt que de confier tout à un seul agent.

La valeur de ce modèle réside dans sa précision et son efficacité : les invites de chaque agent peuvent être hautement indépendantes, non perturbées par d'autres objectifs, permettant une exploration en profondeur verticale. La consommation de tokens est minimale et la vitesse de réponse est maximale. Les limites de responsabilité sont très claires.

Les inconvénients sont également marqués, avec une capacité faible à traiter les tâches aux frontières floues (par exemple, « à la fois un problème technique et un problème de compte »).

3.2 Split and Merge

C'est aussi le modèle que j'utilise le plus fréquemment ; la logique centrale repose sur le parallélisme et la fusion. Les tâches sont divisées en N sous-tâches indépendantes exécutées simultanément, puis fusionnées une fois toutes terminées.

L'avantage réside dans la vitesse et l'isolation. Le temps total est équivalent à celui de la tâche la plus lente, et non à la somme de toutes les tâches. Chaque tâche dispose d'un contexte indépendant, ne perturbe pas les autres et n'est pas affectée par le bruit d'une autre tâche.

La faiblesse réside dans le fait que le coût du token est multiplié de manière séquentielle par N, et que la couche de synthèse présente elle-même des difficultés — fusionner des sorties à N chemins aux structures inégales constitue un défi de conception. Une mauvaise répartition des sous-tâches peut entraîner des omissions ou des recouvrements redondants.

3.3 Vérification adversariale

La logique centrale consiste à vérifier en faisant en sorte que plusieurs agents remettent en question la même conclusion sous un angle de réfutation ; la conclusion n'est validée que si elle obtient une majorité des votes.

L'avantage réside dans le fait que, puisque le Verifier ne connaît pas la réflexion du Worker et ne voit que le résultat, le biais d'auto-évaluation présent lorsqu'un modèle vérifie son propre code est éliminé structurellement.

Ce modèle résout un problème qui me préoccupe depuis longtemps : nous avons tendance à parler à l'IA de manière informelle, mais l'IA a tendance à répondre en suivant vos attentes, ce qui favorise le biais de confirmation. En imposant une vérification contradictoire, on oblige l'IA à chercher des contre-exemples et à s'appuyer sur des données et des expériences pour valider ses affirmations, plutôt que de s'adapter à vos idées.

Cependant, pour vérifier cela, s'il donne un jugement erroné, il détournera les Worker pour qu'ils s'adaptent au Verifier. Il est donc préférable de s'appuyer sur des faits reproductibles plutôt que sur des opinions.

Je disais ça en plaisantant, mais si tu demandes à une IA de trouver des problèmes, elle pourra en identifier une infinité ; il faut donc limiter le cadre dans lequel elle cherche.

3.4 Génération et filtrage

La logique centrale consiste à diverger, puis à converger. Il s'agit d'engendrer délibérément un excès de candidats, puis de les filtrer à l'aide d'une grille d'évaluation pour ne conserver que les résultats les plus pertinents et à haute confiance.

Plutôt que de laisser un agent produire une réponse « correcte », il vaut mieux en générer dix, puis les filtrer avec une couche de validation. L’avantage réside donc dans la diversité. Plusieurs générateurs peuvent utiliser des stratégies et des prompts différents pour produire des solutions que les humains auraient du mal à anticiper, tandis que l’étape de filtrage permet de concentrer la qualité de la sortie finale.

Le point faible est que la qualité du rubric de Filter détermine directement le résultat final ; une erreur dans la conception du rubric équivaut à un échec complet du processus.

Les scénarios appropriés sont ceux où la bonne réponse n'est pas connue à l'avance, où il faut choisir parmi plusieurs possibilités, et où une diversité explicite est requise.

Ressemble seulement superficiellement à Fanout-And-Synthesize : les deux suivent le modèle "multiplexage parallèle → sortie unique", ce qui les rend les plus facilement confondus.

La différence clé réside dans l'intention : chaque branche de Fanout traite une partie différente de la tâche, les résultats étant complémentaires, et toutes les branches contribuent lors de la fusion ; chaque branche de Generate-And-Filter traite la même tâche, les résultats étant concurrents, et la plupart sont éliminés lors de la fusion. La première est un "puzzle", la seconde un "concours de beauté".

3.5 Mode tournoi (Tournament)

La logique fondamentale est la compétition et l'élimination. N agents effectuent indépendamment la même tâche, et par comparaisons par paires, ils sont éliminés tour après tour jusqu'à ce que la meilleure solution soit sélectionnée.

J'ai déjà fait cela manuellement — exécuter deux ou trois versions d'un même changement de code, puis laisser l'IA comparer laquelle est la meilleure. Maintenant, cela peut être directement intégré dans le flux de travail.

L'avantage réside dans la stabilité de l'évaluation. Les comparaisons par paires ("Lequel est meilleur entre A et B ?") sont beaucoup plus stables que les évaluations absolues ("Donnez une note à A"), car elles éliminent le problème de la dérive des critères d'évaluation. Les résultats, après plusieurs tours de compétition, offrent une grande fiabilité au vainqueur.

La même apparence superficielle s'applique à Generate-And-Filter : les deux consistent à sélectionner le meilleur parmi plusieurs candidats. La différence clé réside dans le mécanisme de sélection : le Tournament utilise un jugement par paires pour comparer deux à deux, ce qui revient à « faire concourir les candidats entre eux ». Cela s'avère plus fiable lorsque les critères sont difficiles à quantifier et que le jugement est intrinsèquement relatif.

3.6 Mode boucle (Loop)

La logique centrale est une itération adaptative, avec des essais continus : en cas d'obstacle, collecter les informations d'erreur, compléter le contexte, et réessayer jusqu'à ce que les critères d'acceptation soient remplis.

Il s'agit essentiellement de lutter contre la randomisation de l'IA : en essayant plusieurs fois, vous finirez par obtenir de meilleurs résultats. Toutefois, une approche plus mature consiste à combiner la validation adversariale, afin que chaque itération soit guidée par davantage d'informations, et non pas uniquement par le hasard.

L'avantage réside dans la capacité à gérer des tâches dont l'ampleur est inconnue. Les cinq autres modes supposent que les limites des tâches sont déterminées ; Loop Until Done est le seul mode capable de gérer les cas où l'on ne sait pas combien de cycles seront nécessaires.

La faiblesse est le risque potentiel de perte de contrôle — une mauvaise conception des conditions d'arrêt peut entraîner une boucle infinie. Chaque agent de chaque tour est un contexte entièrement nouveau et ne peut pas accumuler d'état entre les tours (sauf s'il est explicitement écrit dans un fichier).

Quatre : Mon propre skill contre le workflow officiel

Avant la sortie du flux de travail dynamique, j’ai conçu moi-même un système de deep-research. La logique de mes compétences était à peu près la suivante :

Un simple message (par exemple, un projet vient de lancer une nouvelle fonctionnalité)
Faites rechercher à l'IA tous les documents associés : documentation officielle, code source, opinions du marché
Condense the information into a meaningful summary
Plusieurs rôles d'agents effectuent une analyse comparative et génèrent un rapport
Dédoublonnage automatique, car le taux de répétition des contenus des multiples agents est élevé

Je l'utilise depuis un moment et je trouve que c'est très pratique. Mais il présente un défaut fondamental : un manque de convergence orientée vers un objectif.

Et souvent, même avec la suppression des doublons à la cinquième étape, il supprime fréquemment des informations précieuses ; sans suppression des doublons, il vous fournit facilement un article de dix mille mots avec toutes les informations, mais ne vous dit pas directement : « Quel est le lien avec vous ? Que devriez-vous faire ? »

Cependant, la recherche est au service de la « prise de décision », c’est pourquoi de nombreuses compétences s’arrêtent à la recherche elle-même : elles obtiennent 80 points, mais manquent les 20 points les plus cruciaux.

Ainsi, après avoir accompli une première étude, l’IA doit poursuivre dix réflexions et dialogues supplémentaires pour parvenir à une conclusion satisfaisante et complète.

Qu'est-ce que le flux de travail des actualités officielles a fait en plus ?

À travers l'expérimentation de plusieurs tâches de recherche complexes cette semaine, j'ai constaté que le flux de travail de recherche approfondie intégré à Claude Code (notez qu'il ne s'agit pas seulement d'une compétence, mais d'un module compilé et incorporé dans cc) ajoute plusieurs étapes clés par rapport à mes propres compétences :

Couche de décomposition des questions : il ne commence pas directement à chercher, mais pose d’abord des questions pour décomposer ma question en plusieurs sous-questions : Qu’est-ce que vous voulez vraiment comprendre ? Quel est le lien avec vous ? Quels axes méritent une analyse approfondie ? Je sautais cette étape auparavant.
Évaluation de la crédibilité : évaluer la falsifiabilité de chaque information, similaire à la notation d'autorité dans le SEO traditionnel — la source est-elle fiable ? Combien de fois est-elle citée ? C'est un élément que je n'avais jamais pensé à inclure auparavant.
Suppression croisée plutôt que fusion moyenne : J'ai précédemment adopté la méthode consistant à prendre la moyenne de toutes les conclusions, ce qui rendait le document très volumineux. Le flux de travail dynamique effectue un vote multi-agent pour chaque conclusion et supprime celles qui n'obtiennent pas suffisamment de votes, au lieu de les fusionner simplement.
La sortie orientée objectif : le rapport final n'est pas un amas d'informations, mais une évaluation et des propositions de solutions centrées sur votre objectif initial. La clé pour y parvenir réside dans la capacité préconfigurée à coordonner plusieurs sous-agents. La raison pour laquelle mes compétences manquaient auparavant d'une orientation vers l'objectif final, c'est que, après une quantité massive d'informations, le poids des instructions diminuait.

Quels problèmes ces mécanismes résolvent-ils ?

Cible les quelques problèmes typiques des tâches longues effectuées par l'IA :

Dérive d'objectif : au début de la tâche, l'état est bon, puis au milieu, on ne sait plus ce qu'on fait, et à la fin, on retrouve à nouveau le rythme — semblable à un élève qui perd son attention en cours. Plus la tâche est longue, plus cela se manifeste clairement.

Arrêt prématuré : en cours d'exécution, face à des difficultés, l'IA pense avoir « terminé » et s'arrête, alors que les critères d'acceptation ne sont pas remplis.

Pollution du contexte : lorsqu'un seul agent effectue une tâche complexe, les nombreux prompts précédents réduisent l'espace disponible pour l'exécution ultérieure. Une meilleure approche consiste à limiter les prompts précédents à quelques ko et à répartir le contexte entre plusieurs agents.

Le biais de sortie : l'IA a tendance à répondre selon vos attentes ; les questions informelles déclenchent plus facilement ce problème.

Le flux de travail dynamique résout ces quatre problèmes de manière structurée : il automatise l'ajout d'indicateurs de validation pour éviter l'arrêt prématuré ; il isole les contextes en parallèle ; il combat les biais de sortie par validation croisée ; il décompose les problèmes en contraintes progressives pour que l'IA comprenne d'abord l'objectif avant d'agir.

Cinq. Résumé

Enfin, en tant que chercheur expérimenté, je suis profondément impressionné par ce nouveau mécanisme CC, dont les six modes intégrés — sélection de routage, division et fusion, vérification adversariale, filtrage génératif, concours compétitif et boucle Loop — couvrent les besoins de planification de la majorité des tâches de recherche complexes.

Je n'ai plus besoin de concevoir manuellement l'ordonnancement des agents, ni de gérer moi-même la déduplication et la validation croisée, car tout cela est intégré directement dans le flux de travail.

Et il est particulièrement adapté à la réflexion dans des contextes où les informations sont limitées et lors de l’exploration de questions ouvertes, car son orchestration naturelle multi-agent et la décomposition des objectifs de tâche lui confèrent une nouvelle dimension de généralité. En réalité, il y a déjà trois ans, l’IA s’était déjà très bien débrouillée pour résoudre des problèmes très précis, soumis à des contraintes hiérarchisées. Mais la véritable transformation de l’IA réside dans sa généralité : c’est ce qui distingue ses concurrents, passant d’une simple écriture de code à une véritable incarnation en tant qu’agent, passant de la résolution rigide d’un problème unique à l’adaptation à n’importe quel problème.

Ainsi, les Dynamic Workflows ne sont pas un « dialogue unique plus intelligent », mais une structuration du processus de recherche lui-même.

Je devais initialement mener une dizaine de conversations indépendantes pour ma recherche, maintenant réduit à 3 à 4. Bien que la consommation de tokens correspondante ait augmenté de plusieurs dizaines de fois.

Pourquoi faut-il encore 3 à 4 itérations ? Je pense que la cause racine réside dans les différences entre ces exigences.

La première chose est la rigueur du mécanisme de vérification ; je me concentre principalement sur l'étude de nouvelles technologies sur la blockchain. Beaucoup de choses sont décrites de manière retardée dans la documentation officielle, tandis que des codes open source, des transactions sur chaîne et d'autres données offrent des références plus pertinentes. Actuellement, l'IA continue de privilégier la documentation officielle plutôt que la vérification factuelle.

Le deuxième point est une réflexion approfondie entièrement transversale ; bien que certains aspects puissent être résolus grâce à des flux de travail prédéfinis (pré-définissant divers sous-agents selon plusieurs dimensions) pour analyser la même question, l'IA reste plus à l'aise avec les modèles de réflexion dominants et montre une certaine insuffisance face à des idées extrêmement nouvelles, profondes et dépourvues de données probantes.

Troisièmement, la conception et la validation de la solution ; l'importance d'une solution ne réside pas dans sa proposition, mais dans sa validation et son soutien. Elle repose sur l'évaluation des mécanismes existants, des investissements et des coûts. Bien qu'un bon réglage de l'IA puisse permettre de mieux performer, cela contredit la notion de généralité.

Enfin, une concentration extrême d'informations, ce qui nécessite de bien comprendre le niveau de connaissance du public : certains n'ont aucune base et ont besoin d'une présentation anthropomorphisée, tandis que d'autres ont besoin d'une seule phrase pour être convaincus~.