Como usar os Fluxos de Trabalho Dinâmicos do Claude para Pesquisa Profunda

Ao longo desses três anos, já não consigo mais viver sem usar IA para auxiliar na pesquisa do setor, e para isso criei uma série de habilidades e sistemas de suporte para resolver a seleção, síntese, conexão, validação e armazenamento de informações.

Só após experimentar profundamente o fluxo de trabalho dinâmico do Claude Code esta semana, compreendi o verdadeiro significado da frase: "Não se opõe à grande era."

Pense novamente: o que é uma pesquisa profunda que as pessoas devem realizar na era da IA, e como construir uma relação de colaboração e complementaridade entre mim e a IA.

I. Começando com as armadilhas da pesquisa

Fazer pesquisa técnica é realmente algo cheio de armadilhas (tanto para humanos quanto para IA), pois desde o início da pesquisa, recebemos uma grande quantidade de informações, as opiniões se multiplicam e as conclusões ficam cada vez mais nebulosas. Portanto, é essencial sempre retornar ao objetivo original.

Essa também tem sido, desde sempre, a fraqueza da IA: do ponto de vista da atenção e da associação, ela fica mais presa à quantidade de informações atual e possui associações interdisciplinares verdadeiramente valiosas muito fracas.

Where AI excels is in its execution, as it can systematically search, organize, and summarize in layers, completely avoiding the loss of details.

Embora eu não tenha publicado muito no nosso公众号 nos últimos seis meses, tenho acompanhado e estudado abrangentemente todos os principais campos do setor, e esse fluxo de entrada e saída é sustentado por um sistema próprio de pesquisa aprofundada.

Enquanto enfrento o lançamento da funcionalidade Dynamic Workflows no Claude Code na semana passada, quero fazer um desafio mútuo para ver se sua capacidade padrão pode superar totalmente a minha.

O que são Dynamic Workflows?

Dynamic Workflows (fluxos de trabalho dinâmicos) sua ideia central é: antes de executar uma tarefa, a IA projeta automaticamente qual fluxo de trabalho deve ser usado para concluí-la, e então inicia a execução.

Isso é fundamentalmente diferente do "modo de planejamento" e da "habilidade" que usávamos antes. O modo de planejamento divide as tarefas em partes mais detalhadas, mas nem sempre se alinha a um fluxo de trabalho razoável; apenas com o arranjo dos seus prompts é que é possível adicionar métricas de aceitação (isso é crucial para a Pesquisa). Da mesma forma, apenas com prompts você poderá fazer com que ele preveja melhor algumas regras de harness.

Mas o fluxo de trabalho dinâmico integrará automaticamente lógica de aceitação, convergência de resultados e validação adversarial.

A forma de acionamento é simples: basta usar /deep-research diretamente no cc e fornecer alguns modelos de pesquisa e materiais de entrada. Se desejar usar separadamente a capacidade de fluxo de trabalho dinâmico, use o prompt ou diga diretamente ultracode. Antes de usar, observe que o consumo de tokens é aproximadamente dezenas de vezes maior que o normal.

Três: Seis modos de fluxo de trabalho integrados

Por trás do fluxo de trabalho dinâmico estão seis modelos de agendamento principais resumidos pela equipe oficial, o que explica por que ele é mais poderoso do que conversas/agentes/habilidades comuns.

Na verdade, por trás desses seis modos existem apenas duas questões centrais: como dividir a tarefa? E como integrar o resultado? Separar em seis modos é essencialmente uma combinação desses dois aspectos.

3.1 Modo de roteamento (Classify-And-Act)

Primeiro, um agente identifica o tipo de tarefa, depois encaminha a tarefa para o agente especializado mais adequado para executá-la. A lógica central é a escolha de roteamento, e não paralelismo ou iteração. Uma tarefa segue apenas um caminho, e todos os outros caminhos não são executados.

Imagem

Por exemplo, posso começar com três papéis de subagentes pré-definidos: um agente de análise que verifica dados rigorosamente, um agente de saída especializado em redação e um agente de desafio focado em encontrar vulnerabilidades. A camada de roteamento determina qual sub-tarefa deve ser atribuída a quem, em vez de deixar um único agente lidar com tudo.

O valor desse modelo está na precisão e economia: os prompts de cada agente podem ser altamente independentes, sem serem interferidos por outros objetivos, formando uma exploração com profundidade vertical. O consumo de tokens é mínimo e a velocidade de resposta é a mais rápida. Os limites de responsabilidade são muito claros.

As desvantagens também são significativas, com baixa capacidade de lidar com tarefas de fronteira ambígua (por exemplo, "ao mesmo tempo um problema técnico e um problema de conta").

3.2 Split and Merge

Também é o modelo que mais uso; a lógica central é paralelismo + fusão. Divido a tarefa em N sub-tarefas independentes que são executadas simultaneamente e, após todas serem concluídas, faço a fusão unificada.

Imagem

A vantagem está na velocidade e no isolamento. O tempo total é aproximadamente igual ao da tarefa filha mais lenta, e não à soma de todas as tarefas filhas. Cada tarefa filha possui um contexto independente, não interferindo umas nas outras e não sendo afetadas pelo ruído de nenhuma outra tarefa.

A fraqueza é que o custo do token é N vezes serial, e a camada de síntese também apresenta dificuldades — como fundir saídas com estruturas não consistentes em N vias é um desafio de design. Uma divisão inadequada das subtarefas pode levar à omissão ou cobertura repetida.

3.3 Verificação Adversária

A lógica central é verificar, para a mesma conclusão, permitir que vários agentes desafiem sob o ponto de vista da refutação; apenas passa se houver maioria dos votos.

Imagem

A vantagem é que, como o Verifier não conhece o raciocínio do Worker, apenas avalia o resultado, elimina-se estruturalmente o viés de autoavaliação presente ao fazer o modelo verificar seu próprio código.

Este modelo resolveu um problema que me preocupava há muito tempo: frequentemente conversamos com a IA de forma coloquial, mas a IA tende a responder de acordo com suas expectativas, facilitando o viés de confirmação. A verificação adversária força a IA a buscar contraexemplos e validar com base em dados e experimentos, em vez de agradar suas ideias.

No entanto, ao verificar esse fato, se ele fizer um julgamento incorreto, poderá desviar o Worker para atender ao Verifier. Portanto, é preferível basear-se em fatos reproduzíveis, e não em opiniões.

Dizendo isso brincando, se você pedir a uma IA para encontrar problemas, ela poderá encontrar problemas infinitamente, então você precisa limitar o escopo em que ela busca problemas.

3.4 Gerar e filtrar

A lógica central é divergir e depois convergir. Primeiro, gere intencionalmente uma quantidade excessiva de candidatos, depois use um critério para eliminar até reter apenas os elementos essenciais, mantendo apenas os resultados com alta confiança para saída.

Imagem

Em vez de deixar um agente gerar uma resposta "aceitável", é melhor gerar dez e depois filtrá-las com uma camada de validação. A vantagem está na diversidade. Múltiplos geradores podem usar estratégias diferentes e prompts distintos para produzir soluções que seriam difíceis de prever manualmente, e o passo de filtragem concentra a qualidade da saída final.

A fraqueza é que a qualidade do rubric do Filter determina diretamente o resultado final; um erro no design do rubric equivale a todo o processo sendo descartado.

Cenários adequados incluem situações em que a resposta correta não é conhecida antecipadamente, é necessário escolher o melhor entre várias opções possíveis e há uma necessidade clara de diversidade.

Apenas superficialmente semelhante ao Fanout-And-Synthesize: ambos são "múltiplas entradas em paralelo → saída única", os mais fáceis de confundir.

A diferença chave está na intenção: cada ramo do Fanout trata uma parte diferente da tarefa, e os resultados são complementares — todas as ramificações contribuem ao serem combinadas; cada ramo do Generate-And-Filter trata a mesma tarefa, e os resultados são competitivos — a maioria é descartada ao serem combinados. O primeiro é um "quebra-cabeça", o segundo é um "concurso de beleza".

3.5 Modo Torneio (Tournament)

A lógica central é a competição e eliminação. N agentes realizam independentemente a mesma tarefa, sendo eliminados progressivamente por comparação em pares, até que a melhor solução seja selecionada.

Imagem

Eu já fiz isso manualmente antes — executar duas ou três versões da mesma alteração de código e depois pedir ao AI para comparar qual é melhor. Agora posso integrar diretamente no fluxo de trabalho.

A vantagem está na avaliação de estabilidade. Comparações em pares ("Qual é melhor, A ou B?") são muito mais estáveis do que avaliações absolutas ("Dê uma nota para A"), pois eliminam o problema de deslocamento dos critérios de avaliação. Os resultados, após várias rodadas de competição, apresentam alta confiabilidade ao vencedor.

Também é superficialmente semelhante ao Generate-And-Filter: ambos selecionam os melhores entre múltiplos candidatos. A diferença chave está no mecanismo de seleção: o Tournament usa julgamentos em pares para comparar candidatos dois a dois, ou seja, "deixa os candidatos competirem entre si". É mais confiável quando os critérios são difíceis de quantificar e a avaliação é intrinsicamente relativa.

3.6 Modo de loop

A lógica central é iteração adaptativa, tentar continuamente, ao encontrar resistência, coletar informações de erro, complementar o contexto e tentar novamente até atender aos critérios de aceitação.

Imagem

Essencialmente, trata-se de combater a aleatoriedade da IA: tente várias vezes, e eventualmente alcançará um resultado melhor. Mas uma abordagem mais madura é combinar validação adversária, permitindo que cada iteração seja executada com mais informações, em vez de depender apenas da aleatoriedade.

A vantagem está na capacidade de lidar com tarefas cujo esforço é desconhecido. As outras cinco modalidades assumem que os limites da tarefa são determinados; Loop Until Done é a única modalidade capaz de lidar com "não saber quantas rodadas precisam ser feitas".

A fraqueza é o risco potencial de perda de controle — um design inadequado das condições de parada pode causar um loop infinito. Cada rodada do agente é um contexto novo, incapaz de acumular estado entre rodadas (a menos que explicitamente gravado em arquivo).

Quatro: A batalha entre minhas próprias habilidades e o fluxo de trabalho oficial

Antes do fluxo de trabalho dinâmico ser lançado, eu projetei minha própria abordagem de deep-research. A lógica da minha habilidade era mais ou menos assim:

Apenas uma informação simples (por exemplo, um projeto lançou uma nova funcionalidade).
Faça a IA pesquisar todos os materiais relacionados: documentação oficial, código-fonte, opinião do mercado
Compactar as informações em um resumo significativo
Vários papéis de agentes realizam análise de confronto e geram relatório
Deduplicação automática, pois a taxa de repetição do conteúdo dos múltiplos agentes é muito alta

Usei por algum tempo e acho que é bem fácil de usar. Mas tem um defeito fundamental: falta convergência orientada por objetivos.

E muitas vezes, mesmo com a deduplicação no passo cinco, ele frequentemente exclui informações valiosas; se não fizer deduplicação, o skill pode te entregar um artigo de dez mil palavras, com todas as informações, mas sem te dizer diretamente: "Qual é a relevância disso para você? O que você deve fazer?"

No entanto, a pesquisa é feita para servir à "tomada de decisão", o que explica por que muitas habilidades permanecem limitadas à própria pesquisa, alcançando 80 pontos, mas faltando os 20 pontos mais cruciais.

Por isso, após concluir a pesquisa inicial, a IA ainda precisa realizar mais dez etapas de reflexão e diálogo para alcançar uma conclusão satisfatória e abrangente.

O que o fluxo de trabalho das atualizações oficiais fez a mais

Através de experimentos com várias tarefas de pesquisa complexas desta semana, descobri que o fluxo de pesquisa aprofundada integrado ao Claude Code (note que não é apenas uma habilidade, mas um módulo compilado e incorporado ao cc) adiciona várias etapas-chave em comparação com as minhas próprias habilidades:

Camada de decomposição da pergunta: Em vez de começar a pesquisar diretamente, ele primeiro faz perguntas, dividindo minha pergunta em várias subperguntas: O que você realmente quer entender? Como isso se relaciona com você? Quais dimensões merecem ser exploradas mais aprofundadamente? Antes, eu pulava esse passo.
Avaliação de credibilidade: Avalie a falsificabilidade de cada informação, semelhante à pontuação de autoridade no SEO tradicional — a fonte é confiável? Quantas vezes foi citada? Este é um passo que eu nunca pensei em adicionar antes.
Eliminação cruzada em vez de fusão média: Anteriormente, eu selecionava uniformemente todas as conclusões, resultando em documentos muito grandes. O fluxo de trabalho dinâmico realiza votação múltipla entre agentes para cada conclusão e remove aquelas com poucos votos, em vez de simplesmente fundi-las.
A saída orientada por objetivos: o relatório final não é um acúmulo de informações, mas sim um julgamento e propostas de solução baseados no seu objetivo original. A chave para alcançar isso reside na capacidade pré-definida de coordenar múltiplos subagentes. Anteriormente, minhas habilidades frequentemente careciam de orientação para o objetivo final porque, após a exposição a uma grande quantidade de informações, o peso das instruções diminuía.

What problems do these mechanisms solve?

Refere-se aos principais problemas típicos da IA ao realizar tarefas longas:

Desvio de objetivo: o estado inicial é bom, mas no meio já não se sabe o que está sendo feito, e no final recupera-se o ritmo — semelhante a alguém que se distrai durante uma aula. Quanto mais longa a tarefa, mais evidente se torna.

Parada prematura: ao correr e encontrar dificuldades, a IA acredita que "concluiu" e para, mas na verdade os critérios de aceitação nem foram atendidos.

Poluição de contexto: realizar tarefas complexas com um único agente comprime o espaço de execução subsequente devido a grandes prompts anteriores. Uma abordagem melhor é limitar os prompts iniciais a poucos KB e distribuir a carga de contexto entre múltiplos agentes.

O modelo tende a responder de acordo com suas expectativas; perguntas mais informais são mais propensas a desencadear esse comportamento.

O fluxo de trabalho dinâmico resolve essas quatro questões de forma estruturada: automatiza métricas de validação para evitar paradas prematuras; isola contextos em paralelo; combate viés de saída por validação contrária; e decompõe problemas com restrições progressivas, forçando a IA a compreender o objetivo antes de agir.

V. Resumo

Por fim, como pesquisador de longa data, fiquei impressionado com o novo mecanismo CC, cujos seis modos integrados — seleção de rota, divisão e fusão, verificação adversária, geração e filtragem, competição por torneio e loop — cobrem as necessidades de agendamento da maioria das tarefas de pesquisa complexas.

Agora não preciso mais projetar manualmente o agendamento de agentes nem realizar deduplicação e validação cruzada por conta própria — tudo isso já está incorporado ao fluxo de trabalho.

E ele é particularmente adequado para pensar em investigações com pouca informação e questões abertas, pois o agendamento natural multiagente e a divisão de objetivos de tarefa elevam ainda mais sua generalidade. Na verdade, já há três anos, a IA estava muito boa em resolver pequenos problemas muito claros sob restrições hierárquicas, mas a verdadeira mudança qualitativa da IA reside na generalidade — esse é o ponto em que seus concorrentes passaram de simples códigos a verdadeiros Agentes, de resolver um problema fixo a adaptar-se a qualquer problema.

Portanto, os Dynamic Workflows não são uma "conversa única mais inteligente", mas sim a estruturação do próprio processo de pesquisa.

Antes, eu precisava realizar dez ou mais conversas independentes para a pesquisa; agora, foi reduzido para 3-4. Embora o consumo de tokens correspondente tenha aumentado em dezenas de vezes.

Por que ainda são necessárias 3 a 4 vezes? Acho que a causa raiz está na diferença dessas demandas.

Primeiro, a rigidez do mecanismo de verificação: eu me concentro principalmente na pesquisa de novas tecnologias na blockchain, e muitas vezes os documentos oficiais estão desatualizados, havendo códigos abertos, transações na cadeia e outros dados mais relevantes para referência. Atualmente, a IA ainda considera por padrão os documentos oficiais, e não a verificação baseada em fatos.

O segundo é o pensamento profundo totalmente transversal; embora isso possa resolver alguns aspectos por meio de fluxos de trabalho pré-definidos (pré-definindo vários subAgentes em diferentes dimensões) para refletir sobre a mesma questão, a IA ainda se destaca mais nos modelos de pensamento convencionais e apresenta certa limitação quando se trata de ideias extremamente novas, profundas e que carecem de base de dados.

O terceiro é o design e a validação da solução; o valor da solução não está em propô-la, mas em validá-la e apoiá-la, baseando-se na avaliação dos mecanismos, investimentos e custos existentes. Se a IA for bem treinada, é possível obter resultados ainda melhores, mas isso entra em conflito com a universalidade.

Por fim, há a concentração extrema de informações, o que exige compreensão do nível de conhecimento do público-alvo: alguns não têm nenhuma base, precisando de uma explicação com analogias humanas, enquanto outros exigem apenas uma frase para serem impactados~.