Cara Menggunakan Dynamic Workflows Claude untuk Riset Mendalam

Selama tiga tahun ini, saya sudah tidak bisa lepas dari menggunakan AI untuk membantu penelitian industri, bahkan telah membangun serangkaian keterampilan dan sistem pendukung untuk menyelesaikan penyaringan, pengelompokan, penghubungan, verifikasi, dan penyimpanan informasi.

Setelah secara mendalam mengalami alur kerja dinamis Claude Code hingga minggu ini, baru saya memahami makna sebenarnya dari kalimat "Jangan berlawanan dengan zaman besar."

Pertimbangkan lagi: apa yang seharusnya menjadi penelitian mendalam yang harus dilakukan manusia di era AI, dan bagaimana membangun hubungan kolaboratif serta saling melengkapi antara saya dan AI.

Satu, mulai dari jebakan riset

Melakukan riset teknis sebenarnya penuh jebakan (baik untuk manusia maupun AI), karena sejak awal riset, Anda akan menerima sejumlah besar informasi, semakin banyak opini informasi, semakin kabur kesimpulannya. Oleh karena itu, selalu ingat untuk kembali ke tujuan utama.

Ini juga selalu menjadi kelemahan AI, karena dari sudut pandang perhatian dan asosiasi, ia akan lebih terjebak dalam jumlah informasi saat ini dan lemah dalam asosiasi lintas bidang yang benar-benar bernilai.

Tentu, keunggulan AI terletak pada eksekusinya, yang dapat mencari, mengelompokkan, dan merangkum secara bertingkat dalam bentuk agen, sepenuhnya menghindari kehilangan detail.

Meskipun saya tidak banyak mempublikasikan artikel di platform publikasi selama enam bulan terakhir, saya secara komprehensif memantau dan meneliti hampir semua medan utama di industri ini, dan yang mendukung masukan dan keluaran ini adalah sistem deep-research saya sendiri.

Sementara itu, menghadapi peluncuran fitur Dynamic Workflows di Claude Code minggu lalu, saya ingin saling beradu untuk melihat apakah kemampuan defaultnya bisa sepenuhnya mengungguli saya sendiri.

Apa itu Dynamic Workflows

Dynamic Workflows (dinamis) ide intinya adalah: sebelum menjalankan tugas, AI secara otomatis merancang alur kerja apa yang harus digunakan untuk menyelesaikan tugas tersebut, lalu memulai eksekusi.

Ini berbeda secara mendasar dari "mode perencanaan" dan "skill" yang pernah kita gunakan sebelumnya. Mode perencanaan memecah tugas menjadi bagian-bagian yang lebih kecil, tetapi tidak selalu sesuai dengan alur kerja yang logis; indikator penerimaan baru akan ditambahkan tergantung pada pengaturan prompt Anda (ini sangat penting untuk Research), demikian pula, hanya ketika ada prompt, ia akan lebih baik dalam menetapkan aturan harness tertentu.

Namun, alur kerja dinamis akan secara otomatis menggabungkan logika penerimaan, konvergensi hasil, dan verifikasi adversarial.

Cara memicunya sangat sederhana, langsung gunakan /deep-research di cc, lalu sediakan beberapa template riset dan bahan masukan. Jika ingin menggunakan kemampuan alur kerja dinamis secara terpisah, gunakan prompt atau langsung katakan ultracode. Perhatikan sebelum menggunakannya, konsumsi token sekitar puluhan kali lebih banyak dari biasanya.

Tiga, enam mode alur kerja bawaan

Di dasar alur kerja dinamis, terdapat enam pola penjadwalan inti yang dirangkum oleh pihak resmi, inilah mengapa ia lebih kuat daripada percakapan/agent/skill biasa.

Sebenarnya, di balik keenam mode ini hanya ada dua masalah inti: bagaimana membagi tugas? dan bagaimana menggabungkan hasilnya? Memisahkan keenam mode ini pada dasarnya adalah kombinasi dari keduanya.

3.1 Mode Routing (Classify-And-Act)

Sebuah agen pertama-tama mengidentifikasi jenis tugas, lalu mengarahkan tugas tersebut ke agen spesialis yang paling cocok. Logika intinya adalah pemilihan rute, bukan paralelisme atau iterasi. Satu tugas hanya mengikuti satu jalur, dan jalur lainnya sama sekali tidak dieksekusi.

Gambar

Misalnya, saya bisa memiliki tiga peran subagent pra-aturan: agent analisis yang secara ketat memverifikasi data, agent output yang ahli dalam menulis, dan agent tantangan yang khusus mencari celah. Lapisan routing akan menentukan sub-tugas saat ini cocok untuk diberikan kepada siapa, bukan membebani satu agent dengan semua tugas.

Nilai dari pola ini terletak pada: keakuratan dan hemat, setiap prompt agen dapat sepenuhnya independen, tidak terganggu oleh tujuan lain, membentuk eksplorasi dengan kedalaman vertikal. Konsumsi token paling rendah, kecepatan respons paling cepat. Batasan tanggung jawab sangat jelas.

Kekurangannya juga jelas, yaitu kemampuan yang lemah dalam menangani tugas-tugas dengan batas kabur (misalnya, "baik masalah teknis maupun masalah akun").

3.2 Split and Merge

Ini juga pola yang paling sering saya gunakan, logika intinya adalah paralel + penggabungan. Tugas dibagi menjadi N tugas sub independen yang dijalankan secara bersamaan, lalu digabungkan secara terpusat setelah semuanya selesai.

Gambar

Keunggulannya terletak pada kecepatan dan isolasi. Waktu total kira-kira sama dengan tugas anak paling lambat, bukan jumlah semua tugas anak. Setiap tugas anak memiliki context terpisah, saling tidak mengganggu, dan tidak terkontaminasi oleh noise dari tugas anak lain.

Kelemahannya adalah biaya token bersifat serial sebesar N kali lipat, dan lapisan sintesis (Synthesize) sendiri juga sulit—menggabungkan output dengan struktur N jalur yang tidak konsisten merupakan tantangan desain. Pembagian tugas sub yang buruk dapat menyebabkan pengabaian atau cakupan berulang.

3.3 Verifikasi Adversarial

Logika intinya adalah pemeriksaan, di mana untuk kesimpulan yang sama, beberapa agen menantang dari sudut pandang "penolakan", dan baru dianggap lulus jika memperoleh suara mayoritas.

Gambar

Keunggulannya terletak pada fakta bahwa Verifier tidak mengetahui pemikiran Worker, hanya melihat hasilnya, sehingga secara struktural menghilangkan bias penilaian diri yang muncul saat "meminta model memeriksa kode yang ditulisnya sendiri".

Pola ini menyelesaikan masalah yang telah lama mengganggu saya: kami sering berbicara dengan AI secara santai, tetapi AI cenderung menjawab sesuai harapan Anda, sehingga mudah menimbulkan "bias konfirmasi". Dengan verifikasi adversarial, AI dipaksa untuk mencari contoh kontra, memverifikasi berdasarkan data dan eksperimen, bukan sekadar menyesuaikan dengan ide Anda.

Namun, untuk memverifikasi hal ini, jika ia memberikan penilaian yang salah, maka akan menyesatkan Worker agar menyesuaikan diri dengan Verifier. Oleh karena itu, lebih disarankan untuk berdasarkan fakta yang dapat direproduksi, bukan bergantung pada pendapat.

Bercanda saja, jika Anda meminta AI untuk mencari masalah, ia bisa terus-menerus menemukan masalah tanpa henti, jadi Anda harus membatasi batasan pencarian masalahnya.

3.4 Generate & Filter

Logika intinya adalah divergen lalu konvergen. Pertama, secara sengaja menghasilkan terlalu banyak kandidat, lalu menyaringnya menggunakan rubrik hingga tersisa yang terbaik, hanya menyisakan hasil dengan tingkat kepercayaan tinggi untuk dikeluarkan.

Gambar

Lebih baik meminta agen menghasilkan sepuluh jawaban, lalu menyaringnya dengan lapisan verifikasi, daripada menerima satu jawaban yang hanya "cukup baik". Keunggulannya terletak pada keragaman. Beberapa Generator dapat menggunakan strategi dan petunjuk berbeda untuk menghasilkan solusi yang sulit diprediksi manusia, sementara langkah penyaringan memastikan kualitas output akhir sangat terfokus.

Kelemahannya adalah, kualitas rubrik Filter secara langsung menentukan hasil akhir; kesalahan dalam desain rubrik sama saja dengan membuat seluruh proses gagal.

Skenario yang cocok adalah ketika jawaban yang benar tidak diketahui sebelumnya, perlu memilih yang terbaik dari beberapa kemungkinan, dan memiliki kebutuhan jelas terhadap keragaman.

Hanya tampak serupa dengan Fanout-And-Synthesize: keduanya adalah "paralel multi-path → output tunggal", paling mudah disamakan.

Perbedaan utama terletak pada niatnya: Setiap cabang Fanout menangani bagian berbeda dari tugas, hasilnya saling melengkapi, dan saat digabungkan, semua cabang memberikan kontribusi; setiap cabang Generate-And-Filter menangani tugas yang sama, hasilnya bersaing, dan saat digabungkan, sebagian besar akan dibuang. Yang pertama adalah "teka-teki", yang kedua adalah "kontes kecantikan".

3.5 Mode Turnamen

Logika intinya adalah kompetisi dan eliminasi. N agen masing-masing secara independen melakukan hal yang sama, melalui perbandingan berpasangan secara bertahap, hingga akhirnya memilih solusi terbaik.

Gambar

Saya dulu pernah melakukannya secara manual—menjalankan dua atau tiga versi perubahan kode yang sama, lalu meminta AI membandingkan mana yang lebih baik. Sekarang bisa langsung diintegrasikan ke dalam alur kerja.

Keunggulannya terletak pada penilaian stabilitas. Perbandingan berpasangan ("Mana yang lebih baik, A atau B?") jauh lebih stabil daripada penilaian absolut ("Berikan skor untuk A"), karena menghilangkan masalah pergeseran standar penilaian. Hasilnya melalui beberapa putaran kompetisi, sehingga kepercayaan terhadap pemenang akhir sangat tinggi.

Juga mirip secara permukaan dengan Generate-And-Filter: keduanya memilih yang terbaik dari beberapa kandidat. Perbedaan utama terletak pada mekanisme pemilihan: Tournament menggunakan penilaian berpasangan untuk membandingkan dua kandidat sekaligus, yaitu "membiarkan kandidat bersaing satu sama lain". Ini lebih andal ketika rubrik sulit diukur dan penilaian pada dasarnya bersifat relatif.

3.6 Mode Loop

Logika intinya adalah iterasi adaptif, terus mencoba, saat menghadapi hambatan, kumpulkan informasi kesalahan, tambahkan konteks, dan coba lagi hingga memenuhi syarat penerimaan.

Gambar

Pada dasarnya ini melawan keacakan AI: coba beberapa kali, pasti akan mendapatkan hasil yang lebih baik. Namun, pendekatan yang lebih matang adalah menggabungkan verifikasi adversarial, sehingga setiap siklus dilakukan dengan informasi yang lebih banyak, bukan hanya mengandalkan keacakan.

Keunggulannya terletak pada kemampuan menangani tugas dengan jumlah kerja yang tidak diketahui. Kelima mode lainnya mengasumsikan batas tugas sudah pasti, sedangkan Loop Until Done adalah satu-satunya mode yang dapat menangani "tidak tahu harus melakukan berapa putaran".

Kelemahan adalah risiko kehilangan kendali potensial—desain kondisi berhenti yang buruk dapat menyebabkan siklus tak terbatas. Setiap siklus agent adalah context baru, tidak dapat mengakumulasi status lintas-siklus (kecuali ditulis secara eksplisit ke file).

Empat, Pertarungan antara keterampilan saya sendiri dan alur kerja resmi

Sebelum alur kerja dinamis dirilis, saya secara khusus merancang一套 deep-research saya sendiri. Logika keterampilan saya itu kira-kira seperti ini:

Hanya berikan informasi sederhana (misalnya, proyek tertentu meluncurkan fitur baru)
Biarkan AI mencari semua informasi terkait: dokumen resmi, kode sumber, opini pasar
Ringkas informasi menjadi ringkasan yang bermakna
Beberapa peran agen melakukan analisis adversarial, menghasilkan laporan
Penghapusan otomatis karena tingkat pengulangan konten agen ganda sangat tinggi

Sudah digunakan untuk beberapa waktu, saya merasa cukup mudah digunakan. Namun, ia memiliki kelemahan mendasar: kurangnya konvergensi berorientasi tujuan.

Dan sering kali, meskipun ada langkah kelima untuk penghapusan duplikasi, ia sering menghapus informasi yang berharga; jika tidak dilakukan penghapusan duplikasi, skill akan memberi Anda artikel panjang sepuluh ribu kata dengan informasi lengkap, tetapi tidak secara langsung memberi tahu Anda "hubungan apa yang dimiliki hal ini dengan Anda dan apa yang seharusnya Anda lakukan".

Namun, penelitian dilakukan untuk mendukung "pengambilan keputusan", itulah sebabnya banyak keterampilan hanya berhenti pada tahap penelitian saja, mendapat 80 poin, tetapi kekurangan 20 poin paling krusial.

Sehingga AI setelah menyelesaikan penelitian awal, masih perlu melanjutkan sepuluh kali pemikiran dan dialog untuk mencapai kesimpulan yang memadai dan komprehensif.

Apa yang lebih dilakukan oleh alur kerja dinamis resmi

Melalui eksperimen dengan beberapa tugas riset kompleks minggu ini, saya menemukan bahwa alur kerja deep research yang tersemat di Claude Code (perhatikan, bukan hanya skill, tetapi modul yang dikompilasi dan tertanam di dalam cc), dibandingkan dengan skill saya sendiri, menambahkan beberapa tahap kunci:

Lapisan pemecahan pertanyaan: Ini tidak langsung memulai pencarian, tetapi terlebih dahulu mengajukan pertanyaan, memecah pertanyaan saya menjadi beberapa sub-pertanyaan: Apa yang sebenarnya ingin Anda pahami? Bagaimana hal ini terkait dengan Anda? Dimensi mana yang layak diteliti lebih dalam? Langkah ini sebelumnya saya lewati.
Assessment of credibility: Evaluate each piece of information for falsifiability, similar to the authority score in traditional SEO—how credible is the source? How many citations does it have? This is a step I hadn’t thought to include before.
Cross-delete instead of averaging: Previously, I averaged all conclusions, resulting in large documents. The dynamic workflow performs multi-agent voting on each conclusion and removes those with insufficient votes, rather than simply merging them.
Output yang berorientasi tujuan: laporan akhir bukan sekadar tumpukan informasi, melainkan memberikan penilaian dan rekomendasi solusi berdasarkan tujuan awal Anda. Kunci untuk mencapai hal ini adalah memanfaatkan kemampuan bawaan dari banyak sub-agent. Sebelumnya, skill saya mudah kehilangan orientasi tujuan akhir karena penurunan bobot instruksi setelah menghadapi sejumlah besar informasi.

Masalah apa yang diatasi oleh mekanisme ini?

Ini secara khusus menargetkan beberapa masalah khas AI dalam menyelesaikan tugas panjang:

Target drift: Awalnya kondisi tugas baik, tapi di tengah jalan menjadi tidak jelas apa yang sedang dilakukan, lalu di akhir kembali menemukan ritme—mirip dengan manusia yang kehilangan fokus saat belajar. Semakin panjang tugas, semakin jelas terlihat.

Berhenti terlalu dini: Saat berlari dan menghadapi kesulitan, AI menganggap dirinya "selesai" dan berhenti, padahal standar penerimaan sama sekali belum terpenuhi.

Context pollution: When a single agent performs complex tasks, a large number of preceding prompts compress the execution space for subsequent steps. A better approach is to limit preceding prompts to a few KB and distribute context across multiple agents.

Output bias: AI tends to follow your expectations in its responses; conversational questions are more likely to trigger this issue.

Sedangkan alur kerja dinamis menyelesaikan keempat masalah ini dengan cara terstruktur: otomatis menambahkan metrik penerimaan untuk mencegah penghentian dini; konteks paralel yang terisolasi; mengatasi validasi yang meniadakan bias output; memecah masalah dengan batasan bertahap agar AI memahami tujuan terlebih dahulu sebelum bertindak.

V. Ringkasan

Akhirnya, sebagai seorang peneliti yang telah lama menekuni bidang ini, saya terkesan dengan mekanisme baru CC ini; enam mode bawaannya—pemilihan rute, pemisahan dan penggabungan, verifikasi adversarial, generasi dan penyaringan, kompetisi turnamen, dan loop—menutupi kebutuhan penjadwalan untuk sebagian besar tugas penelitian kompleks.

Saya tidak perlu lagi merancang penjadwalan agent secara manual, tidak perlu lagi melakukan deduplikasi dan validasi silang sendiri, semuanya sudah diintegrasikan ke dalam alur kerja.

Dan ia sangat cocok untuk berpikir dalam konteks penyelidikan pertanyaan terbuka dengan informasi terbatas, karena penjadwalan multi-agent alami ditambah pemecahan tujuan tugas meningkatkan fleksibilitasnya lagi. Sebenarnya, sejak tiga tahun lalu, AI sudah sangat baik dalam menyelesaikan masalah kecil yang sangat jelas dengan berbagai batasan, tetapi perubahan mendasar pada AI sejati terletak pada fleksibilitasnya—ini lah yang membedakannya dari pesaingnya, berubah dari sekadar kode sederhana menjadi Agent sejati, dari menyelesaikan satu masalah secara statis menjadi mampu beradaptasi dengan segala jenis masalah.

Jadi, Dynamic Workflows bukanlah "percakapan tunggal yang lebih cerdas", melainkan membangun struktur proses penelitian itu sendiri.

Awalnya saya perlu melakukan survei melalui selusin percakapan terpisah, sekarang dipadatkan menjadi 3-4 kali. Meskipun konsumsi Token yang terkait meningkat puluhan kali lipat.

Lalu mengapa masih memerlukan 3-4 kali lagi? Saya merasa akar masalahnya terletak pada perbedaan kebutuhan ini.

Pertama adalah ketatnya mekanisme verifikasi; saya terutama meneliti teknologi baru di blockchain, di mana banyak hal, dokumen resmi sering tertinggal, dan ada kode sumber terbuka, transaksi di rantai, dan data lainnya yang lebih layak dijadikan acuan, namun saat ini AI secara default tetap mengutamakan dokumen resmi daripada verifikasi berbasis fakta.

Kedua adalah pemikiran mendalam yang benar-benar lintas bidang; meskipun beberapa hal ini dapat diatasi melalui preset alur kerja (mendefinisikan berbagai subAgent dimensi) untuk memikirkan masalah yang sama, AI tetap lebih unggul dalam model pemikiran utama, dan agak kurang mampu dalam hal yang sangat baru, sangat mendalam, dan kurang didukung oleh data.

Ketiga adalah desain dan verifikasi solusi, makna solusi bukan pada penciptaannya, tetapi pada verifikasi dan dukungannya, yang bergantung pada pengukuran terhadap mekanisme, investasi, dan biaya yang ada. Jika AI dapat dilatih dengan baik, tentu bisa mencapai hasil yang lebih baik, namun hal ini bertentangan dengan sifat universalitas.

Terakhir adalah konsentrasi informasi yang ekstrem, yang memerlukan pemahaman mendalam tentang audiens informasi tersebut—ada yang sama sekali tidak memiliki latar belakang dan membutuhkan penyampaian yang bersifat personifikasi, sementara ada pula pendengar yang hanya perlu satu kalimat untuk terkesan~.