Cara Menggunakan Aliran Kerja Dinamik Claude untuk Penyelidikan Mendalam

Dalam tiga tahun ini, saya sudah tidak bisa lepas dari menggunakan AI untuk membantu penyelidikan industri, dan saya bahkan telah membina serangkaian kemahiran dan sistem bantuan untuk menyelesaikan pemilihan, penghimpunan, penghubungan, pengesahan, dan pengekalan maklumat.

Setelah mengalami secara mendalam alur kerja dinamik Claude Code minggu ini, baru saya memahami makna sebenarnya dari perkataan "Jangan bertentangan dengan zaman yang besar".

Fikir semula: Apakah kajian mendalam yang perlu dilakukan oleh manusia di era AI, dan bagaimana membina hubungan kerjasama dan saling melengkapi antara saya dengan AI.

Satu, bermula dengan perangkap penyelidikan

Melakukan penyelidikan teknikal sebenarnya penuh dengan perangkap (baik untuk manusia mahupun AI), kerana sejak permulaan penyelidikan, anda akan menerima sejumlah besar maklumat, pandangan semakin bertambah, dan kesimpulan menjadi semakin kabur. Oleh itu, sentiasa perlu tahu kembali kepada tujuan asal.

Ini juga selalu menjadi kelemahan AI, kerana dari segi perhatian dan asosiasi, ia akan lebih terbatas oleh jumlah maklumat semasa, dan lemah dalam asosiasi lintas bidang yang benar-benar bernilai.

Tentu, kelebihan AI ialah eksekusinya, yang akan mencari, mengumpulkan, dan merumuskan secara bertingkat dalam bentuk agen, sepenuhnya mengelakkan kehilangan butiran.

Walaupun saya tidak banyak mempublikasikan artikel di platform media sosial dalam enam bulan terakhir, saya secara menyeluruh memantau dan menyelidiki medan utama dalam industri ini, dan yang menjadi dasar input dan output ini adalah sistem deep-research saya sendiri.

Sementara itu, menghadapi pelancaran fungsi Dynamic Workflows pada Claude Code minggu lepas, saya ingin saling berlumba untuk melihat sama ada kemampuan lalunya boleh sepenuhnya mengatasi saya.

Apakah Dynamic Workflows

Dynamic Workflows (aliran kerja dinamik) idea utamanya ialah: sebelum melaksanakan tugas, AI akan secara automatik mereka aliran kerja yang sesuai untuk menyelesaikan tugas tersebut, sebelum memulakan pelaksanaan.

Ini berbeza secara mendasar dengan "modus perancangan" dan "skill" yang pernah kita gunakan sebelumnya. Modus perancangan memecah tugas menjadi bahagian yang lebih halus, tetapi tidak semestinya selari dengan alur kerja yang logik; hanya apabila anda menyusun petunjuk anda, anda mungkin menambahkan indikator penerimaan (yang sangat penting untuk Penyelidikan). Begitu juga, anda hanya akan dapat menetapkan beberapa peraturan harness yang lebih baik apabila terdapat petunjuk.

Namun, aliran kerja dinamik akan secara automatik menggabungkan logik pengesahan, konvergensi keputusan, dan pengesahan adversarial.

Cara memicu sangat mudah, terus gunakan /deep-research di cc dan sediakan beberapa templat penyelidikan serta bahan masukan, jika ingin menggunakan kemampuan aliran kerja dinamik secara berasingan, gunakan petunjuk atau katakan ultracode, perhatikan bahawa penggunaan token kira-kira puluhan kali ganda biasa.

Tiga: Enam mod alur kerja binaan

Di dasar alur kerja dinamik, terdapat enam pola penjadwalan inti yang dirangkum oleh pihak resmi, inilah mengapa ia lebih kuat daripada percakapan/agent/skill biasa.

Sebenarnya, di belakang keenam mod ini hanya ada dua masalah utama: bagaimana memecah tugas? Dan bagaimana menggabungkan hasil? Memisahkan keenam mod ini pada dasarnya adalah kombinasi dari kedua aspek ini.

3.1 Mod Pemilihan (Classify-And-Act)

Satu agen terlebih dahulu mengenal pasti jenis tugas, kemudian menghantar tugas tersebut kepada agen khusus yang paling sesuai. Logik utama ialah logik pemilihan laluan, bukan paralel atau berulang. Satu tugas hanya mengikuti satu laluan, dan laluan lain tidak dilaksanakan sama sekali.

Gambar

Sebagai contoh, saya boleh mula dengan tiga peranan subagent pra-tetap: seorang agen analisis yang memverifikasi data secara ketat, seorang agen output yang mahir dalam penulisan, dan seorang agen cabaran yang khusus mencari kelemahan. Lapisan penghalaan akan menentukan tugas sementara mana yang sesuai untuk dihantar kepada siapa, bukan membebankan semua tugas kepada satu agen.

Nilai model ini terletak pada ketepatan dan kehematan: petunjuk setiap agen boleh sangat bebas, tidak terganggu oleh objektif lain, membentuk eksplorasi mendalam secara vertikal. Penggunaan token paling rendah, kelajuan respons paling pantas. Sempadan tugas sangat jelas.

Kekurangannya juga jelas, dengan kemampuan yang lemah dalam menangani tugas-tugas dengan sempadan kabur (seperti "ia adalah masalah teknikal dan masalah akaun").

3.2 Pembahagian dan Penggabungan (Fan-out & Merge)

Ini juga adalah modus paling sering saya gunakan, logikanya adalah paralel + penggabungan. Tugas dibahagikan kepada N tugas anak yang berdiri sendiri dan dijalankan serentak, kemudian digabungkan secara seragam setelah semua selesai.

Gambar

Kelebihannya terletak pada kelajuan dan pengasingan. Jumlah masa yang digunakan kira-kira sama dengan tugas anak paling perlahan, bukan jumlah keseluruhan tugas anak. Setiap tugas anak mempunyai konteks tersendiri, tidak saling mengganggu, dan tidak terjejas oleh gangguan daripada tugas anak lain.

Kelemahan ialah kos token adalah N kali ganda secara berurutan, dan lapisan penyatuan (Synthesize) itu sendiri juga sukar—menggabungkan output dengan struktur N laluan yang tidak konsisten merupakan cabaran reka bentuk. Pembahagian tugas anak yang tidak baik boleh menyebabkan penghapusan atau penutupan berulang.

3.3 Pengesahan Adversarial

Logik utama ialah ujian, di mana untuk kesimpulan yang sama, beberapa agen akan mencabar dari sudut "penolakan", dan ia hanya diluluskan jika mendapat majoriti suara.

Gambar

Kelebihannya ialah, kerana Verifier tidak mengetahui pemikiran Worker, hanya melihat hasilnya, ia secara struktur menghilangkan bias penilaian diri semasa "meminta model memeriksa kod yang ditulisnya sendiri".

Pola ini menyelesaikan masalah yang telah lama mengganggu saya: kami sering berbual dengan AI secara santai, tetapi AI cenderung menjawab mengikutjangkaan anda, yang mudah menghasilkan "bias pengesahan". Dengan pengesahan kontrastif, AI dipaksa untuk mencari contoh bertentangan dan mengesahkan berdasarkan data dan eksperimen, bukan mematuhi idea anda.

Namun, untuk memverifikasi perkara ini, jika dia memberikan penilaian yang salah, ia akan menyesatkan Worker agar menyesuaikan diri dengan Verifier. Oleh itu, lebih baik berdasarkan fakta yang boleh diperoleh semula, bukan bergantung kepada pendapat.

Bercanda saja, jika anda meminta AI mencari masalah, ia boleh terus-menerus menemui masalah, jadi anda perlu membatasi lingkup pencarian masalahnya.

3.4 Hasil dan Penapisan (Generate & Filter)

Logik utama ialah penyebaran kemudian pengumpulan. Pertama, hasilkan secara sengaja terlalu banyak calon, kemudian gunakan rubrik untuk menyaring hingga mendapat intipati, hanya mengekalkan hasil dengan keyakinan tinggi untuk dikeluarkan.

Gambar

Lebih baik biarkan satu agen menghasilkan sepuluh jawapan, kemudian gunakan lapisan pengesahan untuk menyaringnya, daripada membiarkannya menghasilkan jawapan yang "cukup baik". Kelebihannya terletak pada kepelbagaian. Beberapa Generator boleh menggunakan strategi dan petunjuk yang berbeza untuk menghasilkan penyelesaian yang sukar diprediksi oleh manusia, sementara langkah penyaringan memastikan kualiti output akhir sangat tertumpu.

Kelemahannya ialah, kualiti rubrik Filter secara langsung menentukan kesan akhir; kesilapan dalam reka bentuk rubrik sama dengan membatalkan keseluruhan proses

Situasi yang sesuai adalah apabila jawapan yang betul tidak diketahui sebelumnya, perlu memilih yang terbaik daripada pelbagai kemungkinan, dan terdapat keperluan jelas terhadap kepelbagaian.

Hanya serupa secara lahiriah dengan Fanout-And-Synthesize: keduanya adalah "paralel banyak laluan → output tunggal", paling mudah disamakan.

Perbezaan utama terletak pada niat: Setiap cabang Fanout menangani bahagian berbeza tugas, dan hasilnya saling melengkapi, di mana semua cabang memberi sumbangan semasa penggabungan; setiap cabang Generate-And-Filter menangani tugas yang sama, dan hasilnya bersaing, di mana kebanyakannya akan dibuang semasa penggabungan. Yang pertama adalah "teka-teki", yang kedua adalah "pertandingan kecantikan".

3.5 Mod Pertandingan (Tournament)

Logik utama ialah persaingan dan penyingkiran. N buah agen masing-masing secara berasingan melakukan perkara yang sama, melalui perbandingan berpasangan dan penyingkiran berperingkat, akhirnya memilih penyelesaian terbaik.

Gambar

Saya pernah melakukan ini secara manual—menjalankan dua atau tiga versi perubahan kod yang sama, kemudian meminta AI membandingkan yang mana lebih baik. Sekarang boleh dimasukkan secara langsung ke dalam alur kerja.

Kelebihannya terletak pada penilaian kestabilan. Perbandingan berpasangan ("Mana yang lebih baik, A atau B?") jauh lebih stabil berbanding penilaian mutlak ("Berikan skor untuk A"), kerana mengelakkan masalah perubahan standard penilaian. Hasilnya melalui beberapa putaran persaingan, sehingga kepercayaan terhadap pemenang akhir tinggi.

Juga serupa secara lahiriah dengan Generate-And-Filter: kedua-duanya memilih yang terbaik daripada beberapa calon. Perbezaan utama terletak pada mekanisme pemilihan: Tournament menggunakan penilaian berpasangan untuk membandingkan secara berpasangan, iaitu "membiarkan calon bersaing antara satu sama lain". Ia lebih boleh dipercayai apabila rubrik sukar diukur dan penilaian pada dasarnya adalah relatif.

3.6 Modul Gelung

Logik utama ialah iterasi adaptif, terus mencuba, apabila menghadapi rintangan, kumpulkan maklumat ralat, tambah konteks, dan cuba semula sehingga memenuhi syarat penerimaan.

Gambar

Pada dasarnya, ini adalah melawan kerawakan AI: cuba beberapa kali, pasti akan mendapat hasil yang lebih baik. Tetapi pendekatan yang lebih matang adalah menggabungkan pengesahan adversarial, supaya setiap kitaran dilaksanakan dengan lebih banyak maklumat, bukan semata-mata bergantung pada kerawakan.

Kelebihannya terletak pada kemampuan mengendalikan tugas-tugas dengan jumlah kerja yang tidak diketahui. Kelima modus lainnya mengandaikan bahawa sempadan tugas adalah pasti, manakala Loop Until Done adalah satu-satunya modus yang mampu menangani "tidak tahu berapa banyak pusingan yang perlu dilakukan".

Kelemahan adalah risiko kehilangan kawalan yang berpotensi—pengaturan penghentian yang tidak baik boleh menyebabkan kitaran tanpa henti. Setiap agen dalam setiap pusingan adalah konteks baharu, tidak dapat mengumpul keadaan antara pusingan (kecuali ditulis secara eksplisit ke dalam fail).

Empat, Pertarungan antara kemahiran saya sendiri dengan alur kerja rasmi

Sebelum aliran kerja dinamik dilancarkan, saya telah mereka satu set deep-research sendiri. Logik kemahiran saya adalah seperti ini:

Satu maklumat ringkas (contohnya, projek tertentu telah melancarkan fungsi baru)
Biarkan AI mencari semua maklumat berkaitan: dokumen rasmi, kod sumber, persepsi pasaran
Ringkas maklumat menjadi ringkasan yang bermakna
Beberapa peranan agen melakukan analisis adversarial, menghasilkan laporan
Penghapusan ganda automatik, kerana kadar pengulangan kandungan agen banyak tinggi

Sudah digunakan untuk beberapa masa, saya rasa ia agak mudah digunakan. Tetapi ia mempunyai kelemahan mendasar: kurangnya konvergensi berorientasi matlamat.

Dan sering kali, walaupun terdapat langkah kelima untuk menghapus duplikasi, ia sering menghapus maklumat yang berharga; jika tidak dilakukan penghapusan duplikasi, pula sangat mudah untuk skill memberikan anda satu artikel panjang sepuluh ribu patah perkataan dengan maklumat yang lengkap, tetapi tidak secara langsung memberitahu anda "Perkara ini berkaitan dengan anda bagaimana, dan apa yang sepatutnya anda lakukan".

Namun, penyelidikan dilakukan untuk melayani “keputusan”, itulah sebabnya banyak kemahiran hanya berhenti pada penyelidikan itu sendiri, mendapat 80 markah, tetapi kekurangan 20 markah paling penting.

Sehingga selepas AI menyelesaikan penyelidikan awal, ia masih perlu melanjutkan sepuluh kali pemikiran dan perbincangan untuk mencapai kesimpulan yang memuaskan dan menyeluruh.

Apa yang telah dilakukan oleh alur kerja dinamik rasmi selain itu

Melalui eksperimen dengan beberapa tugas penyelidikan kompleks seminggu ini, saya mendapati, alur kerja deep research yang dibina dalam Claude Code (perhatikan, bukan hanya kemahiran, tetapi modul yang dikompilasi dan disematkan dalam cc), berbanding dengan kemahiran saya sendiri, mempunyai beberapa peringkat penting tambahan:

Tahap penguraian soalan: Ia tidak akan terus mencari, tetapi sebaliknya akan memulakan dengan menanyakan soalan, menguraikan soalan saya kepada beberapa soalan kecil: Apa yang sebenarnya ingin anda fahami? Apa kaitannya perkara ini dengan anda? Dimensi mana yang patut dikaji lebih mendalam? Tahap ini sebelum ini saya lalui.
Penilaian kredibiliti: Menilai falsifiabiliti setiap maklumat, serupa dengan penilaian otoriti dalam SEO tradisional—sumber boleh dipercayai? Berapa kali dirujuk? Ini adalah peringkat yang tidak pernah saya fikirkan untuk ditambah sebelum ini.
Penghapusan silang, bukan penggabungan purata: Saya sebelum ini mengambil purata semua kesimpulan, jadi dokumen menjadi sangat besar. Aliran kerja dinamik akan melakukan undian berbilang agen untuk setiap kesimpulan, dan yang tidak mencapai jumlah undian yang mencukupi akan dihapus, bukan digabungkan secara mudah.
Output yang berorientasi pada tujuan: Laporan akhir bukan sekadar tumpukan informasi, tetapi memberikan penilaian dan cadangan solusi berdasarkan tujuan asal anda. Kunci untuk mencapai ini ialah pemanfaatan kemampuan pra-set agen pelbagai sub. Sebelum ini, kemahiran saya mudah kekurangan orientasi tujuan akhir kerana penurunan bobot arahan selepas menerima maklumat dalam jumlah besar.

Masalah apakah yang diselesaikan oleh mekanisme ini?

Masalah klasik yang dihadapi AI semasa menjalankan tugas panjang:

Pergerakan target: Keadaan awal tugas baik, tetapi di tengah-tengah menjadi tidak pasti apa yang sedang dilakukan, dan baru kembali fokus pada akhir—serupa dengan manusia yang kehilangan fokus semasa kelas. Semakin panjang tugas, semakin jelas kesannya.

Berhenti terlalu awal: Semasa berlari, apabila menghadapi kesukaran, AI menganggap dirinya "telah selesai" dan berhenti, padahal standard pemeriksaan sebenarnya belum diluluskan.

Pencemaran konteks: Apabila satu agen menjalankan tugas yang kompleks, prompt awal yang banyak akan mengurangkan ruang pelaksanaan seterusnya. Cara yang lebih baik ialah mengawal prompt awal kepada beberapa k sahaja, dan menggunakan banyak agen untuk membahagikan konteks.

Output bias: AI cenderung mengikuti jangkaan anda dalam jawapan; soalan yang bersifat percakapan lebih mudah memicu masalah ini.

Sementara itu, alur kerja dinamik menyelesaikan empat masalah ini dengan cara yang terstruktur: mengautomasikan pengenalan metrik penerimaan untuk mencegah penghentian awal; konteks paralel yang terpisah; mengatasi pembatalan pengesahan yang menyebabkan bias output; serta memecahkan masalah dengan batasan bertingkat supaya AI memahami tujuan terlebih dahulu sebelum bertindak.

V. Ringkasan

Akhirnya, sebagai seorang penyelidik yang berpengalaman, saya terkesan dengan mekanisme baharu CC ini, yang merangkumi enam mod dalaman—pemilihan laluan, pemisahan dan penggabungan, pengesahan kontraktif, penapisan penghasilan, pertandingan kejuaraan, dan kitaran Loop—yang menutupi keperluan penjadualan bagi kebanyakan tugas penyelidikan yang kompleks.

Saya tidak perlu lagi merancang penjadualan agen secara manual atau melakukan penghapusan ganda dan pengesahan silang sendiri, kerana semua ini telah diintegrasikan ke dalam alur kerja itu sendiri.

Dan ia sangat sesuai untuk berfikir dalam penyelidikan soalan terbuka yang kurang maklumat, kerana penjadualan agen pelbagai secara semula jadi ditambah dengan pembahagian objektif tugas, menjadikannya lebih unggul dalam keupayaan generik. Sebenarnya, sejak tiga tahun lalu, AI sudah berprestasi baik dalam menyelesaikan masalah kecil yang sangat jelas dengan sekatan bertingkat, tetapi perubahan kualitatif sejati AI terletak pada keupayaan generiknya—inilah yang membezakannya daripada pesaingnya, iaitu berubah daripada kod ringkas menjadi agen sejati, daripada menyelesaikan satu masalah secara statik kepada menyesuaikan diri dengan sebarang masalah.

Jadi, Dynamic Workflows bukanlah "percakapan tunggal yang lebih pintar", tetapi membentuk struktur proses penyelidikan itu sendiri.

Dulunya saya perlu menjalankan kajian melalui sepuluh lebih percakapan berasingan, kini ia dipadatkan kepada 3-4 kali. Walaupun penggunaan Token yang sepadan meningkat puluhan kali ganda.

Mengapa masih perlu 3-4 kali lagi? Saya rasa punca utamanya ialah perbezaan dalam keperluan-keperluan ini.

Pertama ialah ketatnya mekanisme pengesahan; saya terutama menyelidiki teknologi baharu di atas blockchain, dan banyak perkara, dokumen rasmi adalah tertinggal, terdapat kod sumber terbuka, transaksi di rantai, dan data lain yang lebih patut dirujuk, tetapi pada masa ini, AI secara lalai masih mengutamakan dokumen rasmi berbanding pengesahan berdasarkan fakta.

Kedua ialah pemikiran mendalam yang benar-benar lintas bidang; walaupun sebahagian masalah ini boleh diselesaikan melalui pra-set alur kerja (mendefinisikan pelbagai dimensi subAgent untuk memikirkan masalah yang sama), AI masih lebih unggul dalam model pemikiran utama, dan agak kurang berkesan apabila menghadapi perkara yang sangat baharu, sangat mendalam, dan kurang berdasarkan data.

Ketiga ialah reka bentuk dan pengesahan penyelesaian; maksud penyelesaian bukan terletak pada pencadangan, tetapi pada pengesahan dan penyokongannya, yang bergantung kepada pengukuran mekanisme, input, dan kos yang sedia ada. Jika AI boleh dilatih dengan baik, ia pasti boleh melakukan lebih baik, namun ini bertentangan dengan sifat generik.

Akhirnya, pemadatan maklumat yang ekstrem memerlukan pemahaman mendalam terhadap audiens maklumat tersebut—ada yang tidak memiliki latar belakang apa pun dan memerlukan penyampaian yang bersifat personifikasi, sementara ada pula pendengar yang hanya perlu satu kalimat untuk terkesan~.