Sebuah harness untuk setiap tugas: alur kerja dinamik di Claude Code

Penulis asal: @trq212

Peggy

Catatan editor: Claude Code sedang berubah dari pembantu kod menjadi meja kerja Agent yang boleh disusun.

Workflow yang diperkenalkan dalam artikel ini memiliki nilai utama dalam membuat Claude tidak lagi hanya "berfikir dahulu, baru bertindak" dalam jendela konteks yang sama, tetapi mampu menghasilkan kerangka pelaksanaan secara dinamik berdasarkan tugas: membahagikan tugas, menghantar Agen anak, memproses secara selari, mengesahkan silang, mengulang secara berulang, bahkan membolehkan pelbagai Agen bersaing antara satu sama lain sebelum menggabungkan hasil akhir.

Ini bermakna penggunaan Claude Code sedang meluas dengan jelas. Ia tidak hanya sesuai untuk migrasi kod, reka semula, pengulangan ujian, dan semakan kod, tetapi juga boleh digunakan untuk penyelidikan mendalam, pengesahan fakta, penyaringan resume, tinjauan insiden, pengumpulan peraturan, penilaian pelan perniagaan, dan brainstorming nama untuk tugas bukan teknikal. Banyak tugas kompleks pada dasarnya serupa dengan pemrograman: memerlukan pemecahan masalah, pengasingan konteks, pengesahan hipotesis, pengurusan banyak butiran, dan membuat pilihan di antara beberapa laluan alternatif.

Dynamic workflows menyelesaikan beberapa masalah umum yang sering berlaku dalam tugas panjang model besar: "kelalaian agen" yang mengumumkan penyelesaian separuh jalan, "bias kecenderungan diri" yang cenderung menyetujui kesimpulan sendiri, serta "pergeseran tujuan" yang perlahan menyimpang dari matlamat asal selepas beberapa pusingan pelaksanaan. Dengan menyerahkan tugas kepada beberapa Claude yang mempunyai konteks berasingan, tugas yang kompleks diubah daripada "sukan lari agen tunggal" kepada "kerjasama agen berganda".

Tentu, workflow bukanlah jawapan serba boleh. Ia biasanya menghabiskan lebih banyak token dan mungkin tidak sesuai untuk setiap tugas pengkodean biasa. Tetapi ia memberikan arah yang penting: persaingan alat AI masa depan mungkin tidak hanya bergantung pada seberapa pintar model tunggal, tetapi sama ada ia mampu menyusun satu proses pelaksanaan yang boleh dipercayai, boleh digunakan semula, dan boleh ditinjau berdasarkan matlamat yang kompleks.

Berikut ialah teks asal:

Walaupun kerangka eksekusi Claude Code lalai dibina untuk pemrograman, ia juga sesuai untuk banyak jenis tugas lain. Fakta menunjukkan bahawa banyak tugas mempunyai struktur yang sangat serupa dengan tugas pemrograman. Namun, untuk beberapa jenis tugas tertentu agar mencapai prestasi terbaik, kami masih perlu membina kerangka eksekusi tersuai di atas Claude Code, seperti penyelidikan, analisis keselamatan, kerjasama pasukan agen, atau semakan kod.

Workflows membenarkan anda mencipta kerangka pelaksanaan secara dinamik, membolehkan Claude menyelesaikan masalah di atas dan jenis masalah lain secara lebih asli di dalam Claude Code. Anda juga boleh berkongsi dan guna semula workflow ini bersama orang lain.

Dalam artikel ini, saya akan berkongsi pengalaman dan wawasan saya semasa pertama kali menggunakan workflows, untuk membantu anda memaksimakan keupayaannya.

Namun, perlu ditekankan bahawa amalan terbaik yang berkaitan masih dalam proses pembentukan. Aliran kerja dinamik biasanya menghabiskan lebih banyak token, jadi anda perlu mempertimbangkan dengan teliti kapan dan bagaimana untuk menggunakannya.

Catatan: Artikel ini juga diterbitkan di Claude Blog.

Contoh Prompt

Sebelum memasuki butiran teknikal, saya ingin memberikan beberapa contoh prompt untuk membantu anda memahami kemungkinan workflows:

Ujian ini gagal kira-kira sekali setiap 50 kali larian. Bina satu workflow untuk mengulangi ia, nyatakan hipotesis, dan lakukan ujian adversarial dalam worktree yang berbeza. /goal Jangan berhenti sehingga satu hipotesis berjaya diverifikasi.

Gunakan workflow untuk meninjau 50 sesi terakhir saya, gali koreksi berulang yang saya buat, dan ubah masalah berulang ini menjadi peraturan CLAUDE.md.

Gunakan workflow untuk menyemak saluran #incidents di Slack selama enam bulan terakhir, dan cari punca utama yang berulang tetapi tidak ada tiket yang diajukan.

Gunakan rancangan perniagaan saya untuk menjalankan workflow, biarkan agen yang berbeza menguraikannya dari sudut pandang pelabur, pelanggan, dan pesaing.

Terdapat satu folder yang mengandungi 80 resume. Gunakan workflow untuk mengurutkan mereka mengikut keperluan jawatan belakang, dan semak semula sepuluh teratas. Gunakan alat AskUserQuestion untuk bertanya kepada saya, supaya saya dapat membantu anda membina standard penilaian.

Saya perlu memberi nama kepada alat CLI ini. Gunakan workflow untuk menghasilkan sederet pilihan, kemudian pilih tiga teratas melalui mekanisme pertandingan.

Gunakan workflow untuk menamakan semula model User kami sebagai Account di semua tempat.

Baca draf blog saya, dan gunakan workflow untuk mengesahkan setiap penilaian teknikal dalamnya dengan repositori kod. Saya tidak ingin menerbitkan sebarang kandungan yang salah.

Bagaimana alur kerja dinamik berfungsi

Aliran kerja dinamik akan menjalankan fail JavaScript yang mengandungi beberapa fungsi khas untuk menghasilkan dan mengkoordinasikan agen anak.

Aliran kerja dinamik juga mengandungi fungsi JavaScript piawai seperti JSON, Math, dan Array untuk memproses data.

Khususnya, aliran kerja dinamik boleh menentukan model mana yang digunakan oleh agen tertentu, serta sama ada agen anak perlu berjalan di dalam worktree sendiri. Ini membolehkan Claude memilih secara swakelola tahap kecerdasan dan darjah pengasingan yang diperlukan mengikut keperluan tugas.

Jika satu workflow terputus, contohnya melalui tindakan manual pengguna atau penutupan terminal, selepas memulakan semula sesi, workflow tersebut boleh diteruskan dari titik terputus.

Mengapa diperlukan alur kerja dinamik?

Apabila anda meminta kerangka kerja Claude Code lalai untuk menangani tugas, ia perlu melaksanakan perancangan dan pelaksanaan dalam jendela konteks yang sama. Bagi banyak tugas pengaturan, cara ini sangat berkesan, tetapi dalam tugas yang berjalan panjang, selari dalam skala besar, atau tugas adversarial yang sangat terstruktur, ia kadang-kadang gagal.

Sebabnya ialah semakin lama Claude memproses tugas kompleks dalam tetingkap konteks tunggal, semakin mudah ia mengalami beberapa corak kegagalan tertentu:

Kemalasan agen (agentic laziness) merujuk kepada Claude yang berhenti awal sebelum menyelesaikan sepenuhnya tugas yang kompleks dan berbilang bahagian, serta mengatakan tugas tersebut telah selesai hanya setelah mencapai kemajuan sebahagian. Sebagai contoh, dalam semakan keselamatan, hanya mengendalikan 20 daripada 50 projek sebelum mengumumkan penyelesaian kerja.

Bias self-preferential (bias kecenderungan diri sendiri) merujuk kepada kecenderungan Claude untuk lebih mengutamakan hasil atau penemuan sendiri, terutama apabila diminta untuk mengesahkan atau menilai kandungan yang dihasilkan sendiri berdasarkan set standard penilaian tertentu.

Goal drift (pergeseran tujuan) merujuk kepada penurunan kesetiaan Claude terhadap tujuan asal semasa proses pelaksanaan berbilang putaran, terutamanya selepas konteks dikompres. Setiap ringkasan menyebabkan kehilangan maklumat, dan beberapa keperluan butiran, seperti kes tepi, atau syarat larangan seperti "jangan lakukan X", mungkin terlepas.

Menciptakan workflow membantu meredakan masalah-masalah ini, kerana ia dapat mengatur beberapa Claude yang berasingan, membolehkan mereka memiliki jendela konteks masing-masing dan fokus pada tugas-tugas yang terpisah dan jelas tujuannya.

Dynamic workflow dan static workflow

Anda mungkin sebelum ini telah mencipta aliran kerja statik melalui Claude Agent SDK atau claude -p untuk mengkoordinasikan beberapa contoh Claude Code.

Namun, kerana alur kerja statik perlu menangani pelbagai kes tepi, ia biasanya lebih umum. Dengan kemunculan Claude Opus 4.8 dan alur kerja dinamik, Claude kini cukup pintar untuk menulis kerangka pelaksanaan yang disesuaikan khusus untuk skenario penggunaan anda.

Pola praktikal semasa menggunakan alur kerja dinamik

Anda boleh terus meminta Claude untuk mencipta aliran kerja dinamik, atau gunakan kata pemicu «ultracode» untuk memastikan Claude Code mencipta workflow.

Namun, jika anda dapat membina model mental tentang bagaimana aliran kerja dinamik berfungsi, ia akan lebih mudah untuk menentukan kapan harus menggunakannya, serta lebih mudah untuk membimbing Claude melalui prompt.

Claude semasa membina workflow, biasa menggunakan dan menggabungkan beberapa corak berikut:

Klasifikasikan dan laksanakan: Gunakan agen klasifikasi untuk menentukan jenis tugas, kemudian arahkan ke agen atau tindakan yang berbeza berdasarkan jenis tugas tersebut. Anda juga boleh menggunakan pengelas di akhir proses untuk menentukan hasil output.

Pembahagian dan penggabungan: Membahagikan satu tugas kepada beberapa langkah yang lebih kecil, di mana setiap langkah diproses oleh satu agen, kemudian menggabungkan semua hasil tersebut. Pendekatan ini sesuai terutama untuk tugas yang mengandungi banyak langkah kecil, atau apabila setiap langkah memerlukan jendela konteks yang bersih untuk mengelakkan gangguan atau pencemaran silang. Langkah penggabungan bertindak sebagai "halangan": ia akan menunggu sehingga semua agen yang dibahagikan selesai, kemudian menggabungkan output terstruktur mereka menjadi satu hasil.

Pengesahan adversarial: Untuk setiap agen yang dihasilkan, jalankan agen yang berasingan untuk melakukan pengesahan adversarial terhadap outputnya mengikut satu set kriteria atau piawaian penilaian.

Hasilkan dan saring: Hasilkan banyak idea berdasarkan satu topik, kemudian saring mengikut kriteria penilaian atau proses pengesahan, buang duplikat, dan hanya kembalikan idea yang telah diuji dan berkualiti tertinggi.

Pertandingan: Bukan membahagikan tugas, tetapi membiarkan agen bersaing antara satu sama lain. Hasilkan N agen, biarkan mereka mencuba menyelesaikan tugas yang sama dengan kaedah yang berbeza. Kemudian, prompt atau model menilai hasil agen melalui perbandingan berpasangan sehingga memilih pemenang.

Ulangi sehingga selesai: Untuk tugas yang jumlah kerja tidak diketahui, jangan tetapkan bilangan putaran tetap, tetapi ulangi menghasilkan agen sehingga syarat berhenti dipenuhi, contohnya tidak ada lagi penemuan baru, atau tidak ada lagi ralat dalam log.

Skenario penggunaan

Anda boleh berfikir secara lebih kreatif mengenai kapan dan bagaimana Claude Code mencipta alur kerja dinamik. Saya mendapati alur kerja kadang-kadang lebih berguna dalam pekerjaan bukan teknikal.

Pemindahan dan semula jadi

Bun pernah ditulis semula dari Zig ke Rust menggunakan workflows. Anda boleh membaca pos Jarred di X untuk mengetahui prosesnya.

Kunci utamanya ialah membahagikan tugas kepada serangkaian langkah yang perlu diproses, seperti titik panggilan, ujian kegagalan, modul, dan sebagainya. Mulakan agen anak untuk setiap tugas pembaikan dalam worktree, biarkan ia menyelesaikan pembaikan; kemudian biarkan agen lain melakukan semakan kontraktif, dan akhirnya gabungkan hasilnya. Anda boleh mempertimbangkan untuk memberitahu agen secara jelas untuk tidak menggunakan arahan yang menghabiskan sumber berlebihan, supaya tahap paralelisme boleh dimaksimumkan tanpa menghabiskan sumber mesin tempatan.

Penyelidikan mendalam

Kami telah melancarkan kemahiran deep research (/deep-research) di Claude Code, yang menggunakan aliran kerja dinamik. Secara khusus, ia akan membahagikan tugas untuk menjalankan carian web, mengambil sumber, mengesahkan kenyataan berkaitan secara kontraktif, dan menggabungkan serta menghasilkan laporan dengan rujukan.

Tetapi kajian semacam ini tidak hanya berlaku untuk carian web. Sebagai contoh, anda juga boleh meminta Claude untuk menyusun laporan status daripada konteks Slack, atau menyelidiki bagaimana suatu fungsi berfungsi dengan mengkaji secara mendalam repositori kod.

Depth Verification

Di sisi lain, jika anda mempunyai laporan dan ingin memeriksa setiap pernyataan fakta dan sumber yang dikutip di dalamnya, anda boleh menghasilkan alur kerja: terlebih dahulu agen mengenal pasti semua pernyataan fakta, kemudian memulakan agen anak untuk memeriksa setiap pernyataan secara terperinci. Anda juga boleh meminta agen pengesahan untuk memeriksa agen anak yang bertanggungjawab atas pelacakan sumber, memastikan kualiti sumbernya mencukupi tinggi.

Sort

Anda mungkin mempunyai satu set projek yang ingin disusun mengikut ukuran kualitatif tertentu, dan anda percaya Claude Code unggul dalam menilai ukuran tersebut. Contohnya, menyusun tiket sokongan mengikut keparahan ralat.

Namun, jika anda cuba mengurutkan lebih daripada 1000 baris dalam satu prompt, kualiti akan menurun dan jendela konteks tidak mampu menampungnya. Pendekatan yang lebih baik ialah menjalankan mekanisme pertandingan, membina saluran yang terdiri daripada agen perbandingan berpasangan, kerana penilaian berbanding biasanya lebih boleh dipercayai berbanding penilaian mutlak; atau mengurutkan secara berterusan dalam tong, kemudian menggabungkan keputusan. Setiap perbandingan dilakukan oleh agen yang berasingan, oleh itu, kitaran deterministik boleh mengekalkan struktur pertandingan keseluruhan, dengan hanya urutan semasa yang perlu disimpan dalam konteks.

Memori dan kepatuhan peraturan

Jika anda mempunyai satu set peraturan tertentu, dan Claude masih sering melupakan atau melaksanakan dengan buruk walaupun melihat peraturan tersebut dalam CLAUDE.md, anda boleh mencipta alur kerja yang menyenaraikan peraturan-peraturan ini dan membenarkan agen pengesahan memeriksa setiap peraturan satu persatu—setiap peraturan berkaitan dengan satu agen pengesahan. Mencipta sub-agen dengan personaliti "pencuriga" untuk mengkaji sama ada peraturan-peraturan ini munasabah juga membantu mengelakkan laporan palsu yang berlebihan.

Sebaliknya juga berlaku: gali semula perbincangan dan ulasan semakan kod terkini anda, cari koreksi yang anda buat berulang-ulang; biarkan agen selari mengelompokkan isu-isu ini; kemudian uji setiap peraturan calon secara adversarial untuk menentukan sama ada ia benar-benar mencegah ralat sebenar; akhirnya, rumuskan semula peraturan yang lulus penapisan ke dalam CLAUDE.md.

Pengisihan punca akar

Cara paling berkesan untuk menyelesaikan ralat ialah mengemukakan beberapa hipotesis yang saling bebas dan menguji setiap satu secara berasingan. Namun, jika anda hanya menggunakan satu tetingkap konteks, Claude mungkin terperangkap dalam bias kecenderungan sendiri.

Workflow dapat mencegah keadaan ini dari segi struktur: ia boleh memulakan beberapa agen, membiarkan mereka menghasilkan hipotesis berdasarkan bukti yang tidak tumpang tindih. Sebagai contoh, membiarkan agen yang berbeza memeriksa log, fail, dan data. Selepas itu, setiap hipotesis boleh diperiksa oleh satu set pemeriksa dan pembantah.

Ini tidak hanya berlaku untuk kod. Workflow juga boleh digunakan untuk analisis jualan, contohnya “Mengapakah jualan pada bulan Mac menurun?”; untuk kejuruteraan data, contohnya “Mengapakah pipeline ini gagal?”; atau untuk sebarang tinjauan selepas kejadian.

Triaging skala besar

Setiap pasukan mempunyai antrian sokongan, laporan ralat, atau tugas tertunda yang tidak boleh ditangani sepenuhnya oleh manusia. Satu alur kerja triase boleh mengklasifikasikan setiap item, menghapuskan duplikasi dengan isu yang sudah dilacak, dan mengambil tindakan. Ini mungkin bermaksud mencuba untuk membaiki, atau mungkin meningkatkan kepada pengguna manusia untuk penanganan.

Untuk alur kerja triase, satu pola yang berguna ialah quarantine (kuarantin). Dengan kata lain, larang agen yang membaca kandungan awam yang tidak boleh dipercayai menjalankan operasi dengan kebenaran tinggi; operasi dengan kebenaran tinggi seharusnya dilakukan oleh agen khas yang bertanggungjawab atas tindakan.

Anda boleh menggabungkan alur kerja triase dengan /loop untuk membolehkan Claude melaksanakan tugas-tugas ini secara berterusan.

Eksplorasi dan penilaian rasa

Workflows berguna apabila anda perlu meneroka pelbagai lintasan penyelesaian, terutamanya tugas yang melibatkan penilaian estetik seperti reka bentuk dan pemberian nama, dan boleh mendapat manfaat daripada satu set standard penilaian.

Anda boleh membiarkan Claude meneroka banyak skema, serta memberikan agen pemeriksa satu set kriteria penilaian mengenai “skema yang baik itu macam mana”. Apabila agen pemeriksa menganggap hasil telah memenuhi kriteria tersebut, tugas tersebut dianggap selesai. Skema yang berbeza juga boleh disusun atau disaring melalui mekanisme pertandingan berdasarkan kriteria penilaian ini.

Evals (Ulasan)

Anda boleh menjalankan evals ringan untuk tugas tertentu dengan memulakan agent berasingan dalam worktree, kemudian memulakan agent perbandingan, dan membandingkan serta memberi markah output berdasarkan kriteria penilaian. Sebagai contoh, anda boleh menilai dan memperbaiki skill yang anda cipta sendiri untuk melihat sama ada ia memenuhi beberapa kriteria tertentu.

Pemodelan dan penyesuaian pintar: Anda boleh mencipta agen klasifikasi yang diteliti khusus untuk tugas anda, yang akan menentukan model mana yang perlu digunakan. Pendekatan ini berguna apabila tugas melibatkan banyak panggilan alat, dan penyelidikan sebelum pelaksanaan dapat membantu mengenal pasti model yang paling sesuai.

Sebagai contoh, untuk tugas "menjelaskan bagaimana modul auth berfungsi", model yang paling sesuai bergantung pada bilangan fail dalam modul auth dan struktur repositori kod. Agen klasifikasi boleh melakukan penyelidikan ini terlebih dahulu, kemudian menghantar tugas kepada Sonnet atau Opus berdasarkan kekompleksan yang dijangka.

Kapan tidak seharusnya menggunakan alur kerja dinamis

Workflows masih merupakan perkara baru. Walaupun ia boleh memberikan kesan jauh melebihi cara biasa dalam banyak skenario penggunaan, bukan setiap tugas memerlukannya, dan ia boleh meningkatkan penggunaan token secara ketara.

Gunakan workflows untuk tugas-tugas yang boleh memperluas batasan kemampuan Claude Code dengan cara baru. Untuk tugas pengaturan biasa, tanya diri anda dahulu: Adakah tugas ini benar-benar memerlukan lebih banyak sumber komputasi? Sebagai contoh, kebanyakan tugas pengaturan tradisional tidak memerlukan kumpulan lima pemeriksa.

Teknik membina alur kerja dinamik

Prompt design

Semakin terperinci butiran yang diberikan apabila menulis prompt untuk alur kerja dinamik, semakin baik kesannya, terutamanya apabila menggunakan teknik spesifik yang disebutkan sebelumnya.

Workflows tidak hanya sesuai untuk tugas besar. Anda juga boleh meminta model menggunakan 'quick workflow'. Sebagai contoh, anda boleh mencipta proses pemeriksaan adversarial pantas untuk memeriksa suatu hipotesis.

Digunakan bersama /goal dan /loop

Apabila anda menggunakan workflow yang boleh diulang, seperti workflow triase, penyelidikan, atau pengesahan, anda boleh menggabungkannya dengan /loop untuk menjalankannya pada selang masa tetap, sambil menggunakan /goal untuk menetapkan syarat penyelesaian yang ketat.

Anggaran penggunaan token

Anda boleh menetapkan anggaran penggunaan token yang jelas untuk alur kerja dinamik untuk membatasi jumlah token yang digunakan oleh tugas. Anda boleh menulis keperluan anggaran seperti 'use 10k tokens' dalam prompt, yang akan menetapkan had kepada 10k token.

Simpan dan kongsi alur kerja dinamik

Anda boleh menekan 's' dalam menu workflow untuk menyimpan workflow. Anda boleh menghantar mereka ke ~/.claude/workflows, atau mengagihkan melalui skill.

Jika ingin berkongsi melalui skill, letakkan fail workflow JavaScript ke dalam folder skill dan rujuk dalam SKILL.md. Untuk fleksibiliti yang lebih besar, anda juga boleh meminta Claude: anggap workflows dalam skill sebagai templat, bukan skrip yang mesti dijalankan secara perkataan demi perkataan.

Dunia yang baru

Workflows adalah cara baru yang berguna untuk memperluas Claude Code. Saya mendorong anda untuk melihatnya sebagai permulaan. Masih banyak yang perlu kita eksplorasi mengenai cara terbaik untuk menggunakannya. Silakan beritahu kami penemuan anda.

Thariq Shihipar dan Sid Bidasaria (@sidbid) adalah ahli pasukan teknikal Anthropic yang bertanggungjawab atas perkara berkaitan Claude Code.

[Link asal]

Klik untuk mengetahui jawatan yang sedang dibuka oleh BlockBeats

Selamat datang ke komuniti rasmi律动 BlockBeats:

Kumpulan langgan Telegram: https://t.me/theblockbeats

Kumpulan perbincangan Telegram: https://t.me/BlockBeats_App

Akaun rasmi Twitter: https://twitter.com/BlockBeatsAsia