Catatan editor: Apabila AI Agent menjadi semakin murah dan semakin mudah dipanggil, pembangunan perisian memasuki peringkat baru: masalahnya bukan lagi sama ada boleh memulakan lebih banyak Agent, tetapi sama ada manusia masih mempunyai perhatian yang mencukupi untuk mengurus, menilai, dan menggabungkan hasil-hasil mereka.

Artikel ini mengusulkan konsep yang sangat memberi inspirasi—“cukai pengaturan”. Kos untuk memulakan Agent sangat rendah, hanya memerlukan satu Prompt atau satu klik; tetapi yang benar-benar mahal ialah peringkat seterusnya: memeriksa sama ada hasilnya betul, memahami kesannya terhadap struktur sistem, menangani konflik antara pelbagai Agent, dan akhirnya memutuskan kod mana yang boleh masuk ke cabang utama. Pekerjaan ini tidak boleh diparalelkan secara mudah, dan tetap bergantung pada sumber siri yang sama: penilaian manusia.

Penulis membandingkan pembangun dengan 'GIL' dalam sistem AI Agent, iaitu kunci tunggal yang menghadkan throughput akhir sistem selari. Beberapa Agent boleh berjalan serentak, tetapi apabila memasuki peringkat penilaian arsitektur, semakan kod, dan penggabungan konflik, mereka mesti melalui otak pembangun semula. Oleh itu, semakin banyak Agent, tidak semestinya bermaksud hasil yang lebih tinggi, tetapi mungkin hanya menyebabkan antrian tugas yang perlu disemak menjadi lebih panjang, menjadikan pembangun terperangkap dalam peralihan konteks yang lebih kerap dan keletihan kognitif.

Ini juga merupakan aspek yang sering diabaikan dalam gelombang alat pengaturan AI semasa ini: rasa kecekapan dan produktiviti sebenar tidak selalu sama. Sebuah dashboard agen yang penuh dengan operasi boleh mencipta ilusi “produktiviti tinggi”; tetapi jika pembangun tidak benar-benar memahami, mengkaji, dan mengintegrasikan perubahan-perubahan ini, sistem akhirnya mungkin mengumpul bukan produktiviti, tetapi hutang teknikal dan hutang kognitif.

Oleh itu, topik sebenar yang dibincangkan dalam artikel ini bukanlah "bagaimana menggunakan lebih banyak Agent", tetapi "bagaimana mendesain semula alur kerja berdasarkan perhatian manusia". Di era Agent, kemampuan utama bukan sekadar mampu bertanya atau menghantar tugas, tetapi mengetahui tugas mana yang boleh diserahkan kepada mesin untuk diproses secara selari, dan tugas mana yang perlu kekal di bawah penilaian manusia; kapan seharusnya melakukan review secara berkelompok, dan kapan seharusnya menghentikan pengaturan serta kembali memfokuskan perhatian pada satu isu utama.

AI sedang memperluas kapasiti paralel dalam penghasilan perisian, tetapi perhatian manusia masih menjadi sumber yang paling langka dan tidak boleh disalin dalam sistem. Aliran kerja Agent yang benar-benar matang bukanlah melepaskan semua tugas kepada mesin, tetapi merancang arsitektur perhatian anda sendiri dengan serius, seperti merancang sistem pengeluaran.

Berikut ialah teks asal:

Sekarang, memulakan lebih banyak AI Agent menjadi lebih mudah. Tetapi, lebih banyak Agent yang berjalan serentak tidak bermakna bahawa «anda» juga bertambah. Lebar pita kognitif anda tidak boleh diparalelkan. Semua penilaian yang benar-benar digunakan untuk membimbing mereka, menilai hasil, dan menggabungkan serta mengubah suai, akhirnya masih harus melalui pemproses siri yang sama—iaitu anda sendiri.

Yang dinamakan “cukai pengaturan” pada dasarnya adalah harga yang harus kamu bayar apabila kamu melupakan perkara ini. Satu-satunya penyelesaian sejati ialah mula merekabentuk perhatian kamu sendiri seperti cara kamu merekabentuk sistem selari apa sahaja.

Saya sebelumnya menghadiri perbincangan meja bulat di Google I/O bersama Richard Seroter, Aja Hammerly, dan Ciera Jaspan untuk membincangkan keadaan rekabentuk perisian semasa dan bagaimana ia mungkin berkembang seterusnya. Pada hampir penghujung perbincangan, Richard bertanya kepada kami: Apakah satu perkara paling penting yang seharusnya dibawa pulang dan diubah oleh pembangun selepas mendengar?

Arsitektur perhatian

Saya mengatakan satu perkara yang telah saya fikirkan berulang-ulang dalam beberapa bulan ini: merasa sibuk tidak sama dengan benar-benar menghasilkan sesuatu. Anda boleh menjalankan 20 Agent secara serentak dan merasa sangat sibuk, tetapi ini tidak bermakna anda telah menghantar jumlah kerja yang sepadan dengan 20 Agent tersebut.

Pada awal perbincangan itu, Richard memberikan nama kepada soalan ini. Beliau berkata: "Apa yang anda baru saja sebutkan sebenarnya ialah pengaturan cukai. Anda tidak mungkin berjaya menguruskan 20 agen dalam fikiran anda."

Dia benar sepenuhnya. Saya ingin membongkar konsep ini secara lebih lengkap, kerana ini bukan masalah disiplin diri, tetapi masalah arkaitektur.

Dalam perbincangan meja bulat itu, ada satu perkataan yang saya nyatakan hampir secara tidak sengaja, yang terus menghantui fikiran saya: menjalankan beberapa Agent tidak bermakna bahawa ada satu lagi diri anda di dunia ini.

Asimetri yang tidak diambil kira oleh orang-orang

Terdapat ketidaksimetrian tersembunyi dalam alur kerja agen.

Menghidupkan sebuah Agent sangat murah. Anda hanya perlu menaip sekali, atau menulis satu Prompt. Tetapi menyelesaikan kitaran tertutup Agent tidaklah murah. Seseorang pasti perlu memeriksa sama ada hasil yang dikembalikan betul, dan menyelaraskan semula dengan perubahan yang dibuat oleh Agent lain.

Orang ini adalah kamu. Dan kamu hanya ada satu.

Bulan lalu, saya pernah menulis sebahagian daripada masalah ini dalam "Had Agens Selari Anda", terutamanya membincangkan kecemasan kontekstual: anda tidak tahu yang mana satu benang selari sedang gagal secara senyap. Artikel ini ingin membincangkan struktur di sebalik kos ini.

Apabila anda memulakan pemikiran tentang pembangunan Agen sebagai sistem selari, anda akan sedar bahawa manusia sendiri hanyalah satu komponen dalam sistem ini. Sebuah komponen siri yang sangat perlahan.

Kamu adalah sumber daya tunggal itu

Jika anda pernah menulis kod selari, anda sebenarnya sudah memiliki intuisi untuk memahami masalah ini. Hanya sahaja anda sebelum ini menggunakan intuisi ini di tempat yang salah.

Python mempunyai Global Interpreter Lock (GIL). Anda boleh mencipta seberapa banyak thread pun, tetapi hanya satu thread sahaja yang boleh menjalankan bytecode Python pada satu masa, kerana semua thread mesti mendapatkan kunci ini terlebih dahulu.

You are the GIL of your AI Agent.

Mereka boleh berjalan serentak. Tetapi selagi tugas mereka memerlukan pemahaman sebenar terhadap arsitektur sistem, atau memerlukan penyelesaian konflik penggabungan, mereka mesti mendapatkan kunci ini terlebih dahulu. Dan kunci ini hanya ada satu, dan ia berada di tangan anda.

Hukum Amdahl menyatakan dengan sangat tepat: had laju yang dicapai melalui penghampiran selari bergantung pada bahagian kerja yang masih perlu diselesaikan secara berurutan. Jika terdapat sebahagian besar dalam proses anda yang tidak boleh dihampirkan secara selari, maka seberapa banyak core yang anda gunakan, akhirnya anda akan mencapai had keras.

Dalam pembangunan Agen, bahagian siri ini adalah keupayaan penilaian.

Menghidupkan 8 Agen tidak akan mempercepat masa penilaian anda. Ia hanya akan membuat antrean yang menunggu pemprosesan anda menjadi lebih panjang.

Ini adalah fakta lama dalam kejuruteraan prestasi, tetapi banyak orang masih terkejut dengannya: mengoptimumkan bahagian bukan bottleneck tidak akan meningkatkan throughput keseluruhan. Anda hanya menimbun lebih banyak kerja yang belum selesai di hadapan bottleneck.

Peningkatan Agen mengoptimumkan bahagian yang sebenarnya bukan penghala. Penghala sebenar ialah peringkat ulasan, dan kapasiti keseluruhan sistem tepat sama dengan kapasiti peringkat ini.

Pengaturan cukai ialah jurang struktural antara kapasiti pengeluaran Agen dan kandungan yang sebenarnya boleh digabungkan oleh anda. Ia berlaku apabila anda meminta sumber satu thread untuk mengurus sistem serentak.

Menahan tidak dapat menyelesaikan had struktural

Di meja bulat itu, saya mengatakan satu perkataan: Saya tidak pernah merasa alat saya seefisien ini sebelum ini, tetapi saya juga tidak pernah seletih ini.

Kedua-dua perasaan ini benar-benar nyata, dan keduanya berasal daripada sebab yang sama.

Kelesuan ini mempunyai sumber yang sangat spesifik: ia adalah perasaan apabila prosesor siri dipaksa terus-menerus kepada 100% tanpa sebarang ruang baki.

Setiap kali anda menoleh semula untuk memeriksa agen yang telah keluar dari lingkungan perhatian anda, anda perlu membayar kos pertukaran konteks. Anda perlu mengosongkan fikiran, kemudian memuat semula konteks lain dari awal.

CPU boleh menyelesaikan perkara ini dalam mikro saat, walaupun begitu, arkitek akan cuba mengelakkan peralihan yang kerap. Namun, anda memerlukan beberapa minit untuk menyelesaikannya, dan tidak pernah boleh memulihkan konteks dengan sempurna.

5 agen bukanlah beban kerja 1 kali yang diulang 5 kali. Ia adalah 5 kali pemuatan konteks bermula sejuk, ditambah dengan proses otak yang berjalan secara latar belakang, terus-menerus risau tentang agen mana yang sepatutnya anda periksa sekarang.

Anda tidak boleh menyelesaikan sekatan struktur dengan cara "berusaha lebih keras". Cukai ini sentiasa perlu dibayar.

Jika anda cuba mempertahankannya, ia akhirnya akan muncul dalam bentuk lain: sama ada ulasan kod menjadi semakin cetek, atau anda memasuki keadaan "penyerahan kognitif"—kerana membentuk penilaian sendiri terlalu melelahkan perhatian, anda secara langsung menerima kod yang ditulis oleh Agen.

Anda perlu membayar cukai ini secara aktif, atau biarkan ia merosakkan pemahaman anda terhadap sistem anda secara perlahan-lahan dalam kegelapan.

Reka perhatian anda seperti sistem reka bentuk

Oleh itu, anda mesti memperlakukan perhatian anda sebagai sumber siri yang jarang.

Anda tidak akan membina sistem teragih tanpa mempertimbangkan bottleneck sama sekali. Oleh itu, berikan pula penghormatan yang sama kepada otak anda.

Berikut adalah beberapa kaedah yang benar-benar berkesan bagi saya:

Kembangkan pasukan Agen berdasarkan kemampuan review, bukan berdasarkan kemampuan UI.

Sistem paralel yang baik akan menggunakan mekanisme backpressure untuk mengelakkan peningkatan tanpa had pada antrian. Penghasil perlu memperlambat laju untuk menyesuaikan dengan kapasiti pemrosesan penerima.

Jumlah agen anda ialah penghasil, dan kemampuan anda untuk mengulas ialah penerima. Jumlah agen selari yang betul ialah jumlah yang anda mampu tinjau kod dengan teliti. Bagi kebanyakan orang, ini biasanya hanya satu nombor tunggal yang rendah.

Alat AI tentu akan dengan senang hati membolehkan anda memulakan 20 Agent, tetapi itu hanyalah fungsi antaramuka, bukan bermakna anda benar-benar mampu menguruskannya.

Klasifikasikan tugas.

Semasa Richard bertanya kepada saya bagaimana menangani perkara ini, saya telah menyebut kaedah ini. Saya akan membahagikan tugas kepada dua tumpukan.

Tumpukan pertama ialah tugas yang相对独立，saya bersedia menyerahkan kepada Agent yang berjalan di latar belakang awan. Tugas-tugas ini boleh dijalankan secara asinkron, biasanya hanya memerlukan saya untuk melakukan pengawasan sekali sahaja pada akhir fasa.

Tumpukan kedua ialah tugas kompleks, di mana pekerjaan sebenar ialah penilaian. Contohnya, bug yang sangat aneh, atau satu reka bentuk arkaitektur.

Kesalahan terbesar ialah mencuba untuk memproses selari tugas jenis kedua. Memproses selari beberapa tugas kompleks tidak akan meningkatkan output anda, tetapi hanya akan menyebabkan kunci itu diperebutkan berulang-ulang, sehingga semua hasil menjadi lebih buruk.

Ulasan pukal.

Setiap peralihan konteks akan menimbulkan kos yang tinggi. Duduk dan meninjau hasil 4 Agen sekaligus jauh lebih murah berbanding melihat satu, melakukan perkara lain, kemudian memulakan semula untuk melihat yang seterusnya.

Berikan agen tali yang lebih panjang. Biarkan pekerjaan sedikit bertimbun, kemudian proses semuanya sebagai satu batch.

Gunakan hanya kunci ini untuk penilaian.

Jangan buang tenaga anda pada perkara yang boleh disahkan sendiri oleh mesin. Biarkan Agent menulis ujian yang lulus, atau hasilkan tangkapan skrin.

Biarkan mereka membuktikan sendiri 80% bahagian yang membosankan tetapi boleh diverifikasi. Dengan begitu, perhatian anda yang terhad hanya perlu diarahkan kepada 20% yang benar-benar memerlukan penilaian manusia.

Lindungi masa siri anda.

Bottleneck memerlukan masa terbaik anda, bukan masa serpihan yang tinggal di antara beberapa pemeriksaan Agent.

Kadang-kadang, tindakan leverage tertinggi justru merupakan penghentian sepenuhnya kepada susunan: matikan komputer yang penuh dengan Agent, fokus hanya pada satu soalan, dan pegang erat-erat kunci itu sepanjang proses.

Penyusunan bukanlah pekerjaan sebenarnya. Ia hanya merupakan perbelanjaan yang timbul daripada pekerjaan tersebut.

Aja menunjukkan bahawa kemampuan arkaitektur kini telah menjadi kemahiran yang paling mendesak: anda perlu tahu tugas apa yang sesuai dimasukkan ke dalam Agent, dan tugas apa yang terlalu besar untuknya.

Saya juga ingin menambahkan satu perkara: anda sendiri juga merupakan satu komponen dalam sistem ini. Perhatian anda mempunyai throughput siri yang diketahui dan sangat rendah. Sistem akan menghormati nombor ini, atau akan mengelakinya dengan secara halus menurunkan piawaian anda.

Sibuk tidak sama dengan produktif

Ini sangat penting kerana kegagalan model ini hampir tidak kelihatan oleh anda sendiri.

20 agen yang sedang berjalan akan memberi anda perasaan “produktiviti meledak”. Dasbor penuh sesak, semua perkara bergerak. Tetapi perasaan ini sudah terpisah daripada benar-benar menggabungkan kod berkualiti tinggi ke dalam cabang utama.

Anda boleh sibuk sehingga batasnya, tetapi hampir tidak menghasilkan apa-apa. Dari segi pengalaman dalaman, keduanya hampir sama sahaja.

Ciera menyebutkan penyelidikan Margaret-Anne Storey mengenai hutang. Kami berbincang mengenai hutang teknikal dan hutang kognitif.

Tanpa bayaran cukai penyusunan, anda akan mengumpul kedua-dua hutang ini secara serentak.

Anda menggabungkan perkara yang tidak anda baca dengan teliti. Model mental anda terhadap repositori kod sudah usang sepenuhnya. Masalah-masalah ini tidak akan muncul di papan pemantau hari ini. Mereka akan muncul apabila sistem gagal dalam persekitaran pengeluaran—ketika anda memandang sistem dan tiba-tiba sedar bahawa anda sudah tidak tahu bagaimana ia berfungsi.

Jadi, kesimpulan sebenarnya adalah: memulakan Agen bukanlah kemampuan. Sesiapapun boleh menjalankan 20.

Kemampuan sejati adalah merekabentuk sistem di sekitar sumber daya siri yang tidak boleh ditiru atau diparalelkan.

Sumber ini ialah perhatian anda.

Reka ia seperti mana-mana komponen penting yang bergantung dalam persekitaran pengeluaran.