Buku baharu tentang Corak Reka Bentuk Agens Mengubah Pemahaman Terhadap Agen AI

Penulis：Yanhua

Antonio Gullí ialah pengarah kejuruteraan Google. Beliau menulis buku 453 muka surat yang memecahkan pembangunan AI Agent kepada 21 corak reka bentuk.

Tetapi ini bukan ulasan buku. Motivasi saya membaca buku ini sangat spesifik: saya pernah menulis Harness Engineering, pengalaman gagal dengan Clawdbot, dan artikel “Agen AI Bukan Sihir” yang menggambarkan tujuh peralihan dari pembaziran Token hingga menjadi benar-benar berguna. Setiap kali selesai menulis, ada satu persoalan yang belum sepenuhnya saya pahami: adakah logika dasar yang dapat digunakan kembali di balik semua ini?

Buku ini memberi saya jawapan, dan lebih mendalam daripada yang saya sangka.

Yang anda tulis mungkin bukan Agent sama sekali

Penilaian paling tajam dalam buku itu tersembunyi di prolog.

Kebanyakan orang menggunakan "AI" yang hanya Level 0: LLM tanpa alat, tanpa ingatan, dan tidak mampu bertindak. Anda bertanya kepadanya filem terbaik Oscar 2025 ialah yang mana, ia menebak. Buku itu menyatakan dengan jelas: perkara Level 0 bukanlah Agent.

Naik ke atas baru benar-benar Agent:

Tahap 1: Pengguna alat
Agen mula menggunakan alat: carian, API, pangkalan data. Tetapi ia bukan sekadar "mampu memanggil antara muka", tetapi perlu mampu menilai sendiri bila harus memanggil, apa yang perlu dipanggil, dan bagaimana menggunakan hasilnya. Buku ini memberikan contoh yang sangat spesifik: pengguna bertanya, "Apakah rancangan baru terkini?", dan agen sedar bahawa maklumat ini tidak terdapat dalam data latihan, maka secara aktif memanggil alat carian untuk mencari, kemudian menggabungkan hasilnya. Langkah kunci berada pada "sedar sendiri". Bukan manusia yang memberitahunya "carilah", tetapi ia menilai sendiri bahawa ia perlu mencari. Kemampuan penilaian ini adalah ambang Tahap 1.
Tahap 2: Pemikir Strategik
Dua perkara tambahan: perancangan dan Kejuruteraan Konteks. Buku tersebut mentakrifkan Kejuruteraan Konteks: bukan menghimpun maklumat, tetapi memilih, memotong, dan mengemas konteks dengan teliti. Contohnya sangat tepat: pengguna ingin mencari kedai kopi di antara dua lokasi. Agen terlebih dahulu memanggil alat peta untuk mendapatkan sekumpulan data, kemudian menilai sendiri “langkah seterusnya hanya memerlukan nama jalan”, memotong output peta menjadi senarai pendek, dan memberikannya kepada alat carian tempatan. Setiap langkah melakukan penurunan kebisingan maklumat.
Dalam buku itu, ada satu ayat yang saya baca berulang-ulang: “Untuk mencapai ketepatan tertinggi AI, ia mesti diberikan konteks yang ringkas, fokus, dan berkesan.” Context Engineering adalah tentang melakukan perkara ini.
Pada tahap ini, Agent masih mampu merefleksikan diri. Selepas menyelesaikan tugas, ia akan semak sendiri dan memperbaiki masalah yang ditemui. Saya akan terangkan lebih lanjut kemudian.
Tahap 3: Kolaborasi Agen Berbilang
Posisi buku ini jelas: jangan terus-menerus berfikir untuk menciptakan super agent serba bisa. Pendekatan yang benar-benar andal adalah seperti membina pasukan—Agent pengurus projek + Agent penyelidik + Agent reka bentuk + Agent penulis kandungan. Contoh yang diberikan dalam buku ini ialah pelancaran produk baharu: seorang “Agent pengurus projek” mengendalikan pengaturan keseluruhan dan menghantar tugas kepada “Agent penyelidikan pasaran”, “Agent reka bentuk produk”, dan “Agent pemasaran”. Kuncinya ialah komunikasi: bagaimana Agent- Agent ini menghantar data, menyegerakkan status, dan menangani konflik. Bahagian ini menggambarkan enam struktur topologi komunikasi, dari yang paling mudah—Agent tunggal—hingga yang paling fleksibel—campuran tersuai—dengan penjelasan tentang setiap jenis skenario yang sesuai.

Setelah melihat empat peringkat ini, saya tiba-tiba memahami mengapa ramai orang berkata, “Agen saya tidak berfungsi dengan baik.” Modelnya tidak bermasalah, masalahnya anda menggunakannya sebagai chatbot, ia mungkin belum sampai ke Peringkat 1.

Gambar

Rekabentuk Konteks: Konsep yang paling diabaikan dalam buku ini

Saya pernah menulis tentang Harness Engineering, yang membahas bahawa rekabentuk trek lebih penting daripada kuasa enjin. Selepas membaca buku ini, saya sedar bahawa Context Engineering ialah pencerminkan Harness Engineering pada peringkat prompt.

Rekabentuk Prompt tradisional hanya mengendalikan “bagaimana anda bertanya”. Context Engineering dalam buku ini mengendalikan “apa yang berada di hadapan Agen sebelum bertanya”. Ia merangkumi empat peringkat maklumat:

Tingkat pertama, system prompt. Tentukan siapa Agent, nada apa, dan batas apa. Kebanyakan orang hanya menulis tingkat ini.
Tahap kedua, data luaran. Dokumen yang diperoleh melalui RAG, nilai balasan panggilan alat, data API masa nyata. Ini adalah tempat kebanyakan orang terhenti: tahu bahawa perlu memberi data, tetapi tidak tahu cara memberinya tanpa membanjiri model.
Tingkat ketiga, data tersirat. Identiti pengguna, sejarah interaksi, status persekitaran. Perkara yang anda tidak nyatakan tetapi Agent sepatutnya tahu. Contohnya, apabila anda berkata kepada Agent, “Bantu saya hantar emel kepada John untuk mengesahkan mesyuarat esok,” ia sepatutnya tahu apa mesyuarat esok anda dalam kalender anda dan apa hubungan anda dengan John.
Tahap keempat, gelung umpan balik. Selepas setiap output daripada Agent, kualiti dinilai secara automatik dan strategi konteks untuk percubaan seterusnya disesuaikan. Buku ini menyebutnya sebagai “pengoptimuman konteks automatik”, dan Google Vertex AI Prompt Optimizer ialah pelaksanaan kejuruteraan berdasarkan idea ini.

Saat saya membaca hingga sini, saya teringat tulisan saya sebelumnya berjudul “Agen AI Bukan Sihir”, di mana salah satu pengalaman yang saya sampaikan ialah “Agen anda memerlukan peraturan, dan banyak peraturan”. Sekarang saya melihat kembali, peraturan-peraturan itu pada dasarnya adalah versi manual daripada Context Engineering, dan buku ini menjadikannya sistematis.

Gambar

Refleksi: Dua Agent benar-benar lebih baik daripada satu

Ini adalah Pola paling bernilai secara praktikal dalam buku ini bagi saya.

Inti Reflection adalah mudah: Agent selepas menyelesaikan tugasnya akan mengulas sendiri dan memperbaiki masalah yang ditemui. Namun, cara melaksanakannya memerlukan kecekatan. Buku tersebut dengan jelas menyatakan: Producer dan Critic mesti menggunakan dua Agent yang berbeza, dengan system prompt yang berbeza. Seorang persona yang mengulas karyanya sendiri pasti akan mempunyai kelemahan. Jika anda meminta LLM yang sama untuk menulis kod terlebih dahulu, kemudian mengulas kod yang ditulisnya sendiri, ia kemungkinan besar akan berkata, “cukup baik.”

The book provides a complete code example.

Prompt pengeluar ialah “Anda seorang pembangun Python, tulis fungsi untuk mengira faktorial, dengan mengendalikan keadaan sempadan dan pengecualian.”
Critic's prompt ialah "Anda seorang jurutera tinggi yang kritis, mengkaji kod baris demi baris, memeriksa Bug, gaya, syarat sempadan yang terlepas, dan tempat yang boleh diperbaiki. Jika sempurna, keluarkan CODE_IS_PERFECT, jika tidak, senaraikan semua masalah."
Kemudian adalah satu gelung for: Producer menulis kod → Critic mengulas → Producer mengubah mengikut masukan → Critic mengulas semula → sehingga Critic mengatakan CODE_IS_PERFECT atau mencapai bilangan lelaran maksimum.

Itu sebegitu mudah. Tetapi buku ini memperingatkan tentang satu masalah kos yang sering diabaikan: setiap kitaran refleksi adalah panggilan LLM baru, dan semakin banyak iterasi, semakin mahal. Selain itu, seiring sejarah perbualan bertambah, tetingkap konteks dipenuhi oleh versi awal dan cadangan kritik, menyebabkan ruang penalaran yang boleh digunakan menjadi semakin kecil. Oleh itu, amalan terbaik untuk Reflection ialah: tetapkan jumlah iterasi maksimum yang munasabah (buku ini menggunakan angka 3), dan berhenti apabila Critic puas, jangan mengejar kesempurnaan.

Gunanya jauh melebihi penulisan kod. Menulis artikel, membuat perancangan, meringkaskan dokumen, menyelesaikan soalan logik—model Producer-Critic boleh digunakan untuk semua ini. Buku ini mencantumkan tujuh aplikasi, dengan logik inti yang sama: hasilkan dahulu, kemudian semak, dan akhirnya kemas kini.

Gambar

Multi-Agent bukan semakin kompleks semakin baik

Bahagian Kolaborasi Agen Pelbagai yang paling saya sukai ialah enam graf topologi komunikasi tersebut. Banyak orang langsung mencuba yang kompleks, tetapi sebenarnya kebanyakan senario hanya memerlukan tiga sahaja:

Agen tunggal (pelaksanaan berasingan): Tugasan boleh dibahagikan kepada masalah-masalah sampingan yang tidak saling bergantung, setiap Agen menangani sendiri. Mudah, mudah diselenggarakan.
Jaringan titik-ke-titik (Peer-to-Peer): Agen berkomunikasi secara langsung tanpa nod pengawasan pusat. Terdesentralisasi, tahan terhadap ralat, jika satu agen gagal, ia tidak mempengaruhi keseluruhan. Tetapi kos koordinasi tinggi dan mudah menjadi kacau.
Pengawas (penjadualan pusat): Seorang Pengawas Agent mengawal sekumpulan Worker Agent. Mengagihkan tugas, mengumpul keputusan, menyelesaikan konflik. Hierarki jelas, mudah dikelola. Tetapi Pengawas adalah titik kegagalan tunggal dan juga halangan prestasi.

Tiga lagi (Supervisor-as-Tool, hierarki, dan campuran tersuai) adalah varian dan kombinasi tiga yang pertama. Buku ini menyatakan dengan jelas: struktur topologi yang anda perlukan bergantung pada kekompleksan tugas anda. Semakin banyak tugas dibahagikan kepada bahagian kecil, semakin tinggi kos komunikasi, dan pada tahap tertentu, model Supervisor menjadi lebih berkesan berbanding model hierarki.

Pengalaman saya ialah, banyak orang menghabiskan 80% masa mereka dalam membina Multi-Agent untuk protokol komunikasi, tetapi lupa bertanya soalan yang lebih asas: adakah tugas ini benar-benar memerlukan beberapa Agent? Buku ini menjelaskan dengan jelas bahawa Single Agent + Reflection pada Level 2 sering sudah mencukupi. Level 3 disediakan untuk skenario di mana Single Agent benar-benar tidak mampu menangani.

Gambar

Model tiga lapisan Memory, saya sebelum ini merasakannya secara samar tetapi tidak memberi nama

Bab Memory adalah yang paling saya hubungkan, kerana semasa saya menulis dua artikel mengenai Obsidian + Claude, saya terus memikirkan satu soalan: Bagaimanakah memori Agent perlu dihuraikan?

Jawapan ada dalam buku:

Sesi (lapisan sesi): Tetingkap konteks percakapan semasa, ini adalah ingatan paling singkat dan akan hilang apabila percakapan berakhir. Model konteks panjang hanya memperbesar tetingkap ini, tetapi pada dasarnya masih sementara, dan setiap inferens memerlukan pemprosesan keseluruhan tetingkap, yang mahal dan perlahan.
Status (Tahap Status): Data sementara semasa tugas sedang berlangsung. Contohnya, “tugas apa yang sedang dilakukan”, “telah selesai sampai tahap mana”, “data apa yang dihasilkan di tengah jalan”. Lebih panjang daripada Session, tetapi dibersihkan apabila tugas selesai; buku ini menggunakan mekanisme State Google ADK sebagai contoh lengkap.
Memori (lapisan kekal): Memori jangka panjang yang melintasi sesi dan tugas. Preferensi pengguna, pengalaman yang dipelajari, dan keputusan sejarah penting disimpan dalam pangkalan data atau perpustakaan vektor, dengan carian semantik. Buku ini menekankan satu titik penting: Memori bukan sekadar disimpan, tetapi perlu direka satu strategi keseluruhan tentang “apa yang perlu disimpan, bila perlu disimpan, dan bagaimana carian dilakukan”. Menyimpan terlalu banyak akan menghasilkan gangguan, tetapi menyimpan terlalu sedikit akan tidak mencukupi.

Dalam artikel sebelum ini yang saya tulis mengenai Clawdbot, saya menyebutkan “fail status” dan “dokumen ruang kerja”, yang pada dasarnya adalah menciptakan lapisan State dan Memory secara manual, dan buku ini merangkaikan perkara ini secara sistematik.

Gambar

Lima anggapan, yang kelima paling tidak masuk akal

Lima anggapan mengenai masa depan Agent disebutkan di akhir buku, empat yang pertama masih berada dalam lingkup penarikan kesimpulan yang masuk akal: Agent generik yang berpindah dari menulis kod ke mengurus projek, penemuan keperluan anda secara aktif dan sangat peribadi, kecerdasan berbadan yang keluar dari skrin ke dunia fizikal, dan Agent menjadi entiti ekonomi yang berdiri sendiri.

Yang kelima membuat saya terkejut:变形 Multi-Agent.

Anda hanya menyatakan tujuan, seperti "membuat perniagaan e-dagang kopi premium". Sistem secara automatik menentukan: mula dengan mencipta "Agen Penyelidikan Pasar" dan "Agen Jenama". Selepas satu putaran data, sistem menilai bahawa Agen Jenama tidak diperlukan lagi, lalu memecahkannya kepada tiga Agen baharu: "Agen Reka Logotype", "Agen Pembinaan Laman Web", "Agen Rantaian Pemasok". Jika Agen Pembinaan Laman Web menjadi halangan, sistem akan secara automatik menyalin tiga Agen selari yang bekerja pada halaman yang berbeza. Sepanjang proses ini, sistem terus menyesuaikan prompt setiap Agen secara automatik dan menyusun semula struktur pasukan secara berterusan.

Buku ini menyebutnya sebagai "sistem agen pelbagai yang berorientasikan matlamat dan berubah secara automatik". Ia bukan sekadar melaksanakan rancangan yang anda tulis, tetapi menghasilkan rancangan sendiri, menyesuaikan rancangan sendiri, dan menyusun semula pasukan pelaksanaan sendiri.

Ini mengingatkan saya pada AutoResearch Karpathy: tulis satu program.md, tentukan matlamat, indikator, dan sempadan, kemudian “mulakan”. Manusia berada di luar lingkaran. Tetapi buku ini membawa lebih jauh: bahkan bagaimana pasukan Agen dibentuk dan disusun semula, diserahkan sepenuhnya kepada sistem untuk menentukan. Manusia hanya menyatakan “apa yang diinginkan”.

Gambar

Tiga perkara yang boleh dilakukan segera

Setelah membaca buku ini, saya ada tiga tindakan yang boleh dilaksanakan segera:

Pertama, tambahkan seorang Critic kepada Agent semasa anda. Sama ada anda menggunakan Claude Code, CrewAI, atau kerangka sendiri, tambahkan satu langkah di akhir workflow semasa anda: biarkan Agent lain (dengan prompt sistem yang berbeza) mengkaji output langkah sebelumnya. Hasilkan kod dengan semakan kod, tulis artikel dengan pemeriksaan fakta, buat perancangan dengan penilaian kelayakan. Satu panggilan LLM tambahan, tetapi peningkatan kualiti sering kali ganda dua. Model Producer-Critic dalam buku ini adalah plug-and-play.
Kedua, mulakan Context Engineering, bukan hanya Prompt Engineering. Lihat semula fail arahan yang anda tulis untuk Agent. Jika ia hanya berisi peraturan "Anda perlu buat apa", tetapi tiada konteks "Apakah persekitaran yang anda hadapi sekarang", tambahkan. Beritahu Agent projek mana yang ia sedang ada di dalam, keputusan apa yang telah dibuat sebelum ini, dan apakah keutamaan pengguna. Bahagian Context Engineering dalam buku itu dan AGENTS.md anda adalah dua pernyataan bagi perkara yang sama.
Ketiga, jangan terburu-buru menggunakan Multi-Agent. Bawalah Agent tunggal anda ke Level 2: memiliki alat, Reflection, dan Memory. Buku ini secara berulang menekankan bahawa Agent tunggal Level 2 yang ditambah dengan Producer-Critic dan Context Engineering mampu menutupi kebanyakan skenario praktikal. Level 3 disediakan untuk tugas-tugas sebenar yang melibatkan pelbagai bidang, berperingkat, dan memerlukan pembahagian tugas secara selari. Masalah kebanyakan orang bukanlah Agent terlalu sedikit, tetapi satu Agent pun belum disetel dengan betul.

Buku ini mempunyai 453 muka surat, diterbitkan oleh Springer pada tahun 2025. Contoh kod merangkumi LangChain/LangGraph, Google ADK, CrewAI, dan OpenAI API. Pengenalan ditulis oleh VP AI Google Cloud, dan terdapat kata pengantar daripada CIO Goldman Sachs, yang secara mengejutkan sangat menarik.

Tetapi sebab saya merekomendasikannya bukanlah “komprehensif”. Setelah anda membacanya, anda akan sedar satu perkara: semua jebakan yang anda alami semasa menggunakan Agent dalam enam bulan terakhir, telah diringkaskan menjadi pola. Anda tidak perlu lagi mencipta Reflection, tidak perlu lagi menebak bagaimana Memory perlu dilapis, dan tidak perlu lagi mencuba topologi komunikasi yang mana sesuai untuk Multi-Agent.

Seseorang telah melukis peta untukmu, yang tinggal hanyalah berjalan.

Are you developing with an AI Agent? What level is your current Agent at?