Kualiti Output Agen AI Berkaitan dengan Pembakaran Token

Penulis: Systematic Long Short

Diterjemahkan oleh Deep潮 TechFlow

Pengenalan Shenchao: Argumen utama artikel ini hanyalah satu pernyataan: Kualiti output AI Agent adalah berkadar terus dengan jumlah Token yang anda masukkan.

Penulis bukan hanya membincangkan teori secara umum, tetapi memberikan dua kaedah spesifik yang boleh digunakan mulai hari ini, serta dengan jelas menentukan batas-batas di mana Token tidak boleh dihasilkan—masalah "kebaruan".

Untuk pembaca yang sedang menulis kod atau menjalankan alur kerja menggunakan Agent, kepadatan maklumat dan keterlaksanaan sangat tinggi.

Pengenalan

Baiklah, anda harus akui bahawa tajuk ini memang menarik perhatian—tetapi serius, ini bukan lawak.

Pada tahun 2023, ketika kami masih menggunakan LLM untuk menjalankan kod pengeluaran, semua orang di sekeliling kami terkejut, kerana pada masa itu, persepsi umum ialah LLM hanya mampu menghasilkan sampah yang tidak boleh digunakan. Tetapi kami mengetahui satu perkara yang orang lain tidak sedari: kualiti output Agent adalah fungsi kepada jumlah Token yang anda masukkan. Begitu sahaja.

Anda boleh melihatnya sendiri dengan menjalankan beberapa eksperimen. Biarkan Agent menyelesaikan tugas pemrograman yang kompleks dan agak jarang—contohnya, mengimplementasikan algoritma pengoptimuman cembung dengan batasan dari awal. Mulakan dengan pengaturan pemikiran paling rendah; kemudian alihkan ke pengaturan pemikiran tertinggi, dan biarkan ia meninjau semula kodnya untuk melihat berapa banyak ralat yang dapat dikesan. Cuba juga pengaturan sederhana dan tinggi. Anda akan melihat secara intuitif: bilangan ralat berkurang secara monoton seiring dengan peningkatan jumlah Token yang digunakan.

Ini tidak sukar difahami, kan?

Semakin banyak token = semakin sedikit ralat. Anda boleh mendorong logik ini lebih jauh lagi; ini pada dasarnya adalah idea inti (yang disederhanakan) di sebalik produk ulasan kod. Dalam konteks yang sama sekali berbeza, gunakan sejumlah besar token (contohnya, biarkan ia menganalisis kod baris demi baris dan menilai sama ada setiap baris mengandungi ralat) — dengan cara ini, anda hampir pasti dapat mengesan sebahagian besar, bahkan semua ralat. Proses ini boleh diulang sepuluh kali, seratus kali, setiap kali memeriksa repositori kod dari "sudut pandang yang berbeza", dan pada akhirnya anda akan dapat menggali semua ralat.

Pandangan bahawa "membakar lebih banyak token akan meningkatkan kualiti agen" didukung oleh bukti empirikal: pasukan yang mengklaim mampu menggunakan agen untuk menulis kod sepenuhnya dan melancarkannya secara langsung ke pengeluaran, sama ada merupakan penyedia model asas itu sendiri, atau syarikat yang mempunyai dana yang sangat melimpah.

Jadi, jika anda masih berjuang kerana Agent tidak dapat menghasilkan kod peringkat pengeluaran—dengan jujur, masalahnya ada pada anda. Atau, lebih tepatnya, ada pada dompet anda.

Bagaimana untuk menentukan sama ada Token yang saya bakar mencukupi

Saya pernah menulis satu artikel penuh yang menyatakan bahawa masalahnya tidak berada pada rangka kerja (harness) yang anda gunakan—anda masih boleh menghasilkan sesuatu yang cemerlang dengan "mengekalkan kesederhanaan", dan saya masih berpegang pada pandangan ini. Anda telah membaca artikel itu, mengikuti arahan tersebut, tetapi masih kecewa dengan output Agen. Anda menghantar DM kepada saya, dan saya telah membacanya tetapi tidak membalas.

Ini, ialah balasan.

Prestasi Agen anda lemah dan tidak dapat menyelesaikan masalah, kebanyakannya kerana token yang anda bakar tidak mencukupi.

Jumlah token yang diperlukan untuk menyelesaikan satu masalah sepenuhnya bergantung pada skala, kompleksiti, dan kebaruan masalah tersebut.

Berapakah hasil bagi 2+2? Tidak memerlukan banyak Token.

"Bantukan saya menulis bot yang boleh memindai semua pasaran antara Polymarket dan Kalshi, mengenal pasti pasaran yang serupa secara semantik dan sepatutnya diselesaikan pada masa yang sama berikutan peristiwa yang sama, menetapkan sempadan tanpa peluang arbitrage, dan secara automatik melakukan perdagangan dengan latensi rendah apabila peluang arbitrage muncul" — ini memerlukan pembakaran banyak Token.

Kami menemui satu perkara yang menarik dalam amalan.

Jika anda memasukkan cukup banyak Token untuk menangani masalah yang disebabkan oleh skala dan kompleksiti, agen pasti akan dapat menyelesaikannya. Dengan kata lain, jika anda ingin membina sesuatu yang sangat kompleks dengan banyak komponen dan baris kod, selagi anda melabur cukup banyak Token ke dalam masalah-masalah ini, semuanya akhirnya akan dapat diselesaikan sepenuhnya.

Di sini ada satu pengecualian kecil tetapi penting.

Soalan anda tidak boleh terlalu baru. Pada peringkat sekarang, sejumlah token pun tidak dapat menyelesaikan masalah "kebaruan". Token yang mencukupi boleh mengurangkan kesilapan yang disebabkan oleh kompleksiti kepada sifar, tetapi tidak boleh membuat Agent mencipta sesuatu yang tidak diketahuinya.

Kesimpulan ini sebenarnya membuat kita lega.

Kami telah menghabiskan banyak usaha, membakar—sangat, sangat, sangat banyak—Token, untuk mencuba sama ada Agent boleh mengembalikan proses pelaburan institusi tanpa panduan hampir sepenuhnya. Sebahagian sebabnya ialah untuk memahami sejauh mana kami (sebagai penyelidik kuantitatif) masih berjauhan daripada digantikan sepenuhnya oleh AI. Hasilnya, Agent benar-benar tidak mampu mendekati proses pelaburan institusi yang munasabah. Kami percaya sebahagian sebabnya ialah mereka tidak pernah melihat perkara ini sebelumnya—iaitu, proses pelaburan institusi tidak wujud dalam data latihan.

Jadi, jika soalan anda adalah baru, jangan harap untuk menyelesaikannya dengan hanya menambahkan Token. Anda perlu memimpin proses eksplorasi sendiri. Tetapi sekali anda menentukan penyelesaian yang sesuai, anda boleh dengan tenang menambahkan Token untuk melaksanakannya—tidak kira seberapa besar kod atau seberapa kompleks komponennya, ia bukan masalah.

Di sini terdapat prinsip heuristik yang mudah: Anggaran token harus meningkat secara sebanding dengan jumlah baris kod.

Token yang dibakar berlebihan sebenarnya sedang melakukan apa

Dalam amalan, token tambahan biasanya meningkatkan kualiti kejuruteraan Agent melalui beberapa cara berikut:

Biarkan ia menghabiskan lebih banyak masa untuk menarik kesimpulan dalam cubaan yang sama, memberi peluang untuk mengenal pasti logik yang salah sendiri. Semakin mendalam penarikan kesimpulan = perancangan yang lebih baik = kebarangkalian kejayaan dalam satu cubaan lebih tinggi.

Benarkan ia melakukan beberapa percubaan berasingan, melalui jalan penyelesaian yang berbeza. Sesetengah jalan lebih baik daripada yang lain. Dengan membenarkan lebih daripada sekali percubaan, ia boleh memilih yang paling optimum.

Secara serupa, lebih banyak usaha perancangan bebas membolehkannya melepaskan arah lemah dan mengekalkan yang paling menjanjikan.

Lebih banyak token membolehkannya mengkritik kerja sebelumnya dalam konteks baharu, memberinya peluang untuk memperbaiki diri, bukan terperangkap dalam「kecenderungan penalaran」tertentu.

Tentu, dan satu perkara paling saya sukai: lebih banyak token bermaksud ia boleh diverifikasi dengan ujian dan alat. Menjalankan kod secara langsung untuk melihat sama ada ia berfungsi adalah cara paling boleh dipercayai untuk mengesahkan jawapan yang betul.

Logik ini berfungsi kerana kegagalan kejuruteraan Agent bukanlah rawak. Hampir selalunya disebabkan oleh pemilihan jalan yang salah terlalu awal, tidak memeriksa sama ada jalan tersebut benar-benar boleh dilalui (pada peringkat awal), atau tidak mempunyai bajet yang mencukupi untuk pulih dan undur apabila kesilapan ditemui.

Ceritanya begini. Token secara harfiah adalah kualitas keputusan yang anda beli. Bayangkan ia sebagai kerja penyelidikan: jika anda meminta seseorang menjawab soalan sukar secara serta-merta, kualiti jawapan akan menurun seiring dengan peningkatan tekanan masa.

Penyelidikan, pada dasarnya, adalah proses menghasilkan asas “mengetahui jawapan”. Manusia menghabiskan masa secara biologi untuk menghasilkan jawapan yang lebih baik, manakala Agen menghabiskan lebih banyak masa pengiraan untuk menghasilkan jawapan yang lebih baik.

Bagaimana untuk meningkatkan Agent anda

Anda mungkin masih ragu-ragu, tetapi terdapat banyak kertas kerja yang menyokong perkara ini; dengan jujur, kehadiran tombol pengatur "penalaran" itu sendiri sudah cukup sebagai bukti yang anda perlukan.

Sebuah kertas kerja yang saya sangat sukai, di mana penyelidik melatih dengan sekumpulan kecil sampel penalaran yang dipilih dengan teliti, kemudian menggunakan kaedah untuk memaksa model terus berfikir apabila ia ingin berhenti—dengan menambahkan “Wait” (tunggu) di tempat ia ingin berhenti. Hanya dengan tindakan ini, skor ujian rujukan meningkat dari 50% kepada 57%.

Saya ingin katakan dengan sejelas mungkin: jika anda terus mengeluh bahawa kod yang ditulis oleh Agen hanya memadai, tahap pemikiran tertinggi sekali jalan mungkin masih tidak mencukupi untuk anda.

Saya berikan dua penyelesaian yang sangat mudah.

Cara mudah satu: WAIT (tunggu)

Perkara paling mudah yang boleh anda mulakan hari ini: bangunkan satu kitaran automatik — selepas dibina, biarkan Agent meninjau N kali dengan konteks baharu, dan memperbaiki setiap masalah yang ditemui.

Jika anda menemui teknik ringkas ini meningkatkan kesan Kejuruteraan Agen anda, anda sekurang-kurangnya memahami bahawa masalah anda hanyalah masalah bilangan Token—maka sila join Kelab Pembakaran Token.

Cara mudah dua: VERIFY

Biarkan Agent mengesahkan kerjanya sejak awal dan kerap kali. Tulis ujian untuk membuktikan bahawa laluan yang dipilih benar-benar berfungsi. Ini sangat berguna untuk projek yang sangat kompleks dan bersarang dalam—satu fungsi mungkin dipanggil oleh banyak fungsi lain di hulu. Menangkap ralat di hulu boleh menghemat banyak masa pengiraan (Token) seterusnya. Oleh itu, jika boleh, tetapkan「titik semakan pengesahan」di sepanjang proses pembinaan.

Setelah menulis satu bahagian, agen utama mengatakan selesai? Biarkan agen kedua mengesahkan semula. Aliran pemikiran yang tidak berkaitan boleh menutupi sumber bias sistemik.

Itu sahaja pada dasarnya. Saya boleh menulis banyak lagi tentang topik ini, tetapi saya percaya bahawa jika anda sedar akan dua perkara ini dan melaksanakannya dengan baik, ia akan membantu anda menyelesaikan 95% masalah. Saya yakin bahawa melakukan perkara-perkara ringkas sehingga sempurna, kemudian menambahkan kompleksiti mengikut keperluan.

Saya telah menyebut bahawa "kebaruan" adalah masalah yang tidak dapat diselesaikan dengan Token, dan saya ingin menekankan semula kerana anda pasti akan terperangkap dalam masalah ini suatu hari nanti, lalu datang mengadu kepada saya bahawa menimbun Token tidak berguna.

Apabila masalah yang ingin anda selesaikan tidak berada dalam set latihan, anda lah orang yang benar-benar perlu memberikan penyelesaian. Oleh itu, pengetahuan bidang masih sangat penting.