คุณภาพของตัวแทน AI มีความสัมพันธ์กับการเผาโทเค็น

ผู้เขียน: Systematic Long Short

แปลโดย: 深潮 TechFlow

คำแนะนำจาก Shenchao: ข้อโต้แย้งหลักของบทความนี้มีเพียงประโยคเดียว: คุณภาพของผลลัพธ์จาก AI Agent นั้นสัมพันธ์โดยตรงกับจำนวน Token ที่คุณลงทุน

ผู้เขียนไม่ได้พูดถึงทฤษฎีทั่วไป แต่ได้เสนอวิธีเฉพาะสองวิธีที่สามารถเริ่มใช้ได้ตั้งแต่วันนี้ และได้ระบุขอบเขตที่ไม่สามารถสร้าง Token ได้อย่างชัดเจน — ปัญหาความใหม่

สำหรับผู้อ่านที่กำลังเขียนโค้ดหรือรันเวิร์กโฟลว์ด้วย Agent ข้อมูลมีความหนาแน่นสูงและสามารถดำเนินการได้จริง

บทนำ

โอเค คุณต้องยอมรับว่าหัวข้อนี้ดึงดูดความสนใจจริงๆ—แต่พูดจริงๆ นี่ไม่ใช่เรื่องตลก

ในปี 2023 เมื่อเรายังใช้ LLM ในการรันโค้ดผลิตภัณฑ์ ทุกคนรอบข้างต่างตกใจ เพราะในเวลานั้นความเข้าใจทั่วไปคือ LLM สามารถสร้างแต่สิ่งที่ไม่สามารถใช้งานได้ แต่เราทราบสิ่งหนึ่งที่ผู้อื่นไม่ตระหนัก: คุณภาพของผลลัพธ์จาก Agent เป็นฟังก์ชันของจำนวน Token ที่คุณใช้ลงทุน แค่นั้นเอง

คุณสามารถทดลองด้วยตัวเองเพื่อดูผลลัพธ์ ให้ Agent ดำเนินการภารกิจการเขียนโปรแกรมที่ซับซ้อนและค่อนข้างเฉพาะทาง—เช่น การสร้างอัลกอริทึมการเพิ่มประสิทธิภาพแบบเวียนกำลังที่มีข้อจำกัดตั้งแต่เริ่มต้น ใช้ระดับการคิดต่ำสุดก่อน แล้วสลับไปที่ระดับการคิดสูงสุด เพื่อให้มันทบทวนโค้ดของตัวเองและดูว่าสามารถพบข้อผิดพลาดได้กี่จุด ลองทั้งระดับกลางและระดับสูงด้วย คุณจะเห็นด้วยตนเองว่า: จำนวนข้อผิดพลาดลดลงอย่างสม่ำเสมอตามปริมาณ Token ที่ใช้

นี่ไม่ได้ยากที่จะเข้าใจ ใช่ไหม?

ยิ่งมีโทเค็นมากเท่าไหร่ ข้อผิดพลาดก็ยิ่งน้อยลง คุณสามารถขยายแนวคิดนี้ต่อไปได้อีก ซึ่งเป็นพื้นฐานที่ถูกเรียบง่ายของผลิตภัณฑ์รีวิวโค้ด ลองเปลี่ยนบริบทให้สมบูรณ์แบบใหม่ โดยใช้โทเค็นจำนวนมาก (เช่น ให้มันวิเคราะห์โค้ดทีละบรรทัด เพื่อตรวจสอบว่าแต่ละบรรทัดมีบั๊กหรือไม่) — วิธีนี้จะสามารถจับบั๊กส่วนใหญ่ หรือแม้แต่ทั้งหมดได้ กระบวนการนี้สามารถทำซ้ำได้สิบครั้ง ร้อยครั้ง โดยแต่ละครั้งจะพิจารณาโค้ดจากมุมมองที่ “ต่างกัน” และในที่สุดคุณจะสามารถค้นพบบั๊กทั้งหมดได้

แนวคิดที่ว่า “การเผาโทเค็นมากขึ้นจะช่วยยกระดับคุณภาพของเอเจนต์” ยังมีหลักฐานสนับสนุนอีกประการหนึ่ง: ทีมที่อ้างว่าสามารถใช้เอเจนต์เขียนโค้ดทั้งหมดและส่งขึ้นผลิตได้ทันที ล้วนเป็นผู้ให้บริการโมเดลพื้นฐานเอง หรือบริษัทที่มีทุนจัดหาอย่างมหาศาล

ดังนั้น หากคุณยังคงกังวลว่า Agent ไม่สามารถสร้างโค้ดระดับผลิตได้ — พูดแบบตรงไปตรงมา ปัญหาอยู่ที่คุณ หรือพูดอีกแบบคือ อยู่ที่กระเป๋าเงินของคุณ

วิธีการตรวจสอบว่า Token ที่คุณเผาเพียงพอหรือไม่

ฉันเคยเขียนบทความเต็มชิ้นว่า ปัญหาไม่ได้อยู่ที่กรอบที่คุณสร้างขึ้น (harness) การรักษาความเรียบง่ายก็สามารถสร้างสิ่งที่ยอดเยี่ยมได้ ฉันยังคงยึดมั่นในความคิดเห็นนี้อยู่ คุณอ่านบทความนั้นแล้วทำตาม แต่ก็ยังรู้สึกผิดหวังกับผลลัพธ์ของ Agent คุณส่งข้อความส่วนตัวมาหาฉัน ฉันเห็นแล้วว่าอ่านข้อความแล้ว แต่ยังไม่ได้ตอบ

ข้อนี้คือการตอบกลับ

การแสดงของ Agent ของคุณไม่ดีและไม่สามารถแก้ปัญหาได้ ส่วนใหญ่ก็เพราะคุณเผา Token ไม่พอ

จำนวนโทเค็นที่ต้องใช้เพื่อแก้ปัญหาหนึ่งๆ ขึ้นอยู่กับขนาด ความซับซ้อน และความใหม่ของปัญหานั้น

“2+2 เท่ากับเท่าไหร่?” ไม่ต้องใช้ Token มาก

“ช่วยเขียนบอทที่สแกนตลาดทั้งหมดระหว่าง Polymarket และ Kalshi เพื่อหาตลาดที่มีความหมายคล้ายกันและควรปิดการชำระเงินในเหตุการณ์เดียวกัน ตั้งขอบเขตการไม่มีโอกาสทำกำไรโดยไม่มีความเสี่ยง และเมื่อมีโอกาสทำกำไรโดยไม่มีความเสี่ยงให้ทำการซื้อขายอัตโนมัติด้วยความล่าช้าต่ำ” — นี่ต้องใช้โทเค็นจำนวนมาก

เราพบสิ่งที่น่าสนใจในการปฏิบัติจริง

หากคุณลงทุน Token จำนวนมากเพื่อจัดการกับปัญหาที่เกิดจากขนาดและความซับซ้อน ตัวแทนจะสามารถแก้ไขได้แน่นอน พูดอีกแบบคือ ถ้าคุณต้องการสร้างสิ่งที่ซับซ้อนมาก มีส่วนประกอบและบรรทัดรหัสมากมาย เพียงแค่คุณลงทุน Token จำนวนมากลงไปในปัญหาเหล่านี้ สุดท้ายแล้วพวกมันจะถูกแก้ไขอย่างสมบูรณ์

มีข้อยกเว้นเล็กน้อยแต่สำคัญ

คำถามของคุณไม่สามารถใหม่เกินไปได้ ในขั้นตอนปัจจุบัน จำนวนโทเค็นใดๆ ก็ไม่สามารถแก้ปัญหาเรื่อง “ความใหม่” ได้ โทเค็นที่เพียงพอสามารถลดข้อผิดพลาดที่เกิดจากความซับซ้อนให้เป็นศูนย์ แต่ไม่สามารถทำให้เอเจนต์สร้างสิ่งที่มันไม่รู้จักขึ้นมาได้

ข้อสรุปนี้จริงๆ แล้วทำให้เรารู้สึกโล่งใจ

เราใช้ความพยายามอย่างมากและเผา Token ไปมากมายมหาศาล เพื่อทดสอบว่า Agent สามารถระบุกระบวนการลงทุนขององค์กรได้โดยไม่มีคำแนะนำเลยหรือไม่ ส่วนหนึ่งเป็นเพราะเราต้องการทราบว่า เรา (ในฐานะนักวิจัยเชิงปริมาณ) ยังเหลือเวลาอีกเท่าใดก่อนจะถูก AI แทนที่อย่างสมบูรณ์ ผลลัพธ์คือพบว่า Agent ไม่สามารถใกล้เคียงกับกระบวนการลงทุนขององค์กรได้เลย เราเชื่อว่าสาเหตุส่วนหนึ่งคือพวกมันไม่เคยเห็นสิ่งนี้มาก่อน—กล่าวคือ กระบวนการลงทุนขององค์กรไม่มีอยู่ในชุดข้อมูลการฝึกสอน

ดังนั้น หากคำถามของคุณเป็นเรื่องใหม่ อย่าคาดหวังว่าจะแก้ไขได้ด้วยการใช้ Token จำนวนมาก คุณต้องเป็นผู้นำกระบวนการสำรวจด้วยตัวเอง แต่เมื่อคุณตัดสินใจวิธีการดำเนินการแล้ว คุณสามารถวางใจใช้ Token จำนวนมากเพื่อดำเนินการได้—ไม่ว่ารหัสจะใหญ่เพียงใดหรือส่วนประกอบจะซับซ้อนแค่ไหน ก็ไม่ใช่ปัญหา

มีหลักการเชิงอุปมาที่ง่าย: งบประมาณโทเค็นควรเพิ่มขึ้นเป็นสัดส่วนกับจำนวนบรรทัดรหัส

โทเค็นที่ถูกเผาจำนวนมากกำลังทำอะไรอยู่

ในทางปฏิบัติ Token เพิ่มเติมมักช่วยยกระดับคุณภาพงานของ Agent ผ่านวิธีการต่อไปนี้:

ให้มันใช้เวลาในการให้เหตุผลนานขึ้นในครั้งเดียว เพื่อเพิ่มโอกาสในการค้นพบข้อผิดพลาดทางตรรกะด้วยตัวเอง การให้เหตุผลยิ่งลึกซึ้งเท่าใด = การวางแผนยิ่งดีเท่านั้น = โอกาสที่จะถูกต้องในครั้งแรกยิ่งสูงขึ้น

อนุญาตให้มันลองหลายครั้งอย่างอิสระ โดยใช้เส้นทางการแก้ปัญหาที่ต่างกัน เส้นทางบางเส้นจะดีกว่าเส้นทางอื่นๆ การอนุญาตให้ลองหลายครั้งจะช่วยให้มันเลือกทางที่ดีที่สุด

ในทำนองเดียวกัน การทดลองวางแผนอย่างอิสระเพิ่มเติมช่วยให้สามารถละทิ้งทิศทางที่อ่อนแอและรักษาทิศทางที่มีศักยภาพสูงสุดไว้

โทเค็นเพิ่มเติมช่วยให้มันสามารถวิจารณ์งานก่อนหน้าของตัวเองในบริบทใหม่ทั้งหมด และให้โอกาสในการปรับปรุง แทนที่จะติดอยู่กับ “ความเคยชินในการให้เหตุผล” ใดๆ

แน่นอน และจุดที่ฉันชอบที่สุดอีกอย่างคือ: โทเค็นที่มากขึ้นหมายความว่าสามารถตรวจสอบได้ด้วยการทดสอบและเครื่องมือ การรันโค้ดจริงเพื่อดูว่ามันทำงานได้หรือไม่ เป็นวิธีที่เชื่อถือได้ที่สุดในการยืนยันว่าคำตอบถูกต้อง

เหตุผลที่ตรรกะนี้ใช้ได้ เพราะความล้มเหลวของ Agent ไม่ได้เกิดขึ้นแบบสุ่ม แต่เกิดขึ้นแทบเสมอจากกรณีที่เลือกเส้นทางผิดตั้งแต่เนิ่นๆ ไม่ได้ตรวจสอบว่าเส้นทางนั้นสามารถเดินไปได้จริงหรือไม่ (ในช่วงต้น) หรือไม่มีงบประมาณเพียงพอในการฟื้นตัวและถอยกลับเมื่อพบข้อผิดพลาด

เรื่องก็คืออย่างนี้ โทเค็นหมายถึงคุณภาพของการตัดสินใจที่คุณซื้อมาตรงๆ ลองนึกถึงงานวิจัย: หากคุณให้ใครสักคนตอบคำถามยากทันที คุณภาพของคำตอบจะลดลงเมื่อความกดดันด้านเวลาเพิ่มขึ้น

การวิจัย โดยพื้นฐานแล้ว คือสิ่งที่สร้างความรู้ว่า “รู้คำตอบ” มนุษย์ใช้เวลาในเชิงชีวภาพเพื่อผลิตคำตอบที่ดีขึ้น ในขณะที่เอเจนต์ใช้เวลาการคำนวณมากขึ้นเพื่อผลิตคำตอบที่ดีขึ้น

วิธีการปรับปรุง Agent ของคุณ

คุณอาจยังคงสงสัย แต่มีงานวิจัยจำนวนมากที่สนับสนุนเรื่องนี้ พูดตรงๆ แล้ว ความมีอยู่ของปุ่มปรับการ “ให้เหตุผล” ก็เป็นหลักฐานทั้งหมดที่คุณต้องการ

ฉันชอบบทความหนึ่งมาก โดยนักวิจัยได้ฝึกโมเดลด้วยตัวอย่างการให้เหตุผลจำนวนน้อยที่ถูกออกแบบมาอย่างรอบคอบ แล้วใช้วิธีการบังคับให้โมเดลคงการคิดต่อไปเมื่อต้องการหยุด—โดยการเพิ่มคำว่า “Wait” (รอสักครู่) ที่จุดที่มันต้องการหยุด เพียงแค่การกระทำนี้ก็ช่วยเพิ่มผลลัพธ์ในการทดสอบมาตรฐานจาก 50% เป็น 57%

ฉันอยากพูดให้ชัดเจนที่สุด: ถ้าคุณยังคงบ่นว่าโค้ดที่ Agent เขียนนั้นใช้ได้ไม่ดีพอ ระดับการคิดสูงสุดในแต่ละครั้งอาจยังไม่เพียงพอสำหรับคุณ

ฉันให้คุณสองวิธีแก้ปัญหาที่ง่ายมาก

วิธีง่ายๆ ข้อหนึ่ง: WAIT (รอ)

สิ่งที่ง่ายที่สุดที่คุณสามารถเริ่มทำได้วันนี้: ตั้งค่าวงจรอัตโนมัติ—หลังจากสร้างเสร็จ ให้ Agent ทบทวน N ครั้งด้วยบริบทใหม่ทั้งหมด และแก้ไขทุกครั้งที่พบปัญหา

หากคุณพบว่าเทคนิคง่ายๆ นี้ช่วยปรับปรุงประสิทธิภาพของ Agent ของคุณ คุณก็เข้าใจแล้วว่าปัญหาของคุณแค่เรื่องจำนวน Token — มาเข้าร่วมสโมสรการเผา Token กันเถอะ

วิธีที่สองอย่างง่าย: VERIFY (ยืนยันตัวตน)

ให้ Agent ตรวจสอบงานของตนเองให้บ่อยและเร็วที่สุดเท่าที่จะทำได้ เขียนการทดสอบเพื่อพิสูจน์ว่าเส้นทางที่เลือกสามารถทำงานได้จริง ซึ่งมีประโยชน์อย่างยิ่งสำหรับโครงการที่ซับซ้อนสูงและมีการซ้อนกันลึก—ฟังก์ชันหนึ่งอาจถูกเรียกใช้งานโดยฟังก์ชันอื่นๆ อีกหลายตัวในระยะล่าง การจับข้อผิดพลาดในระยะบนจะช่วยประหยัดเวลาการคำนวณ (Token) จำนวนมากในขั้นตอนถัดไป ดังนั้น หากเป็นไปได้ ให้ตั้ง “จุดตรวจสอบการยืนยัน” ไว้ทั่วทั้งกระบวนการสร้าง

เขียนเสร็จหนึ่งชุดแล้ว ตัวแทนหลักบอกว่าเสร็จแล้ว? ให้ตัวแทนที่สองมาตรวจสอบอีกครั้ง กระแสความคิดที่ไม่เกี่ยวข้องสามารถปกปิดแหล่งที่มาของอคติเชิงระบบ

นี่ก็เกือบครบแล้ว ฉันสามารถเขียนเกี่ยวกับหัวข้อนี้ได้อีกมาก แต่ฉันเชื่อว่า只要你意识到这两件事并好好落地执行，就能帮你解决 95%的问题。我坚信把简单的事情做到极致，再按需叠加复杂度。

ฉันได้กล่าวถึงความใหม่เป็นปัญหาที่ไม่สามารถแก้ไขได้ด้วยโทเค็น ฉันอยากเน้นอีกครั้ง เพราะคุณจะต้องเจอกับปัญหานี้ในสักวันหนึ่ง และมาบ่นกับฉันว่าการสะสมโทเค็นไม่มีประโยชน์

เมื่อคุณต้องแก้ปัญหาที่ไม่อยู่ในชุดข้อมูลการฝึกอบรม คุณคือคนที่ต้องให้แนวทางแก้ไขที่แท้จริง ดังนั้น ความเชี่ยวชาญในสาขาจึงยังคงมีความสำคัญอย่างยิ่ง