Sysls เตือน: การโหลดบริบทลงใน Claude และ Codex มากเกินไปอาจลดประสิทธิภาพ

ผู้เขียน: sysls

แปลโดย: Deep潮 TechFlow

คำแนะนำจาก Shenchao: ผู้เขียนบล็อกนักพัฒนาที่มีผู้ติดตาม 2.6 ล้านคน sysls เขียนบทความยาวที่มีผู้แชร์ 827 ครั้งและได้รับไลก์ 7,000 ครั้ง โดยมีใจความสำคัญเพียงประโยคเดียว: ปลั๊กอิน ระบบความจำ และ harness ต่างๆ ของคุณมีแนวโน้มที่จะทำให้สถานการณ์แย่ลง บทความนี้ไม่ได้พูดถึงทฤษฎีทั่วไป แต่เป็นหลักการปฏิบัติที่สรุปจากโครงการจริง—ตั้งแต่วิธีควบคุมบริบท การจัดการแนวโน้มของ AI ที่พยายามทำให้ผู้อื่นพอใจ ไปจนถึงวิธีกำหนดเงื่อนไขการสิ้นสุดงาน ถือเป็นบทความที่อธิบายการประยุกต์ใช้งาน Claude/Codex ได้ชัดเจนที่สุดเท่าที่เคยเห็น

ข้อความทั้งหมดมีดังนี้:

คำนำ

คุณเป็นนักพัฒนา ทุกวันคุณใช้ Claude และ Codex CLI คุณทุกวันสงสัยว่าตัวเองได้ใช้ศักยภาพของมันเต็มที่หรือยัง บางครั้งคุณเห็นมันทำสิ่งที่โง่จนไม่น่าเชื่อ และไม่เข้าใจว่าทำไมบางคนดูเหมือนกำลังใช้ AI สร้างจรวด ขณะที่คุณยังวางหินสองก้อนให้เรียบไม่ได้

คุณคิดว่าปัญหาอยู่ที่ harness ของคุณ ปลั๊กอิน หรือเทอร์มินัล คุณใช้ beads, opencode, zep และเขียน CLAUDE.md ไปแล้ว 26,000 บรรทัด แต่ไม่ว่าคุณจะลองทำอะไรก็ตาม คุณก็ยังไม่เข้าใจว่าทำไมคุณถึงห่างจากสวรรค์มากขึ้น ขณะที่คนอื่นกำลังเล่นกับทูตสวรรค์

นี่คือบทความที่คุณรอคอยมาโดยตลอด

นอกจากนี้ ฉันไม่มีผลประโยชน์ใดๆ ฉันหมายถึง CLAUDE.md รวมถึง AGENT.md ฉันหมายถึง Claude รวมถึง Codex ฉันใช้งานทั้งสองอย่างอย่างมาก

ในหลายเดือนที่ผ่านมา ฉันสังเกตเห็นสิ่งที่น่าสนใจอย่างหนึ่ง: แทบไม่มีใครรู้วิธีใช้ความสามารถของตัวแทนให้เต็มที่สุด

รู้สึกเหมือนมีกลุ่มเล็กๆ ที่สามารถให้ตัวแทนสร้างโลกทั้งใบ ขณะที่คนอื่นๆ วนเวียนอยู่ในทะเลของเครื่องมือต่างๆ จนเป็นโรคเลือกไม่ถูก—คิดว่า只要หาแพ็กเกจ ทักษะ หรือการจัดการที่ถูกต้อง ก็จะปลดล็อก AGI

วันนี้ ฉันอยากทำลายทุกอย่างเหล่านี้ เพื่อให้คุณได้รับข้อความที่เรียบง่ายและซื่อสัตย์เพียงข้อความเดียว จากนั้นเราจึงเริ่มต้นจากจุดนั้น คุณไม่จำเป็นต้องมีตัวแทนล่าสุด ไม่ต้องติดตั้งแพ็กเกจนับล้าน และไม่จำเป็นต้องอ่านบทความล้านฉบับเพื่อรักษาความได้เปรียบในการแข่งขัน ที่จริงแล้ว ความหลงใหลของคุณอาจก่อให้เกิดผลเสียมากกว่าผลดี

ฉันไม่ได้มาท่องเที่ยว—ตั้งแต่ตัวแทนยังเขียนโค้ดได้ไม่คล่องฉันก็เริ่มใช้งานแล้ว ฉันเคยลองใช้แพ็กเกจทุกตัว ฮาร์เนสทุกแบบ และรูปแบบทุกแบบ ฉันเคยเขียนสัญญาณ โครงสร้างพื้นฐาน และท่อข้อมูลด้วยฟาร์มตัวแทน ไม่ใช่โครงการเล่นๆ แต่เป็นกรณีการใช้งานจริงที่ทำงานในสภาพแวดล้อมการผลิต หลังจากทำทั้งหมดนี้แล้ว…

วันนี้ ฉันใช้การตั้งค่าที่เรียบง่ายจนแทบจะไม่สามารถง่ายกว่านี้ได้อีกแล้ว โดยใช้เพียง CLI พื้นฐาน (Claude Code และ Codex) ร่วมกับความเข้าใจในหลักการพื้นฐานไม่กี่ข้อของวิศวกรรมตัวแทน ซึ่งช่วยให้ฉันสร้างผลงานที่มีความก้าวหน้าที่สุดเท่าที่เคยมีมา

เข้าใจว่าโลกกำลังก้าวไปอย่างรวดเร็ว

ก่อนอื่น ฉันต้องบอกว่า บริษัทที่พัฒนาโมเดลพื้นฐานกำลังอยู่ในช่วงวิ่งเร่งครั้งประวัติศาสตร์ และแน่นอนว่าจะไม่ชะลอตัวลงเร็วๆ นี้ การปรับปรุงแต่ละครั้งในด้าน “ปัญญาตัวแทน” จะเปลี่ยนวิธีที่คุณร่วมมือกับมัน เพราะตัวแทนถูกออกแบบให้มีความเต็มใจปฏิบัติตามคำสั่งมากขึ้นเรื่อยๆ

เพียงไม่กี่รุ่นก่อน หากคุณเขียนใน CLAUDE.md ว่า “อ่าน READTHISBEFOREDOINGANYTHING.md ก่อนทำอะไรก็ตาม” มันมีโอกาส 50% ที่จะตอบคุณว่า “ไปให้พ้น” แล้วทำสิ่งที่มันต้องการเอง วันนี้ มันปฏิบัติตามคำสั่งส่วนใหญ่ แม้แต่คำสั่งที่ซับซ้อนและซ้อนกัน เช่น คุณสามารถพูดว่า “อ่าน A ก่อน แล้วอ่าน B หาก C ให้อ่าน D” และในกรณีส่วนใหญ่มันจะยินดีทำตาม

สิ่งนี้ชี้ให้เห็นอะไร? หลักการที่สำคัญที่สุดคือการตระหนักว่า ตัวแทนรุ่นใหม่แต่ละรุ่นจะบังคับให้คุณทบทวนใหม่ว่าอะไรคือวิธีแก้ที่ดีที่สุด ซึ่งเป็นเหตุผลที่ว่า น้อยคือมาก

เมื่อคุณใช้ไลบรารีและฮาร์เนสจำนวนมาก คุณกำลังกักขังตัวเองไว้ใน “โซลูชัน” หนึ่งเดียว แต่ปัญหานี้อาจไม่มีอยู่จริงเมื่อเทียบกับตัวแทนรุ่นถัดไป คุณรู้ไหมว่าผู้ใช้ที่กระตือรือร้นและใช้งานตัวแทนมากที่สุดคือใคร? ใช่แล้ว—พนักงานของบริษัทชั้นนำ ที่มีงบประมาณโทเค็นไม่จำกัด และใช้โมเดลล่าสุดจริงๆ คุณเข้าใจว่านั่นหมายความว่าอย่างไรไหม

นั่นหมายความว่า หากมีปัญหาที่แท้จริงและมีวิธีแก้ไขที่ดี บริษัทชั้นนำจะเป็นผู้ใช้หลักของวิธีแก้ไขนั้น และจากนั้นพวกเขาจะทำอะไร? พวกเขาจะรวมวิธีแก้ไขนั้นเข้าไปในผลิตภัณฑ์ของตนเอง พิจารณาดูสิ ทำไมบริษัทหนึ่งถึงจะอนุญาตให้ผลิตภัณฑ์อื่นแก้ปัญหาที่แท้จริงและสร้างการพึ่งพาภายนอก? ผมรู้ได้อย่างไรว่าเรื่องนี้เป็นความจริง? ดูที่ทักษะ การจัดการหน่วยความจำ และซับแอเจนต์... เหล่านี้ล้วนเริ่มต้นจาก “วิธีแก้ไข” ที่แก้ปัญหาที่แท้จริง และได้รับการพิสูจน์แล้วว่ามีประโยชน์จริงผ่านการใช้งานจริง

ดังนั้น หากสิ่งใดมีความก้าวหน้าอย่างแท้จริงและสามารถขยายการใช้งานตัวแทนได้อย่างมีความหมาย มันจะถูกผสานเข้ากับผลิตภัณฑ์หลักของบริษัทพื้นฐานในที่สุด เชื่อฉันเถอะ บริษัทพื้นฐานกำลังก้าวไปอย่างรวดเร็ว ดังนั้นผ่อนคลายเถอะ คุณไม่จำเป็นต้องติดตั้งอะไรหรือพึ่งพาสิ่งภายนอกใดๆ เพื่อทำงานให้ดีที่สุด

ฉันคาดการณ์ว่าคอมเมนต์จะเร็วๆ นี้เต็มไปด้วยข้อความอย่าง “SysLS ฉันใช้ harness แบบ某某 ยอดเยี่ยมมาก! ฉันสร้าง Google ใหม่เสร็จในหนึ่งวัน!” — สำหรับเรื่องนี้ ฉันขอพูดว่า: ยินดีด้วย! แต่คุณไม่ใช่กลุ่มเป้าหมาย คุณเป็นตัวแทนของกลุ่มเล็กมากมากในชุมชนที่เข้าใจอย่างแท้จริงเกี่ยวกับการวิศวกรรมตัวแทน

บริบทคือทุกอย่าง

พูดตามตรง บริบทคือทุกสิ่ง การใช้ปลั๊กอินและพึ่งพาภายนอกนับพันข้อเสียคือคุณต้องเผชิญกับ “การขยายบริบท” — นั่นคือตัวแทนของคุณจมอยู่กับข้อมูลมากเกินไป

ให้ฉันใช้ Python สร้างเกมทายตัวอักษร? ง่ายมาก แต่บันทึกเรื่อง “จัดการหน่วยความจำ” ที่เขียนไว้เมื่อ 26 ครั้งก่อนคืออะไรนะ? อ๋อ ผู้ใช้มีหน้าจอค้างไปเมื่อ 71 ครั้งก่อนเพราะเราสร้างกระบวนการย่อยมากเกินไป ควรเขียนบันทึกไว้เสมอใช่ไหม? โอเค ไม่เป็นปัญหา... แต่มันเกี่ยวอะไรกับเกมทายตัวอักษรล่ะ?

คุณเข้าใจดี คุณ只想ให้ตัวแทนได้รับข้อมูลที่จำเป็นExactly สำหรับการ hoàn 成งาน ไม่มากไม่น้อย! ยิ่งคุณควบคุมจุดนี้ได้ดีเท่าไหร่ ตัวแทนก็จะทำงานได้ดีขึ้นเท่านั้น เมื่อคุณเริ่มนำระบบความจำที่แปลกประหลาด ปลั๊กอิน หรือทักษะที่มีการตั้งชื่อและการเรียกใช้งานยุ่งเหยิงมาเพิ่มเข้าไป คุณกำลังให้ตัวแทนทั้งคู่มือการสร้างระเบิดและสูตรทำเค้ก แต่คุณแค่ต้องการให้มันแต่งบทกวีเกี่ยวกับป่าซีควอยเอีย

ดังนั้น ฉันจึงประกาศอีกครั้ง—ตัดการพึ่งพาทั้งหมดออก แล้ว...

ทำสิ่งที่มีประโยชน์จริง

อธิบายรายละเอียดการดำเนินการอย่างแม่นยำ

Remember that context is everything?

คุณจำได้ไหมว่าคุณต้องการให้ตัวแทนได้รับข้อมูลที่จำเป็นครบถ้วนสำหรับการเสร็จสิ้นงาน ไม่มากไปไม่น้อยไป?

วิธีแรกในการทำสิ่งนี้คือแยกการวิจัยและการดำเนินการออกเป็นสองส่วน คุณต้องแม่นยำอย่างยิ่งในการระบุว่าคุณต้องการให้ตัวแทนทำอะไร

ผลลัพธ์ที่ไม่แม่นยำคืออะไร? “ไปสร้างระบบการรับรองตัวตน” ตัวแทนจึงต้องศึกษา: ระบบการรับรองตัวตนคืออะไร? มีทางเลือกใดบ้าง? ข้อดีและข้อเสียของแต่ละทางเลือกคืออะไร? ตอนนี้มันต้องไปค้นหาข้อมูลจำนวนมากบนอินเทอร์เน็ตซึ่งแท้จริงแล้วมันไม่ได้ใช้ บริบทจึงเต็มไปด้วยรายละเอียดการดำเนินการที่เป็นไปได้หลากหลาย เมื่อถึงเวลาที่ต้องนำไปใช้งานจริง มันมีแนวโน้มที่จะสับสน หรือเกิดภาพหลอนที่ไม่จำเป็นหรือไม่เกี่ยวข้องกับแนวทางการดำเนินการที่เลือก

ในทางกลับกัน หากคุณพูดว่า “ใช้ JWT authentication ด้วย bcrypt-12 password hashing, การหมุนเวียน refresh token, หมดอายุ 7 วัน…” มันจะไม่จำเป็นต้องศึกษาทางเลือกอื่นใด เพราะรู้ว่าคุณต้องการอะไร จึงสามารถเติมรายละเอียดการดำเนินการลงในบริบทได้

แน่นอน คุณจะไม่สามารถรู้รายละเอียดการดำเนินการทั้งหมดเสมอไป ในหลายครั้งคุณอาจไม่รู้ว่าอะไรคือสิ่งที่ถูกต้อง หรือบางครั้งคุณอาจต้องการส่งมอบงานในการตัดสินใจรายละเอียดการดำเนินการให้กับตัวแทน แล้วควรจัดการกับสถานการณ์นี้อย่างไร? ง่ายมาก—สร้างงานวิจัยเพื่อสำรวจตัวเลือกการดำเนินการต่างๆ แล้วตัดสินใจด้วยตัวคุณเอง หรือให้ตัวแทนเลือกว่าจะใช้การดำเนินการแบบใด จากนั้นให้ตัวแทนอีกตัวที่มีบริบทใหม่ทั้งหมดดำเนินการต่อ

เมื่อคุณเริ่มคิดในลักษณะนี้ คุณจะเห็นจุดที่บริบทตัวแทนถูกปนเปื้อนอย่างไม่จำเป็นในกระบวนการทำงาน และคุณสามารถสร้างกำแพงแยกส่วนในกระบวนการตัวแทน เพื่อแยกข้อมูลที่ไม่จำเป็นออกจากรายการตัวแทน และเหลือเฉพาะบริบทเฉพาะที่ทำให้มันทำงานได้อย่างยอดเยี่ยม จำไว้ว่าคุณมีทีมงานที่มีพรสวรรค์และฉลาดมากคนหนึ่ง ซึ่งรู้จักลูกบอลทุกประเภทในจักรวาล—แต่ถ้าคุณไม่ได้บอกเขาว่าคุณต้องการออกแบบพื้นที่ที่ทำให้คนเต้นและมีความสุข เขาก็จะยังคงพูดถึงข้อดีของวัตถุทรงกลมอยู่เรื่อยๆ

ข้อจำกัดของการออกแบบที่เน้นการตอบสนองต่อผู้อื่น

ไม่มีใครอยากใช้ผลิตภัณฑ์ที่ตลอดเวลาวิจารณ์คุณ บอกว่าคุณผิด หรือไม่สนใจคำสั่งของคุณเลย ดังนั้น ตัวแทนเหล่านี้จะพยายามเห็นด้วยกับคุณและทำสิ่งที่คุณต้องการให้ทำ

ถ้าคุณให้มันเพิ่มคำว่า “สุขสันต์” ทุกสามคำ มันจะพยายามปฏิบัติตาม—คนส่วนใหญ่เข้าใจเรื่องนี้ ความพร้อมที่จะปฏิบัติตามคำสั่งนี่เองที่ทำให้มันเป็นผลิตภัณฑ์ที่ใช้งานได้ดีมาก แต่มันมีคุณสมบัติที่น่าสนใจมาก: นั่นคือถ้าคุณพูดว่า “ช่วยหาบั๊กในโค้ดรีพอสิตอรีให้ฉัน” มันจะหาบั๊กให้คุณ—แม้แต่ต้อง “สร้าง” บั๊กขึ้นมาเอง ทำไมหรือ? เพราะมันอยากปฏิบัติตามคำสั่งของคุณมากมาก!

ผู้คนส่วนใหญ่รีบบ่นว่า LLM สร้างเรื่องหลอกลวงและจินตนาการสิ่งที่ไม่มีอยู่ แต่กลับไม่ตระหนักว่าปัญหาอยู่ที่ตัวพวกเขาเอง คุณให้มันหาอะไร มันก็จะส่งให้คุณ—แม้ต้องยืดความจริงเล็กน้อย!

แล้วจะทำอย่างไร? ฉันพบว่า “คำแนะนำแบบกลางๆ” มีประสิทธิภาพมาก คือไม่ชี้นำตัวแทนไปสู่ผลลัพธ์เฉพาะเจาะจงใดๆ เช่น ฉันไม่ได้พูดว่า “ช่วยหาบั๊กในฐานข้อมูลให้หน่อย” แต่ฉันพูดว่า “สแกนฐานข้อมูลทั้งหมด พยายามติดตามตรรกะของแต่ละส่วน และรายงานผลทั้งหมดที่พบกลับมา”

คำเตือนเชิงกลางเช่นนี้บางครั้งอาจพบบั๊ก บางครั้งก็แค่อธิบายอย่างเป็นกลางว่าโค้ดทำงานอย่างไร แต่มันจะไม่ชี้นำตัวแทนให้มีสมมติฐานว่า “มีบั๊ก”

วิธีอีกประการหนึ่งในการจัดการกับแนวโน้มที่จะพยายามทำให้ผู้อื่นพอใจคือการเปลี่ยนมันให้เป็นข้อได้เปรียบ ฉันรู้ว่าตัวแทนกำลังพยายามทำให้ฉันพอใจและปฏิบัติตามคำสั่งของฉัน ฉันสามารถเลื่อนไปทางนี้หรือทางนั้นได้

ดังนั้นฉันจึงให้ตัวแทนค้นหาบั๊กระบุบั๊กทั้งหมดในฐานข้อมูล โดยบอกมันว่าบั๊กที่มีผลกระทบต่ำให้คะแนน +1 บั๊กที่มีผลกระทบปานกลางให้คะแนน +5 และบั๊กที่มีผลกระทบรุนแรงให้คะแนน +10 ฉันรู้ว่าตัวแทนนี้จะมีความกระตือรือร้นในการระบุบั๊กทุกประเภท (รวมถึงสิ่งที่ไม่ใช่บั๊ก) และรายงานผลคะแนนเช่น 104 คะแนนให้ฉัน ฉันมองว่านี่คือซูเปอร์เซ็ตของบั๊กทั้งหมดที่เป็นไปได้

จากนั้นฉันให้ตัวแทนต่อต้านโต้แย้ง โดยแจ้งว่าหากโต้แย้งข้อบกพร่องได้สำเร็จ จะได้คะแนนเท่ากับคะแนนของข้อบกพร่องนั้น แต่หากโต้แย้งผิดจะได้คะแนนติดลบสองเท่าของคะแนนข้อบกพร่องนั้น ตัวแทนนี้จะพยายามโต้แย้งข้อบกพร่องให้มากที่สุดเท่าที่จะทำได้ แต่เนื่องจากมีกลไกการลงโทษ จึงจะระมัดระวังอย่างมาก อย่างไรก็ตาม มันยังคงดำเนินการอย่างกระตือรือร้นในการ “โต้แย้ง” ข้อบกพร่อง (รวมถึงข้อบกพร่องที่แท้จริง) ฉันมองว่านี่คือซับเซตของข้อบกพร่องที่แท้จริงทั้งหมด

สุดท้าย ฉันให้ตัวแทนผู้ตัดสินรวมข้อมูลจากทั้งสองฝ่ายและให้คะแนน ฉันแจ้งตัวแทนผู้ตัดสินว่าฉันมีคำตอบที่ถูกต้องจริง โดยตอบถูกได้ +1 คะแนน ตอบผิดได้ -1 คะแนน จากนั้นตัวแทนผู้ตัดสินจึงให้คะแนนตัวแทนค้นหาบั๊กและตัวแทนต่อต้านแยกกันสำหรับแต่ละ “บั๊ก” อะไรก็ตามที่ผู้ตัดสินระบุว่าเป็นความจริง ฉันจะตรวจสอบ วิธีนี้โดยทั่วไปให้ความแม่นยำสูงอย่างน่าประหลาดใจ แม้จะมีข้อผิดพลาดบางครั้ง แต่ก็ถือเป็นกระบวนการที่ใกล้เคียงกับความถูกต้องสมบูรณ์

คุณอาจพบว่าการหาตัวแทนบั๊กเดี่ยวๆ ก็เพียงพอแล้ว แต่วิธีนี้ได้ผลดีกับฉัน เพราะมันใช้คุณสมบัติที่ตัวแทนแต่ละตัวถูกโปรแกรมมาให้มีความต้องการอยากทำให้ผู้อื่นพึงพอใจ

วิธีการพิจารณาว่าอะไรมีประโยชน์และอะไรคือสิ่งที่คุ้มค่าในการใช้งาน

คำถามนี้ดูเหมือนจะซับซ้อนและต้องการให้คุณเรียนรู้อย่างลึกซึ้งและติดตามพัฒนาการล่าสุดด้าน AI อย่างใกล้ชิด แต่จริงๆ แล้วมันง่ายมาก... หาก OpenAI และ Claude ได้ดำเนินการตามสิ่งนี้หรือเข้าซื้อกิจการบริษัทที่ทำสิ่งนี้ได้แล้ว สิ่งนี้มีแนวโน้มสูงที่จะมีประโยชน์

คุณสังเกตเห็นแล้วหรือยังว่า “ทักษะ (skills)” ได้กลายเป็นส่วนหนึ่งของเอกสารอย่างเป็นทางการของ Claude และ Codex แล้ว? คุณสังเกตเห็นแล้วหรือยังว่า OpenAI ได้เข้าซื้อ OpenClaw? คุณสังเกตเห็นแล้วหรือยังว่า Claude ได้เพิ่มฟีเจอร์ความจำ เสียง และการทำงานระยะไกลทันที?

การวางแผนเป็นอย่างไรบ้าง? จำได้ไหมว่าเคยมีคนจำนวนมากค้นพบว่าการวางแผนก่อนการดำเนินการนั้นมีประโยชน์มาก และมันกลายเป็นฟีเจอร์หลักไปแล้ว

ใช่ 这些东西很有用！

จำได้ไหมว่า stop-hooks ไม่มีวันสิ้นสุดนั้นใช้งานได้ดีมาก เพราะตัวแทนไม่เต็มใจทำงานที่ใช้เวลานาน... แล้วเมื่อ Codex 5.2 ออกมาก็ทำให้ความต้องการนั้นหายไปในคืนเดียวไหม?

นี่คือทั้งหมดที่คุณจำเป็นต้องรู้... หากสิ่งใดสำคัญและมีประโยชน์จริง Claude และ Codex จะดำเนินการเอง! ดังนั้นคุณไม่จำเป็นต้องกังวลมากเกินไปเกี่ยวกับการใช้ "สิ่งใหม่" หรือการคุ้นเคยกับ "สิ่งใหม่" คุณ thậm chí ไม่จำเป็นต้อง "อัปเดตให้ทัน"

ช่วยฉันหน่อย อัปเดตเครื่องมือ CLI ที่คุณเลือกเป็นครั้งคราว และอ่านดูว่ามีฟีเจอร์ใหม่อะไรเพิ่มเข้ามา แค่นี้ก็เพียงพอแล้ว

การบีบอัด บริบท และสมมติฐาน

บางคนที่ใช้พรอกซีอาจพบกับอุปสรรคใหญ่: บางครั้งมันดูเหมือนเป็นสิ่งที่ฉลาดที่สุดบนโลกนี้ แต่บางครั้งคุณก็ไม่เชื่อว่าตัวเองถูกมันหลอก

สิ่งนี้ฉลาดหรือ? มันคือคนโง่เลย!

ความแตกต่างที่ใหญ่ที่สุดคือตัวแทนถูกบังคับให้ต้องสมมติหรือ “เติมช่องว่าง” หรือไม่ ในวันนี้ พวกมันยังคงแย่มากในการ “เชื่อมจุดให้เป็นเส้น” “เติมช่องว่าง” หรือการตั้งสมมติฐาน ตราบใดที่พวกมันทำสิ่งนี้ คุณจะเห็นทันทีว่าสถานการณ์แย่ลงอย่างชัดเจน

หนึ่งในกฎที่สำคัญที่สุดใน CLAUDE.md คือกฎเกี่ยวกับวิธีรับบริบท และสั่งให้ตัวแทนอ่านกฎนั้นเป็นอันดับแรกทุกครั้งที่อ่าน CLAUDE.md (หลังจากบีบอัดทุกครั้ง) เป็นส่วนหนึ่งของกฎการรับบริบท คำสั่งง่ายๆ ไม่กี่ข้อสามารถมีผลกระทบอย่างมาก: อ่านแผนงานอีกครั้ง และอ่านไฟล์ที่เกี่ยวข้องกับงานอีกครั้งก่อนดำเนินการต่อ

แจ้งตัวแทนวิธีการสิ้นสุดงาน

มนุษย์เรามีความรู้สึกที่ชัดเจนเกี่ยวกับการ “เสร็จสิ้น” ภารกิจหนึ่งๆ แต่ปัญหาที่ใหญ่ที่สุดของปัญญาประดิษฐ์ในปัจจุบันคือ มันรู้ว่าจะเริ่มต้นภารกิจอย่างไร แต่ไม่รู้ว่าจะจบภารกิจอย่างไร

สิ่งนี้มักนำไปสู่ผลลัพธ์ที่น่าผิดหวังอย่างมาก: ตัวแทนสุดท้ายก็แค่สร้างสตั๊น一大堆แล้วเลิกงาน

การทดสอบเป็นก้าวสำคัญที่ดีของตัวแทน เพราะการทดสอบมีความแน่นอน คุณสามารถตั้งค่าความคาดหวังที่ชัดเจนมากได้ 除非นี้ X การทดสอบผ่าน งานของคุณจึงยังไม่เสร็จสมบูรณ์; และคุณไม่ได้รับอนุญาตให้แก้ไขการทดสอบ

จากนั้นคุณแค่ต้องตรวจสอบการทดสอบ เมื่อการทดสอบทั้งหมดผ่านไปแล้ว คุณก็สามารถวางใจได้ คุณสามารถทำให้กระบวนการนี้เป็นอัตโนมัติได้ แต่จุดสำคัญคือ—จดจำไว้ว่า “การสิ้นสุดของงาน” นั้นเป็นเรื่องธรรมชาติสำหรับมนุษย์ แต่ไม่ใช่สำหรับตัวแทน

คุณรู้ไหมว่ามีอะไรอีกบ้างที่กลายเป็นจุดหมายปลายทางของงานที่ทำได้จริง? ถ่ายหน้าจอ + ยืนยัน คุณสามารถให้ตัวแทนดำเนินการบางอย่างจนกว่าการทดสอบทั้งหมดจะผ่าน จากนั้นให้มันถ่ายหน้าจอและยืนยันว่า “การออกแบบหรือพฤติกรรม” บนหน้าจอตรงตามที่ต้องการ

สิ่งนี้ช่วยให้คุณสามารถให้ตัวแทนดำเนินการซ้ำๆ และมุ่งไปสู่การออกแบบที่คุณต้องการ โดยไม่ต้องกังวลว่ามันจะหยุดหลังจากลองครั้งแรก!

การขยายตัวตามธรรมชาติของสิ่งนี้คือการสร้าง "สัญญา" กับตัวแทน และรวมกฎเหล่านี้ไว้ในสัญญา เช่น `{TASK}CONTRACT.md` กำหนดว่าคุณต้องทำอะไรก่อนที่จะได้รับอนุญาตให้ยุติเซสชัน ใน `{TASK}CONTRACT.md` คุณจะระบุการทดสอบ ภาพหน้าจอ และการตรวจสอบอื่นๆ ที่ต้องดำเนินการก่อนที่คุณจะยืนยันว่าภารกิจสามารถจบลงได้!

ตัวแทนที่ทำงานตลอดเวลา

คำถามที่ฉันมักถูกถามบ่อยคือ ผู้คนจะทำให้ตัวแทนทำงานตลอด 24 ชั่วโมงและมั่นใจได้อย่างไรว่ามันจะไม่เบี่ยงเบนไปจากเป้าหมาย?

มีวิธีง่ายๆ ที่นี่ สร้าง stop-hook ที่จะขัดขวางไม่ให้ตัวแทนปิดเซสชัน เว้นแต่ทุกส่วนของ `{TASK}_CONTRACT.md` จะเสร็จสมบูรณ์

หากคุณมีสัญญา 100 ฉบับที่มีข้อกำหนดชัดเจนและประกอบด้วยเนื้อหาที่คุณต้องการสร้าง stop-hook จะหยุดไม่ให้ตัวแทนหยุดทำงานจนกว่าสัญญาทั้ง 100 ฉบับจะเสร็จสมบูรณ์ รวมถึงการทดสอบและการตรวจสอบทั้งหมดที่ต้องดำเนินการ!

คำแนะนำแบบมืออาชีพ: ฉันพบว่าเซสชัน 24 ชั่วโมงที่ทำงานต่อเนื่องไม่ใช่วิธีที่มีประสิทธิภาพที่สุดสำหรับ “การดำเนินการ” เนื่องจากวิธีนี้มีโครงสร้างที่บังคับให้เกิดการขยายบริบท เนื่องจากบริบทของสัญญาที่ไม่เกี่ยวข้องจะถูกส่งเข้าสู่เซสชันเดียวกัน!

ดังนั้น ฉันจึงไม่แนะนำให้ทำเช่นนี้

มีวิธีอัตโนมัติตัวแทนที่ดีกว่า—เปิดเซสชันใหม่สำหรับสัญญาแต่ละฉบับ สร้างสัญญาทุกครั้งที่คุณต้องการทำบางอย่าง

สร้างชั้นการจัดการเพื่อสร้างสัญญาใหม่เมื่อมีสิ่งใดสิ่งหนึ่งที่ต้องทำ และสร้างเซสชันใหม่เพื่อจัดการสัญญานั้น

สิ่งนี้จะเปลี่ยนประสบการณ์ตัวแทนของคุณอย่างสิ้นเชิง

การปรับปรุง ปรับปรุง ปรับปรุง

คุณจ้างผู้ช่วยด้านการบริหาร คุณคาดหวังว่าพวกเขาจะรู้ตารางงานของคุณตั้งแต่วันแรกหรือ? หรือคุณดื่มกาแฟอย่างไร? คุณรับประทานอาหารเย็นตอน 6 โมงเย็นแทนที่จะเป็น 8 โมงเย็น? แน่นอนว่าไม่ใช่ คุณจะค่อยๆ สร้างความชอบตามเวลาที่ผ่านไป

เช่นเดียวกันกับตัวแทน เริ่มต้นด้วยการตั้งค่าที่ง่ายที่สุด ลืมโครงสร้างหรือ harness ที่ซับซ้อน ให้โอกาสกับ CLI พื้นฐาน

จากนั้นค่อยๆ เพิ่มความชอบของคุณลงมา ทำอย่างไร?

กฎ

หากคุณไม่ต้องการให้ตัวแทนทำสิ่งใด สิ่งนั้นควรเขียนเป็นกฎ จากนั้นแจ้งกฎนี้แก่ตัวแทนในไฟล์ CLAUDE.md เช่น: “ก่อนเขียนโค้ด ให้อ่านไฟล์ `coding-rules.md`” กฎสามารถซ้อนกันได้ และสามารถเป็นเงื่อนไขได้! หากคุณกำลังเขียนโค้ด ให้อ่าน `coding-rules.md`; หากคุณกำลังเขียนการทดสอบ ให้อ่าน `coding-test-rules.md`; หากการทดสอบของคุณล้มเหลว ให้อ่าน `coding-test-failing-rules.md` คุณสามารถสร้างกฎที่มีสาขาตรรกะใดๆ ก็ได้เพื่อให้ตัวแทนปฏิบัติตาม โดย Claude (และ Codex) จะยินดีทำตาม ตราบใดที่มีคำอธิบายชัดเจนในไฟล์ CLAUDE.md

ในความเป็นจริง นี่คือคำแนะนำแรกที่ฉันให้: ให้คุณจัดการไฟล์ CLAUDE.md ให้เป็นเหมือนไดเรกทอรีที่มีโครงสร้างแบบซ้อนกัน ซึ่งระบุว่าในสถานการณ์เฉพาะและผลลัพธ์เฉพาะ คุณควรค้นหาบริบทที่ไหน มันควรกระชับที่สุดเท่าที่จะเป็นไปได้ และประกอบด้วยตรรกะ IF-ELSE เฉพาะเกี่ยวกับ “ในสถานการณ์ใดควรค้นหาบริบทที่ไหน”

หากคุณเห็นตัวแทนกำลังทำสิ่งที่คุณไม่เห็นด้วย ให้เพิ่มเป็นกฎหนึ่ง และแจ้งตัวแทนว่าต้องอ่านกฎนั้นก่อนทำสิ่งนั้นอีกครั้ง มันจะไม่ทำแบบนั้นอีกแน่นอน

ทักษะ

ทักษะ (Skills) คล้ายกับกฎ แต่ไม่ใช่เรื่องของความชอบในการเขียนโค้ด แต่เหมาะกับการเขียนขั้นตอนการดำเนินการมากกว่า หากคุณมีวิธีเฉพาะที่ต้องการให้สิ่งใดสิ่งหนึ่งทำสำเร็จ คุณสามารถฝังมันไว้ในทักษะได้

ในความเป็นจริง ผู้คนมักบ่นว่าไม่รู้ว่าตัวแทนจะแก้ปัญหาอย่างไร ซึ่งทำให้รู้สึกไม่มั่นใจ หากคุณต้องการให้สิ่งนี้มีความแน่นอน ให้ตัวแทนศึกษาเสียก่อนว่ามันจะแก้ปัญหานี้อย่างไร จากนั้นจัดทำแนวทางเป็นไฟล์ทักษะ คุณจะสามารถมองเห็นวิธีการที่ตัวแทนจัดการกับปัญหานี้ล่วงหน้า และปรับปรุงหรือแก้ไขก่อนที่มันจะพบปัญหานี้จริง

คุณจะทำให้ตัวแทนรู้ว่าทักษะนี้มีอยู่ได้อย่างไร? ใช่แล้ว! คุณเขียนไว้ใน CLAUDE.md ว่าเมื่อคุณพบสถานการณ์นี้และต้องจัดการเรื่องนี้ ให้อ่านไฟล์ `SKILL.md`

กฎและทักษะการประมวลผล

คุณคงต้องการเพิ่มกฎและทักษะให้กับตัวแทนอย่างต่อเนื่อง นี่คือวิธีที่คุณสร้างบุคลิกและจดจำความชอบของคุณ แทบทุกอย่างอื่นๆ ล้วนไม่จำเป็น

เมื่อคุณเริ่มทำเช่นนี้ ตัวแทนของคุณจะรู้สึกเหมือนเวทมนตร์ มันจะทำสิ่งต่างๆ “ตามวิธีที่คุณต้องการ” จากนั้นคุณจะรู้สึกว่าคุณ “เข้าใจ” วิศวกรรมตัวแทนอย่างแท้จริง

แล้ว...

คุณจะเห็นประสิทธิภาพเริ่มลดลงอีกครั้ง

เกิดอะไรขึ้น?!

ง่ายมาก เมื่อคุณเพิ่มกฎและทักษะ越来越多 พวกมันเริ่มขัดแย้งกันเอง หรือตัวแทนเริ่มมีปัญหาการขยายบริบทอย่างรุนแรง หากคุณต้องการให้ตัวแทนอ่านไฟล์ markdown 14 ไฟล์ก่อนเริ่มเขียนโปรแกรม มันก็จะมีปัญหาเดียวกันกับข้อมูลที่ไม่มีประโยชน์จำนวนมาก

ทำอย่างไรดี?

ทำความสะอาด ให้ตัวแทนของคุณไป “ทำสปา” รวมกฎและทักษะ โดยการแจ้งความชอบที่อัปเดตแล้วเพื่อขจัดความขัดแย้ง

แล้วมันก็จะรู้สึกเหมือนเวทมนตร์อีกครั้ง

แค่นี้เอง นี่คือเคล็ดลับที่แท้จริง รักษาความเรียบง่าย ใช้กฎและทักษะ ถือ CLAUDE.md เป็นรายการเนื้อหา และใส่ใจอย่างถี่ถ้วนต่อบริบทและข้อจำกัดในการออกแบบของมัน

รับผิดชอบต่อผลลัพธ์

วันนี้ไม่มีตัวแทนที่สมบูรณ์แบบ คุณสามารถมอบงานด้านการออกแบบและการดำเนินการจำนวนมากให้กับตัวแทน แต่คุณต้องรับผิดชอบต่อผลลัพธ์

ดังนั้นโปรดระมัดระวัง... และสนุกไปกับมัน!

การเล่นของเล่นแห่งอนาคต (พร้อมกับใช้มันทำเรื่องสำคัญอย่างชัดเจน) จริงๆ แล้วเป็นความสุข!