การทดลองบีบอัดหน่วยความจำ GPT-5.4 แสดงให้เห็นว่าความแม่นยำลดลงเหลือ 54%

ตามการตรวจสอบของ Beating นักศึกษาปริญญาเอกด้านวิทยาการคอมพิวเตอร์ของมหาวิทยาลัยอิลลินอยส์ Dylan Zhang ได้ทำการทดลองเกี่ยวกับความจำของตัวแทน (Agent) ผลลัพธ์ชี้ไปที่ข้อสรุปที่ผิดปกติ: การให้โมเดลสรุปประสบการณ์ซ้ำๆ อาจทำให้มันจำได้แย่ลง ผลลัพธ์ที่โดดเด่นที่สุดมาจาก ARC-AGI: นักวิจัยเลือกคำถาม 19 ข้อที่ GPT-5.4 สามารถตอบถูกทั้งหมดได้โดยไม่มีความจำ จากนั้นจึงป้อนวิธีแก้ปัญหาที่ถูกต้องจริงๆ ให้กับโมเดลเพื่อให้มันเขียน “สรุปประสบการณ์” ในขณะที่ดูคำตอบ ตามหลักการแล้ว นี่ควรเหมือนการทบทวนแบบเปิดหนังสือ แต่หลังจากผ่านหลายรอบการบีบอัดความจำ ความแม่นยำของโมเดลเดียวกันนี้ลดลงจาก 100% เหลือเพียง 54% เส้นทางต้นฉบับไม่มีข้อผิดพลาด ปัญหาแท้จริงอยู่ที่ขั้นตอนที่โมเดลเขียนใหม่เส้นทางที่ถูกต้องให้กลายเป็นประสบการณ์ทั่วไป ยิ่งไปกว่านั้น การเสื่อมสภาพของความจำแบบนี้ไม่ใช่กรณีพิเศษ ในงาน WebShop การซื้อขายออนไลน์ วิธีความจำ AWM มีคะแนน 0.64 เมื่อใช้เส้นทางผู้เชี่ยวชาญ 8 เส้นทาง แต่เมื่อจำนวนเส้นทางเพิ่มเป็น 128 เส้นทาง คะแนนกลับลดลงเหลือ 0.20 ซึ่งเท่ากับระดับพื้นฐานเมื่อไม่มีความจำเลย กล่าวคือ ยิ่งสะสมความจำมากเท่าไร ผลประโยชน์กลับถูกทำลายโดยตัวเอง ปัญหาไม่ได้อยู่ที่ “ประสบการณ์น้อยเกินไป” แต่อยู่ที่ “การสรุปบ่อยเกินไป” ประสบการณ์ที่โมเดลขนาดใหญ่เขียนขึ้นไม่ใช่บันทึกเชิงวัตถุประสงค์ การสรุปแต่ละครั้งคือการสร้างใหม่ทั้งหมด สุดท้ายแล้ว เงื่อนไขเฉพาะจะถูกลบออก กฏของงานต่างๆ จะถูกผสมปนเปกัน และรายละเอียดที่เคยช่วยแนะนำการดำเนินการกลับกลายเป็นคำพูดที่ดูเหมือนถูกต้องแต่ไม่มีประโยชน์ เช่น “เลือกการกระทำที่ตรงที่สุด” หรือ “ใช้เครื่องมือที่ถูกต้อง” ตัวอย่างสุดขั้วหนึ่งในบทความแสดงให้เห็นว่า 50 ความจำเชิงโครงสร้างถูกรวมเป็นหนึ่งเดียวในครั้งเดียว ความแตกต่างระหว่างงานหลายอย่างถูกบีบอัดให้กลายเป็นกระบวนการทั่วไปเดียว และในการประเมินรอบถัดไป ตัวอย่างที่ประสบความสำเร็จจำนวน 6 ถึง 13 ตัวอย่างถูกตัดออกไปทันที ผู้เขียนเสนอคำแนะนำอย่างระมัดระวัง: อย่ารีบให้ Agent เขียน “สมุดข้อผิดพลาด” ในแต่ละรอบ การทำอย่างมั่นคงกว่าคือรักษาเส้นทางการดำเนินการต้นฉบับที่ผ่านการคัดกรองไว้ และสรุปเชิงนามธรรมเฉพาะเมื่อจำเป็นจริงๆ ในการทดลอง วิธีที่รักษา episode เดิมไว้และปิดการสรุปเชิงนามธรรมสามารถทำคะแนนเทียบเท่าหรือเหนือกว่าวิธีความจำแบบบีบอัดที่เคยทดสอบแล้วในหลายเบนช์มาร์กของ Agent สำหรับนักพัฒนา ข้อสรุปนี้ชัดเจนมาก: การให้โมเดลดูสิ่งที่เคยทำจริง มักจะมีประโยชน์มากกว่าการให้มันจดจำกฎนามธรรมจำนวนมาก