การทดลองบีบอัดหน่วยความจำ GPT-5.4 แสดงให้เห็นว่าความแม่นยำลดลงเหลือ 54%

icon MarsBit
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
การศึกษาล่าสุดจาก MarsBit ชี้ให้เห็นว่าการบีบอัดหน่วยความจำซ้ำๆ สามารถส่งผลเสียต่อประสิทธิภาพของโมเดล AI ดีแลน จาง นักศึกษาปริญญาเอกจากมหาวิทยาลัยอิลลินอยส์ พบว่าความแม่นยำของ GPT-5.4 บนมาตรฐาน ARC-AGI ลดลงจาก 100% เป็น 54% หลังจากผ่านการบีบอัดหลายรอบ ปัญหานี้เกิดจากโมเดลที่เขียนวิธีแก้ที่ถูกต้องให้กลายเป็นกฎทั่วไป ทำให้สูญเสียรายละเอียดสำคัญ ผลลัพธ์ที่คล้ายกันปรากฏขึ้นในงาน WebShop โดยเส้นทางของผู้เชี่ยวชาญที่มากขึ้นกลับนำไปสู่ประสิทธิภาพที่แย่ลง ผลการศึกษาชี้ให้เห็นว่าควรเก็บข้อมูลการดำเนินการดิบไว้และจำกัดสรุปเชิงนามธรรม นักเทรดที่ติดตาม altcoin ที่น่าจับตาอาจพบว่าข้อมูลบนโซ่ยิ่งมีประโยชน์มากขึ้นในการประเมินเครื่องมือที่ขับเคลื่อนด้วย AI

ตามการตรวจสอบของ Beating นักศึกษาปริญญาเอกด้านวิทยาการคอมพิวเตอร์ของมหาวิทยาลัยอิลลินอยส์ Dylan Zhang ได้ทำการทดลองเกี่ยวกับความจำของตัวแทน (Agent) ผลลัพธ์ชี้ไปที่ข้อสรุปที่ผิดปกติ: การให้โมเดลสรุปประสบการณ์ซ้ำๆ อาจทำให้มันจำได้แย่ลง ผลลัพธ์ที่โดดเด่นที่สุดมาจาก ARC-AGI: นักวิจัยเลือกคำถาม 19 ข้อที่ GPT-5.4 สามารถตอบถูกทั้งหมดได้โดยไม่มีความจำ จากนั้นจึงป้อนวิธีแก้ปัญหาที่ถูกต้องจริงๆ ให้กับโมเดลเพื่อให้มันเขียน “สรุปประสบการณ์” ในขณะที่ดูคำตอบ ตามหลักการแล้ว นี่ควรเหมือนการทบทวนแบบเปิดหนังสือ แต่หลังจากผ่านหลายรอบการบีบอัดความจำ ความแม่นยำของโมเดลเดียวกันนี้ลดลงจาก 100% เหลือเพียง 54% เส้นทางต้นฉบับไม่มีข้อผิดพลาด ปัญหาแท้จริงอยู่ที่ขั้นตอนที่โมเดลเขียนใหม่เส้นทางที่ถูกต้องให้กลายเป็นประสบการณ์ทั่วไป ยิ่งไปกว่านั้น การเสื่อมสภาพของความจำแบบนี้ไม่ใช่กรณีพิเศษ ในงาน WebShop การซื้อขายออนไลน์ วิธีความจำ AWM มีคะแนน 0.64 เมื่อใช้เส้นทางผู้เชี่ยวชาญ 8 เส้นทาง แต่เมื่อจำนวนเส้นทางเพิ่มเป็น 128 เส้นทาง คะแนนกลับลดลงเหลือ 0.20 ซึ่งเท่ากับระดับพื้นฐานเมื่อไม่มีความจำเลย กล่าวคือ ยิ่งสะสมความจำมากเท่าไร ผลประโยชน์กลับถูกทำลายโดยตัวเอง ปัญหาไม่ได้อยู่ที่ “ประสบการณ์น้อยเกินไป” แต่อยู่ที่ “การสรุปบ่อยเกินไป” ประสบการณ์ที่โมเดลขนาดใหญ่เขียนขึ้นไม่ใช่บันทึกเชิงวัตถุประสงค์ การสรุปแต่ละครั้งคือการสร้างใหม่ทั้งหมด สุดท้ายแล้ว เงื่อนไขเฉพาะจะถูกลบออก กฏของงานต่างๆ จะถูกผสมปนเปกัน และรายละเอียดที่เคยช่วยแนะนำการดำเนินการกลับกลายเป็นคำพูดที่ดูเหมือนถูกต้องแต่ไม่มีประโยชน์ เช่น “เลือกการกระทำที่ตรงที่สุด” หรือ “ใช้เครื่องมือที่ถูกต้อง” ตัวอย่างสุดขั้วหนึ่งในบทความแสดงให้เห็นว่า 50 ความจำเชิงโครงสร้างถูกรวมเป็นหนึ่งเดียวในครั้งเดียว ความแตกต่างระหว่างงานหลายอย่างถูกบีบอัดให้กลายเป็นกระบวนการทั่วไปเดียว และในการประเมินรอบถัดไป ตัวอย่างที่ประสบความสำเร็จจำนวน 6 ถึง 13 ตัวอย่างถูกตัดออกไปทันที ผู้เขียนเสนอคำแนะนำอย่างระมัดระวัง: อย่ารีบให้ Agent เขียน “สมุดข้อผิดพลาด” ในแต่ละรอบ การทำอย่างมั่นคงกว่าคือรักษาเส้นทางการดำเนินการต้นฉบับที่ผ่านการคัดกรองไว้ และสรุปเชิงนามธรรมเฉพาะเมื่อจำเป็นจริงๆ ในการทดลอง วิธีที่รักษา episode เดิมไว้และปิดการสรุปเชิงนามธรรมสามารถทำคะแนนเทียบเท่าหรือเหนือกว่าวิธีความจำแบบบีบอัดที่เคยทดสอบแล้วในหลายเบนช์มาร์กของ Agent สำหรับนักพัฒนา ข้อสรุปนี้ชัดเจนมาก: การให้โมเดลดูสิ่งที่เคยทำจริง มักจะมีประโยชน์มากกว่าการให้มันจดจำกฎนามธรรมจำนวนมาก

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา