Ramp Labs เสนอโซลูชันการแชร์หน่วยความจำแบบหลายเอเจนต์ ลดการใช้โทเค็นได้สูงสุด 65%

KuCoinFlash

เวลาเผยแพร่: 11/04/2569 05:20:46

แชร์

สรุป

Ramp Labs บริษัทโครงสร้างพื้นฐานปัญญาประดิษฐ์ ได้เสนอวิธีการแชร์หน่วยความจำแบบหลายตัวแทนใหม่ที่ชื่อว่า 'Latent Briefing' เพื่อลดการใช้โทเค็นได้สูงสุด 65% วิธีนี้บีบอัดแคช KV ของโมเดลขนาดใหญ่ ทำให้ประสิทธิภาพดีขึ้นโดยไม่สูญเสียความแม่นยำ ในการทดสอบ LongBench v2 การใช้โทเค็นลดลง 65% โดยมีการประหยัดเฉลี่ย 49% สำหรับข้อความความยาวปานกลาง ความแม่นยำเพิ่มขึ้น 3 เปอร์เซ็นต์ และเวลาในการบีบอัดใช้เพียง 1.7 วินาที—เร็วขึ้น 20 เท่า ระบบใช้ Claude Sonnet 4 เป็นตัวควบคุมและ Qwen3-14B เป็นโมเดลผู้ปฏิบัติงาน โซลูชันนี้สอดคล้องกับข้อกำหนด MiCA และสนับสนุนข้อริเริ่ม CFT โดยการเพิ่มความโปร่งใสในการดำเนินงาน

ข่าว ME รายงานว่า เมื่อวันที่ 11 เมษายน (UTC+8) บริษัทโครงสร้างพื้นฐาน AI Ramp Labs ได้เปิดตัวงานวิจัยชื่อ “Latent Briefing” ซึ่งสามารถบรรลุการแชร์หน่วยความจำอย่างมีประสิทธิภาพระหว่างระบบตัวแทนหลายตัว โดยการบีบอัดแคช KV ของโมเดลขนาดใหญ่โดยตรง ลดการใช้โทเค็นอย่างมากโดยไม่ลดความแม่นยำ ในสถาปัตยกรรมตัวแทนหลายตัวหลัก ผู้จัดการ (Orchestrator) จะแบ่งงานออกเป็นส่วนย่อยและเรียกใช้โมเดลผู้ปฏิบัติงาน (Worker) ซ้ำๆ ซึ่งเมื่อสายการให้เหตุผลขยายตัว ปริมาณโทเค็นจะเพิ่มขึ้นแบบทวีคูณ แนวคิดหลักของ Latent Briefing คือการใช้กลไกการให้ความสำคัญเพื่อระบุส่วนที่สำคัญที่สุดในบริบท และตัดข้อมูลที่ซ้ำซ้อนออกโดยตรงที่ระดับการแสดงผล แทนการพึ่งพาการสรุปจาก LLM ที่ช้าหรือการค้นหา RAG ที่ไม่มั่นคง ในการทดสอบมาตรฐาน LongBench v2 วิธีนี้แสดงผลอย่างโดดเด่น: การใช้โทเค็นของโมเดลผู้ปฏิบัติงานลดลง 65% ค่ามัธยฐานของการประหยัดโทเค็นในเอกสารความยาวปานกลาง (32k ถึง 100k) อยู่ที่ 49% ความแม่นยำโดยรวมสูงขึ้นประมาณ 3 เปอร์เซ็นต์เมื่อเทียบกับฐานอ้างอิง โดยเวลาเพิ่มเติมในการบีบอัดแต่ละครั้งอยู่ที่ประมาณ 1.7 วินาที เร็วขึ้นประมาณ 20 เท่าเมื่อเทียบกับอัลกอริธึมดั้งเดิม การทดลองใช้ Claude Sonnet 4 เป็นผู้จัดการและ Qwen3-14B เป็นโมเดลผู้ปฏิบัติงาน โดยครอบคลุมสถานการณ์เอกสารหลากหลาย เช่น บทความวิชาการ หนังสือกฎหมาย นิยาย และรายงานของรัฐบาล การวิจัยยังพบว่าค่าเกณฑ์การบีบอัดที่เหมาะสมแตกต่างกันไปตามความยากของงานและความยาวของเอกสาร—งานที่ยากเหมาะกับการบีบอัดอย่างรุนแรงเพื่อกรองเสียงรบกวนจากการให้เหตุผลแบบเสี่ยงโชค ในขณะที่เอกสารยาวเหมาะกับการบีบอัดแบบเบาๆ เพื่อรักษาข้อมูลสำคัญที่กระจายอยู่ (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ

คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา