โมเดล MiMo-V2.5 ของ Xiaomi ลดต้นทุนด้วยการคำนวณความสนใจเทียบเท่า 10 ชั้น

ข่าวจาก ME News เมื่อวันที่ 27 พฤษภาคม (UTC+8) ตามข้อมูลจาก Beating ซึ่งติดตามสถานการณ์ หลังจากทีมโมเดลขนาดใหญ่ของ Xiaomi ได้ดำเนินการลดราคา API อย่างถาวรสำหรับชุดโมเดล MiMo-V2.5 หัวหน้าทีมโมเดลขนาดใหญ่ของ Xiaomi คือ Luo Fuli ได้เปิดเผยกลไกการลดต้นทุนอัลกอริทึมบนแพลตฟอร์ม X Luo Fuli เปิดเผยว่า หลังจากปรับราคา API ให้เทียบเท่ากับ DeepSeek ระบบการประมวลผลแบบโหลดสูงของ Xiaomi ยังคงรักษาจุดคุ้มทุนได้ ความลดต้นทุนหลักมาจากการออกแบบสถาปัตยกรรมการให้ความสนใจแบบผสมผสานและการปรับปรุงแคช KV แบบมีระดับชั้น เพื่อเป้าหมายการลดต้นทุนการเข้าถึงแคช (Cache Hit) ลง 99% Xiaomi ได้พัฒนาการปรับปรุงแคช KV แบบมีระดับชั้นสำหรับกลไกการให้ความสนใจแบบหน้าต่างเลื่อน (SWA) การทดสอบในสภาพแวดล้อมจริงแสดงให้เห็นว่า การปรับปรุงแบบมีระดับชั้นสามารถเพิ่มความจุ token ของแคชได้ถึง 5 เท่า และลดต้นทุนแคชลง 80% โดยร่วมกับเทคโนโลยีการทับซ้อนการอ่านแคช (Cache Read Overlap) ระหว่างโมดูลการให้ความสนใจแบบทั่วโลก ระบบจึงสามารถลดต้นทุนจริงของการเข้าถึงแคชได้อีก สำหรับเหตุผลที่ต้นทุนพื้นฐานของการป้อนข้อมูลและเอาต์พุตลดลง 60% ถึง 80% Luo Fuli อธิบายว่าเกิดจากการใช้อ tỷส่วนความบางระหว่างชั้น 1:7 ซึ่งคืออัตราส่วนระหว่างจำนวนชั้นของความสนใจแบบทั่วโลก (GA) กับความสนใจแบบหน้าต่างเลื่อน (SWA) ในระยะเริ่มต้นการเติมข้อความยาว (Prefill) 60 ชั้นของ SWA จะคำนวณเฉพาะหน้าต่างเลื่อนในพื้นที่ท้องถิ่น ส่งผลให้โมเดล MiMo-V2.5-Pro ซึ่งมี 70 ชั้น มีปริมาณการคำนวณการให้ความสนใจโดยรวมเทียบเท่ากับโมเดล GQA แบบดั้งเดิมเพียง 10 ชั้น การโหลดการคำนวณที่ต่ำมากช่วยลดต้นทุนการประมวลผลดั้งเดิม และก่อนปรับราคา มีพื้นที่กำไรอยู่ระหว่าง 2-3 เท่าสำหรับ Xiaomi ดังนั้น การลดราคาจึงเป็นผลมาจากการลดต้นทุนเชิงโครงสร้าง ไม่ใช่การแข่งขันด้วยราคาที่ขาดทุน Luo Fuli กล่าวว่า การให้บริการการประมวลผลต้นทุนต่ำจะช่วยกระตุ้นความต้องการด้านปัญญาประดิษฐ์ในอุปกรณ์ปลายทาง บริษัทโมเดลขนาดใหญ่ควรหลีกเลี่ยงสงครามราคาอย่างไม่มีเป้าหมาย และควรออกแบบระบบอัลกอริทึมและระบบการประมวลผลอย่างร่วมกันในระดับพื้นฐาน เพื่อควบคุมค่าใช้จ่ายในการดำเนินงานจริงให้อยู่ใต้จุดคุ้มทุน (แหล่งที่มา: BlockBeats)