ข่าวจาก ME News เมื่อวันที่ 27 พฤษภาคม (UTC+8) ตามข้อมูลจาก Beating ซึ่งติดตามสถานการณ์ หลังจากทีมโมเดลขนาดใหญ่ของ Xiaomi ได้ดำเนินการลดราคา API อย่างถาวรสำหรับชุดโมเดล MiMo-V2.5 หัวหน้าทีมโมเดลขนาดใหญ่ของ Xiaomi คือ Luo Fuli ได้เปิดเผยกลไกการลดต้นทุนอัลกอริทึมบนแพลตฟอร์ม X Luo Fuli เปิดเผยว่า หลังจากปรับราคา API ให้เทียบเท่ากับ DeepSeek ระบบการประมวลผลแบบโหลดสูงของ Xiaomi ยังคงรักษาจุดคุ้มทุนได้ ความลดต้นทุนหลักมาจากการออกแบบสถาปัตยกรรมการให้ความสนใจแบบผสมผสานและการปรับปรุงแคช KV แบบมีระดับชั้น เพื่อเป้าหมายการลดต้นทุนการเข้าถึงแคช (Cache Hit) ลง 99% Xiaomi ได้พัฒนาการปรับปรุงแคช KV แบบมีระดับชั้นสำหรับกลไกการให้ความสนใจแบบหน้าต่างเลื่อน (SWA) การทดสอบในสภาพแวดล้อมจริงแสดงให้เห็นว่า การปรับปรุงแบบมีระดับชั้นสามารถเพิ่มความจุ token ของแคชได้ถึง 5 เท่า และลดต้นทุนแคชลง 80% โดยร่วมกับเทคโนโลยีการทับซ้อนการอ่านแคช (Cache Read Overlap) ระหว่างโมดูลการให้ความสนใจแบบทั่วโลก ระบบจึงสามารถลดต้นทุนจริงของการเข้าถึงแคชได้อีก สำหรับเหตุผลที่ต้นทุนพื้นฐานของการป้อนข้อมูลและเอาต์พุตลดลง 60% ถึง 80% Luo Fuli อธิบายว่าเกิดจากการใช้อ tỷส่วนความบางระหว่างชั้น 1:7 ซึ่งคืออัตราส่วนระหว่างจำนวนชั้นของความสนใจแบบทั่วโลก (GA) กับความสนใจแบบหน้าต่างเลื่อน (SWA) ในระยะเริ่มต้นการเติมข้อความยาว (Prefill) 60 ชั้นของ SWA จะคำนวณเฉพาะหน้าต่างเลื่อนในพื้นที่ท้องถิ่น ส่งผลให้โมเดล MiMo-V2.5-Pro ซึ่งมี 70 ชั้น มีปริมาณการคำนวณการให้ความสนใจโดยรวมเทียบเท่ากับโมเดล GQA แบบดั้งเดิมเพียง 10 ชั้น การโหลดการคำนวณที่ต่ำมากช่วยลดต้นทุนการประมวลผลดั้งเดิม และก่อนปรับราคา มีพื้นที่กำไรอยู่ระหว่าง 2-3 เท่าสำหรับ Xiaomi ดังนั้น การลดราคาจึงเป็นผลมาจากการลดต้นทุนเชิงโครงสร้าง ไม่ใช่การแข่งขันด้วยราคาที่ขาดทุน Luo Fuli กล่าวว่า การให้บริการการประมวลผลต้นทุนต่ำจะช่วยกระตุ้นความต้องการด้านปัญญาประดิษฐ์ในอุปกรณ์ปลายทาง บริษัทโมเดลขนาดใหญ่ควรหลีกเลี่ยงสงครามราคาอย่างไม่มีเป้าหมาย และควรออกแบบระบบอัลกอริทึมและระบบการประมวลผลอย่างร่วมกันในระดับพื้นฐาน เพื่อควบคุมค่าใช้จ่ายในการดำเนินงานจริงให้อยู่ใต้จุดคุ้มทุน (แหล่งที่มา: BlockBeats)
โมเดล MiMo-V2.5 ของ Xiaomi ลดต้นทุนด้วยการคำนวณความสนใจเทียบเท่า 10 ชั้น
KuCoinFlashแชร์






รุ่น MiMo-V2.5 ของ Xiaomi ลดต้นทุนโดยใช้การคำนวณความสนใจเทียบเท่า 10 ชั้น รุ่น Pro ที่มี 70 ชั้น ลดต้นทุนการเข้าถึงแคชลง 99% และต้นทุนการป้อนข้อมูล/เอาต์พุตลง 60-80% ข่าวบนโซ่แสดงว่ารุ่นนี้ใช้อัตราความบางเฉียบ 1:7 ระหว่างความสนใจแบบหน้าต่างเลื่อนและแบบทั่วโลก การเปลี่ยนแปลงนโยบายคริปโตทั่วโลกอาจส่งผลต่อวิธีที่ประโยชน์ด้านประสิทธิภาพเหล่านี้ส่งผลต่อการนำ AI ไปใช้งาน
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา