Model MiMo-V2.5 Xiaomi Mengurangkan Kos dengan Pengiraan Perhatian Setara 10 Lapisan

Berita ME, 27 Mei (UTC+8), menurut pemantauan Beating, selepas pasukan model besar Xiaomi melaksanakan penurunan harga API secara permanen pada siri MiMo-V2.5, ketua pasukan model besar Xiaomi, Luo Fuli, mengumumkan mekanisme pengurangan kos algoritma di platform X. Luo Fuli mengungkapkan bahawa selepas harga API diselaraskan dengan DeepSeek, enjin inferens beban tinggi Xiaomi masih mampu mengekalkan keseimbangan pulang modal. Pengurangan kos berpunca terutamanya daripada arsitektur perhatian hibrid dan pengoptimuman cache KV berhierarki. Dengan sasaran pengurangan kos pencapaian cache (Cache Hit) sebanyak 99%, kerangka inferens Xiaomi telah mencapai pengoptimuman cache KV berhierarki untuk perhatian jendela gelongsor (SWA). Ujian pengeluaran menunjukkan bahawa pengoptimuman berhierarki meningkatkan kapasiti token cache sehingga 5 kali ganda, mengurangkan kos cache sebanyak 80%. Dengan menggabungkan teknik tumpang tindih bacaan cache (Cache Read Overlap) antara modul perhatian global, sistem seterusnya mengurangkan kos sebenar pencapaian cache. Mengenai sebab pengurangan kos input dan output asas sebanyak 60% hingga 80%, Luo Fuli mengaitkannya dengan nisbah kejaran antara lapisan 1:7 yang diperkenalkan dalam model, iaitu nisbah bilangan lapisan perhatian global (GA) kepada perhatian jendela gelongsor (SWA) ialah 1:7. Dalam fasa pra-isian teks panjang (Prefill), 60 lapisan SWA hanya mengira jendela gelongsor tempatan, menjadikan jumlah pengiraan perhatian keseluruhan model MiMo-V2.5-Pro yang mempunyai 70 lapisan setara dengan model GQA global tradisional yang hanya mempunyai 10 lapisan. Beban pengiraan yang sangat rendah ini mengurangkan kos inferens asal, yang sebelum penurunan harga memberikan ruang keuntungan 2 hingga 3 kali ganda kepada Xiaomi. Oleh itu, penurunan harga ini merupakan bentuk pengurangan kos struktur, bukan persaingan merugikan. Luo Fuli menyatakan bahawa perkhidmatan inferens berkos rendah memberi manfaat kepada permintaan kecerdasan terminal. Syarikat model besar sepatutnya mengelakkan peperangan harga yang tidak terkawal, dan sebaliknya mengendalikan kos operasi sebenar di bawah garis keseimbangan pulang modal melalui reka bentuk kolaboratif bawah permukaan antara algoritma dan sistem inferens. (Sumber: BlockBeats)