Model MiMo-V2.5 Xiaomi Mengurangkan Kos dengan Pengiraan Perhatian Setara 10 Lapisan

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Model MiMo-V2.5 Xiaomi mengurangkan kos menggunakan pengiraan perhatian setara 10 lapisan. Versi Pro 70-lapisan mengurangkan kos capaian cache sebanyak 99% dan kos input/output sebanyak 60-80%. Berita di rantai menunjukkan model ini menggunakan nisbah kejaran 1:7 antara perhatian jendela global dan bergeser. Perubahan dasar kripto global mungkin mempengaruhi bagaimana kejayaan kecekapan seperti ini memberi kesan terhadap pelaksanaan AI.

Berita ME, 27 Mei (UTC+8), menurut pemantauan Beating, selepas pasukan model besar Xiaomi melaksanakan penurunan harga API secara permanen pada siri MiMo-V2.5, ketua pasukan model besar Xiaomi, Luo Fuli, mengumumkan mekanisme pengurangan kos algoritma di platform X. Luo Fuli mengungkapkan bahawa selepas harga API diselaraskan dengan DeepSeek, enjin inferens beban tinggi Xiaomi masih mampu mengekalkan keseimbangan pulang modal. Pengurangan kos berpunca terutamanya daripada arsitektur perhatian hibrid dan pengoptimuman cache KV berhierarki. Dengan sasaran pengurangan kos pencapaian cache (Cache Hit) sebanyak 99%, kerangka inferens Xiaomi telah mencapai pengoptimuman cache KV berhierarki untuk perhatian jendela gelongsor (SWA). Ujian pengeluaran menunjukkan bahawa pengoptimuman berhierarki meningkatkan kapasiti token cache sehingga 5 kali ganda, mengurangkan kos cache sebanyak 80%. Dengan menggabungkan teknik tumpang tindih bacaan cache (Cache Read Overlap) antara modul perhatian global, sistem seterusnya mengurangkan kos sebenar pencapaian cache. Mengenai sebab pengurangan kos input dan output asas sebanyak 60% hingga 80%, Luo Fuli mengaitkannya dengan nisbah kejaran antara lapisan 1:7 yang diperkenalkan dalam model, iaitu nisbah bilangan lapisan perhatian global (GA) kepada perhatian jendela gelongsor (SWA) ialah 1:7. Dalam fasa pra-isian teks panjang (Prefill), 60 lapisan SWA hanya mengira jendela gelongsor tempatan, menjadikan jumlah pengiraan perhatian keseluruhan model MiMo-V2.5-Pro yang mempunyai 70 lapisan setara dengan model GQA global tradisional yang hanya mempunyai 10 lapisan. Beban pengiraan yang sangat rendah ini mengurangkan kos inferens asal, yang sebelum penurunan harga memberikan ruang keuntungan 2 hingga 3 kali ganda kepada Xiaomi. Oleh itu, penurunan harga ini merupakan bentuk pengurangan kos struktur, bukan persaingan merugikan. Luo Fuli menyatakan bahawa perkhidmatan inferens berkos rendah memberi manfaat kepada permintaan kecerdasan terminal. Syarikat model besar sepatutnya mengelakkan peperangan harga yang tidak terkawal, dan sebaliknya mengendalikan kos operasi sebenar di bawah garis keseimbangan pulang modal melalui reka bentuk kolaboratif bawah permukaan antara algoritma dan sistem inferens. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.