Model MiMo-V2.5 Xiaomi Memangkas Biaya dengan Perhitungan Perhatian Setara 10 Lapis

Berita ME, 27 Mei (UTC+8), menurut pemantauan Beating, setelah implementasi penurunan harga permanen API pada seri model besar self-developed MiMo-V2.5, kepala tim model besar Xiaomi, Luo Fuli, mengumumkan mekanisme pengurangan biaya algoritma di platform X. Luo Fuli mengungkapkan bahwa setelah harga API disesuaikan dengan DeepSeek, mesin inferensi berbeban tinggi Xiaomi tetap mampu mencapai titik impas. Pengurangan biaya terutama berasal dari arsitektur perhatian hibrida dan optimasi cache KV hierarkis. Untuk mencapai target pengurangan biaya cache hit sebesar 99%, kerangka kerja inferensi Xiaomi mengimplementasikan optimasi cache KV hierarkis untuk sliding window attention (SWA). Uji coba produksi menunjukkan bahwa optimasi hierarkis meningkatkan kapasitas token cache hingga 5 kali lipat, mengurangi biaya cache sebesar 80%. Dengan menggabungkan teknologi cache read overlap antar modul perhatian global, sistem lebih lanjut menekan biaya aktual cache hit. Mengenai alasan pengurangan biaya input dan output dasar sebesar 60% hingga 80%, Luo Fuli menyalahkan hal ini pada rasio kelangkaan antar lapisan 1:7 yang diperkenalkan model, yaitu rasio jumlah lapisan global attention (GA) terhadap sliding window attention (SWA) adalah 1:7. Pada tahap prefill teks panjang, 60 lapisan SWA hanya menghitung jendela sliding lokal, sehingga total komputasi perhatian dari model MiMo-V2.5-Pro yang memiliki 70 lapisan hanya setara dengan model GQA global tradisional 10 lapisan. Beban komputasi yang sangat rendah menurunkan biaya inferensi asli, yang sebelum penyesuaian harga memberikan ruang laba 2 hingga 3 kali lipat bagi Xiaomi. Oleh karena itu, penurunan harga merupakan bentuk pengurangan biaya struktural, bukan persaingan merugi. Luo Fuli menyatakan bahwa layanan inferensi berbiaya rendah mendukung pemicuan permintaan kecerdasan terminal. Perusahaan model besar sebaiknya menghindari perang harga sembarangan, melalui desain kolaboratif bawah sadar antara algoritma dan sistem inferensi untuk mengendalikan biaya operasional aktual di bawah titik impas. (Sumber: BlockBeats)