Model MiMo-V2.5 Xiaomi Memangkas Biaya dengan Perhitungan Perhatian Setara 10 Lapis

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Model MiMo-V2.5 Xiaomi memangkas biaya menggunakan perhitungan perhatian setara 10 lapisan. Versi Pro 70-lapisan mengurangi biaya cache hit sebesar 99% dan biaya input/output sebesar 60-80%. Berita on-chain menunjukkan model ini menggunakan rasio kelangkaan 1:7 antara perhatian jendela global dan sliding. Perubahan kebijakan kripto global dapat memengaruhi bagaimana peningkatan efisiensi semacam ini berdampak pada penerapan AI.

Berita ME, 27 Mei (UTC+8), menurut pemantauan Beating, setelah implementasi penurunan harga permanen API pada seri model besar self-developed MiMo-V2.5, kepala tim model besar Xiaomi, Luo Fuli, mengumumkan mekanisme pengurangan biaya algoritma di platform X. Luo Fuli mengungkapkan bahwa setelah harga API disesuaikan dengan DeepSeek, mesin inferensi berbeban tinggi Xiaomi tetap mampu mencapai titik impas. Pengurangan biaya terutama berasal dari arsitektur perhatian hibrida dan optimasi cache KV hierarkis. Untuk mencapai target pengurangan biaya cache hit sebesar 99%, kerangka kerja inferensi Xiaomi mengimplementasikan optimasi cache KV hierarkis untuk sliding window attention (SWA). Uji coba produksi menunjukkan bahwa optimasi hierarkis meningkatkan kapasitas token cache hingga 5 kali lipat, mengurangi biaya cache sebesar 80%. Dengan menggabungkan teknologi cache read overlap antar modul perhatian global, sistem lebih lanjut menekan biaya aktual cache hit. Mengenai alasan pengurangan biaya input dan output dasar sebesar 60% hingga 80%, Luo Fuli menyalahkan hal ini pada rasio kelangkaan antar lapisan 1:7 yang diperkenalkan model, yaitu rasio jumlah lapisan global attention (GA) terhadap sliding window attention (SWA) adalah 1:7. Pada tahap prefill teks panjang, 60 lapisan SWA hanya menghitung jendela sliding lokal, sehingga total komputasi perhatian dari model MiMo-V2.5-Pro yang memiliki 70 lapisan hanya setara dengan model GQA global tradisional 10 lapisan. Beban komputasi yang sangat rendah menurunkan biaya inferensi asli, yang sebelum penyesuaian harga memberikan ruang laba 2 hingga 3 kali lipat bagi Xiaomi. Oleh karena itu, penurunan harga merupakan bentuk pengurangan biaya struktural, bukan persaingan merugi. Luo Fuli menyatakan bahwa layanan inferensi berbiaya rendah mendukung pemicuan permintaan kecerdasan terminal. Perusahaan model besar sebaiknya menghindari perang harga sembarangan, melalui desain kolaboratif bawah sadar antara algoritma dan sistem inferensi untuk mengendalikan biaya operasional aktual di bawah titik impas. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.