Xiaomi, milyarlarca parametreli üst düzey modelinin hızlandırılmış çıkarım sürümü olan MiMo-V2.5-Pro-UltraSpeed’i duyurdu. Şirket, yeni sürümün, 8 adet genel amaçlı GPU’dan oluşan standart bir sunucuda çıkarım hızının saniyede 1000 tokeni aştığını ve tepe değerinin 1200 tokene yaklaştığını belirtti.
Bu güncellemenin odak noktası yeni model değil, çıkarım verimliliğidir. Özel çiplere dayalı çözümlerle karşılaştırıldığında, Xiaomi bu kez genel donanımı kullanmayı ve hızlanmayı yazılım ve model tarafı optimizasyonlarıyla sağlamayı vurgulamaktadır. Bu, büyük modellerin hızlı bir şekilde dağıtılmasının engellerinin daha da düşmesi anlamına gelir.
İki teknoloji hızlanmayı sağlıyor
Xiaomi, bu sefer ana olarak iki teknoloji kullandı. Birincisi FP4 kuantizasyonu. Şirket, modeldeki ana parametre boyutuna sahip uzman katmanlarını 4-bit hassasiyete sıkıştırırken, kalan kısımları yüksek hassasiyette tutmaya devam etti. Bu, video belleği kullanımını ve bant genişliği yükünü azaltarak çıkarım hızını artırır.
İkinci, DFlash tahmini deşifrelemedir. Geleneksel tahmini deşifreleme genellikle küçük bir modelin az sayıda token tahmin etmesiyle başlar, ardından büyük model paralel olarak doğrular. DFlash ise tüm token bloğunu aynı anda sunar ve ana model doğrular. Kod görevlerinde, ana model her turda ortalama 8 aday token'dan 6,3'ünü kabul eder.
Xiaomi,推理 ortağı TileRT ile birlikte yürütme sürecini optimize etti. Yaklaşım, hesaplama işlemini GPU içinde sürekli tutarak, operatörlerin sıralı başlatılmasından kaynaklanan ek yükü azaltmaktır.
Ana modellerin hız karşılaştırması
Yazının içinde yer alan Artificial Analysis verilerine göre, mevcut yaygın modellerin çıktı hızları genellikle bu seviyenin altında bulunmaktadır. Habere göre, GPT serisinin yaygın etkileşim hızı saniyede yaklaşık 68 token, Claude Opus 4.6 saniyede yaklaşık 71 token, Gemini Flash ise saniyede yaklaşık 192 token'tır.
Ayrıca, Cerebras ve Groq gibi şirketlerin uzun süredir yüksek verimlilikli çıkarım için planlama yaptıkları ve hızı artırmak için kendi çapta çip mimarilerine dayandıkları belirtiliyor. Buna karşılık, Xiaomi bu sonucu genel GPU düğümlerinde gerçekleştirdi ve performans artışı için yazılım optimizasyonuna vurgu yaptı.
9 Haziran'da sınırlı deneme başlatılıyor
Xiaomi, UltraSpeed'in basitleştirilmiş hafif model değil, orijinal MiMo-V2.5-Pro'yu hızlandırdığını belirtti. Bu model, önceki kod benchmark testlerinde Claude Opus seviyesine yakın performans gösterdi.
Şirket, 9 Haziran ile 23 Haziran arasında sınırlı API deneme sürümünü başvuruya dayalı olarak açacaktır; kurumsal kullanıcılar ve profesyonel geliştiriciler öncelikli hak kazanacaktır. Fiyatlandırma açısından, UltraSpeed sürümü, standart MiMo ücretlerinin yaklaşık 3 katı olacak ancak üretim hızı yaklaşık 10 kat artırılacaktır.
Ek bilgi: Xiaomi, FP4 ve DFlash kullanan kontrol noktası modelinin Hugging Face üzerinde topluluk için açık kaynaklı hale getirildiğini açıkladı.
