Xiaomi, Saati 1000+ Token Hızıyla MiMo Hızlandırılmış Sürümünü Lansman Yaptı

icon币界网
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Xiaomi, standart sunucularda saniyede 1000'den fazla token destekleyen yeni bir token listeleme hazır model olan MiMo-V2.5-Pro-UltraSpeed'i piyasaya sürdü. Model, özel çipler olmadan hızı artırmak için FP4 kuantizasyonu ve DFlash dekodlamayı kullanıyor. TileRT optimizasyonu, GPU aşırı yükünü azaltıyor. Model, GPT, Claude Opus ve Gemini Flash'i geride bırakıyor. API erişimi 9 Haziran'da başlıyor. Model, üç kat daha pahalı ancak on kat daha hızlı. FP4 ve DFlash kontrol noktaları açık kaynaklı hale getirildi. SEC haberleri, token projeleri için hâlâ önemli bir endişe kaynağıdır.
CoinDesk haber veriyor:

Xiaomi, milyarlarca parametreli üst düzey modelinin hızlandırılmış çıkarım sürümü olan MiMo-V2.5-Pro-UltraSpeed’i duyurdu. Şirket, yeni sürümün, 8 adet genel amaçlı GPU’dan oluşan standart bir sunucuda çıkarım hızının saniyede 1000 tokeni aştığını ve tepe değerinin 1200 tokene yaklaştığını belirtti.

Bu güncellemenin odak noktası yeni model değil, çıkarım verimliliğidir. Özel çiplere dayalı çözümlerle karşılaştırıldığında, Xiaomi bu kez genel donanımı kullanmayı ve hızlanmayı yazılım ve model tarafı optimizasyonlarıyla sağlamayı vurgulamaktadır. Bu, büyük modellerin hızlı bir şekilde dağıtılmasının engellerinin daha da düşmesi anlamına gelir.

İki teknoloji hızlanmayı sağlıyor

Xiaomi, bu sefer ana olarak iki teknoloji kullandı. Birincisi FP4 kuantizasyonu. Şirket, modeldeki ana parametre boyutuna sahip uzman katmanlarını 4-bit hassasiyete sıkıştırırken, kalan kısımları yüksek hassasiyette tutmaya devam etti. Bu, video belleği kullanımını ve bant genişliği yükünü azaltarak çıkarım hızını artırır.

İkinci, DFlash tahmini deşifrelemedir. Geleneksel tahmini deşifreleme genellikle küçük bir modelin az sayıda token tahmin etmesiyle başlar, ardından büyük model paralel olarak doğrular. DFlash ise tüm token bloğunu aynı anda sunar ve ana model doğrular. Kod görevlerinde, ana model her turda ortalama 8 aday token'dan 6,3'ünü kabul eder.

Xiaomi,推理 ortağı TileRT ile birlikte yürütme sürecini optimize etti. Yaklaşım, hesaplama işlemini GPU içinde sürekli tutarak, operatörlerin sıralı başlatılmasından kaynaklanan ek yükü azaltmaktır.

Ana modellerin hız karşılaştırması

Yazının içinde yer alan Artificial Analysis verilerine göre, mevcut yaygın modellerin çıktı hızları genellikle bu seviyenin altında bulunmaktadır. Habere göre, GPT serisinin yaygın etkileşim hızı saniyede yaklaşık 68 token, Claude Opus 4.6 saniyede yaklaşık 71 token, Gemini Flash ise saniyede yaklaşık 192 token'tır.

Ayrıca, Cerebras ve Groq gibi şirketlerin uzun süredir yüksek verimlilikli çıkarım için planlama yaptıkları ve hızı artırmak için kendi çapta çip mimarilerine dayandıkları belirtiliyor. Buna karşılık, Xiaomi bu sonucu genel GPU düğümlerinde gerçekleştirdi ve performans artışı için yazılım optimizasyonuna vurgu yaptı.

9 Haziran'da sınırlı deneme başlatılıyor

Xiaomi, UltraSpeed'in basitleştirilmiş hafif model değil, orijinal MiMo-V2.5-Pro'yu hızlandırdığını belirtti. Bu model, önceki kod benchmark testlerinde Claude Opus seviyesine yakın performans gösterdi.

Şirket, 9 Haziran ile 23 Haziran arasında sınırlı API deneme sürümünü başvuruya dayalı olarak açacaktır; kurumsal kullanıcılar ve profesyonel geliştiriciler öncelikli hak kazanacaktır. Fiyatlandırma açısından, UltraSpeed sürümü, standart MiMo ücretlerinin yaklaşık 3 katı olacak ancak üretim hızı yaklaşık 10 kat artırılacaktır.

Ek bilgi: Xiaomi, FP4 ve DFlash kullanan kontrol noktası modelinin Hugging Face üzerinde topluluk için açık kaynaklı hale getirildiğini açıkladı.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.