ME News haberine göre, 21 Nisan (UTC+8) tarihinde Beating tarafından izlendiğine göre, Intel'in baş AI mühendisi Haihao Shen, Intel'in Hugging Face üzerinde Alibaba'nın Wan 2.2 video modelinin üç INT4 kuantize versiyonunu yüklediğini duyurdu: T2V-A14B (metinden videoya), I2V-A14B (görselden videoya) ve TI2V-5B (metin-görsel karışık video üretimi), hepsi AutoRound ile W4A16'ya sıkıştırıldı. Shen, AutoRound kuantizasyon aracının ana yazarıdır. INT4, her ağırlığı BF16'nın 2 baytından 0,5 bayta indiriyor, bu da ağırlık boyutunu orijinalin yaklaşık dörtte birine düşürüyor. A14B modelleri orijinalde MoE mimarisini kullanıyor, toplam parametre sayısı 27B ve her adımda 14B aktive ediliyor; resmi belgeler, 720P çalıştırmak için en az 80 GB GPU belleğine ihtiyaç duyulduğunu belirtiyor. TI2V-5B, yoğun bir modeldir ve orijinal haliyle 4090 üzerinde 720P@24fps çalıştırılabiliyor. Kuantize edilmiş versiyonların gerçek dünya GPU belleği ve kalite karşılaştırmaları Intel tarafından yayınlanmadı; bunlar üçüncü taraf tekrarlamalarına kadar beklenmelidir. Üç modelin de çıkarım zinciri vLLM ana hattını kullanmıyor; README, Intel'in kendi vllm-omni dalına (feats/ar-w4a16-wan22) yönlendiriyor; hizmet başlatmak için bu dalın kurulması gerekiyor. (Kaynak: BlockBeats)
Intel, Alibaba Wan2.2 video modellerinin üç INT4 kuantize sürümünü yayınladı
KuCoinFlashPaylaş






21 Nisan'da (UTC+8), Intel'in baş AI mühendisi Haihao Shen, Hugging Face üzerinde Alibaba'nın Wan2.2 video modelinin üç INT4 kuantize versiyonunu duyurdu. Modeller, T2V-A14B, I2V-A14B ve TI2V-5B olmak üzere, tümü Intel'in AutoRound aracını kullanarak W4A16 biçiminde sıkıştırıldı. INT4 kuantizasyonu, her ağırlığı 2 bayt (BF16) yerine 0,5 bayta indirerek ağırlık boyutunu orijinalinin yaklaşık dörtte birine düşürüyor. A14B modelleri, toplam 27B parametre ve her adımda 14B aktif parametre kullanan MoE mimarisini kullanıyor ve tek bir kartta 720P video çalıştırmak için en az 80 GB GPU belleğine ihtiyaç duyuyor. TI2V-5B, 4090 üzerinde 720P@24fps çalıştırılabilecek yoğun bir modeldir. Intel, kuantize edilmiş modellerin bellek ve kalite performansını henüz açıklamadı; bu performanslar üçüncü taraf testleri ile değerlendirilmelidir. Modeller, ana vLLM çıkarım hattını kullanmıyor, bunun yerine Intel'in dahili vllm-omni dalına (feats/ar-w4a16-wan22) yönlendiriyor ve hizmeti çalıştırmak için bu dalın kurulması gerekiyor. Bu yayın, Hem Kanıt-Çalışma (PoW) hem de Kanıt-Katkı (PoS) sistemleri için hesaplama verimliliğindeki devam eden dönüşümü vurgulamaktadır.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.