Berita ME, 21 April (UTC+8), menurut pemantauan Beating, insinyur AI utama Intel, Haihao Shen, mengumumkan bahwa Intel telah mengunggah tiga versi kuantisasi INT4 dari model video Wan 2.2 Alibaba ke Hugging Face: T2V-A14B (teks ke video), I2V-A14B (gambar ke video), dan TI2V-5B (campuran teks-gambar ke video), semuanya dikompresi menggunakan AutoRound ke W4A16. Shen sendiri adalah salah satu penulis utama alat kuantisasi AutoRound ini. INT4 mengurangi setiap bobot dari 2 byte BF16 menjadi 0,5 byte, sehingga ukuran bobot sekitar seperempat dari versi aslinya. Dua model A14B awalnya menggunakan arsitektur MoE dengan total parameter 27B dan aktivasi 14B per langkah; dokumentasi resmi menyatakan bahwa menjalankan 720P pada satu kartu memerlukan setidaknya 80GB VRAM; TI2V-5B adalah model padat yang sudah dapat menjalankan 720P@24fps pada 4090 tanpa kuantisasi. Intel belum mengumumkan perbandingan VRAM dan kualitas gambar hasil kuantisasi secara empiris, sehingga perlu menunggu replikasi pihak ketiga. Jalur inferensi ketiga model ini juga tidak menggunakan vLLM utama; README mengarah ke cabang khusus Intel, vllm-omni (feats/ar-w4a16-wan22), yang harus diinstal untuk menjalankan layanan tersebut. (Sumber: BlockBeats)
Intel merilis tiga versi kuantisasi INT4 dari model video Alibaba Wan2.2
KuCoinFlashBagikan






Pada 21 April (UTC+8), insinyur AI utama Intel, Haihao Shen, mengumumkan rilis tiga versi kuantisasi INT4 dari model video Wan2.2 Alibaba di Hugging Face. Model-model tersebut mencakup T2V-A14B, I2V-A14B, dan TI2V-5B, semuanya dikompresi menggunakan alat AutoRound Intel ke W4A16. Kuantisasi INT4 mengurangi setiap bobot dari 2 byte (BF16) menjadi 0,5 byte, sehingga ukuran bobot menjadi sekitar seperempat dari aslinya. Model A14B menggunakan arsitektur MoE dengan total 27B parameter dan 14B aktif per langkah, memerlukan setidaknya 80GB memori GPU untuk video 720P pada satu kartu. TI2V-5B adalah model padat yang dapat menjalankan 720P@24fps pada 4090. Intel belum mengungkapkan kinerja memori dan kualitas dari model-model yang dikuantisasi, yang memerlukan pengujian pihak ketiga. Model-model ini tidak menggunakan pipeline inferensi vLLM utama, tetapi mengarah ke cabang internal Intel vllm-omni (feats/ar-w4a16-wan22), yang harus diinstal untuk menjalankan layanan tersebut. Rilis ini menyoroti pergeseran berkelanjutan dalam efisiensi komputasi, dengan implikasi bagi sistem Proof of Work (PoW) dan Proof of Stake (PoS).
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.