Ipinakilala ng Intel ang tatlong INT4 na quantized na bersyon ng Alibaba Wan2.2 video models

KuCoinFlash

Oras ng Release: 04/21/2026, 08:52:02

I-share

Summary

Noong Abril 21 (UTC+8), ipinahayag ni Haihao Shen, pangunahing inhenyero ng AI ng Intel, ang paglalabas ng tatlong INT4 na quantized na bersyon ng Alibaba’s Wan2.2 video model sa Hugging Face. Ang mga modelo ay kasama ang T2V-A14B, I2V-A14B, at TI2V-5B, na lahat ay pinakaliit gamit ang Intel’s AutoRound tool sa W4A16. Ang INT4 quantization ay bawas ang bawat weight mula sa 2 bytes (BF16) patungo sa 0.5 bytes, na nagiging apat na beses na mas maliit ang laki ng weight. Ang mga modelo na A14B ay gumagamit ng MoE architecture na may kabuuang 27B na parameter at 14B na aktibo bawat hakbang, na nangangailangan ng hindi bababa sa 80GB ng GPU memory para sa 720P video sa isang single card. Ang TI2V-5B ay isang dense model na kayang mag-run ng 720P@24fps sa isang 4090. Hindi pa ipinahayag ng Intel ang memory at quality performance ng mga quantized na modelo, na nangangailangan ng third-party testing. Ang mga modelo ay hindi gumagamit ng pangunahing vLLM inference pipeline kundi nagpapunta sa loob na vllm-omni branch (feats/ar-w4a16-wan22), na kailangang i-install upang mag-run ng serbisyo. Ang paglalabas ay nagpapakita ng patuloy na paglipat patungo sa computational efficiency, na may epekto sa parehong Proof of Work (PoW) at Proof of Stake (PoS) systems.

Ayon sa ME News, noong Abril 21 (UTC+8), ayon sa pagmamasid ng Beating, ipinahayag ni Haihao Shen, pangunahing AI engineer ng Intel, na ang Intel ay nag-upload ng tatlong INT4 quantized version ng Alibaba Wan 2.2 video model sa Hugging Face: T2V-A14B (text-to-video), I2V-A14B (image-to-video), at TI2V-5B (text-image hybrid-to-video), na lahat ay pinabawas gamit ang AutoRound sa W4A16. Si Shen mismo ang pangunahing may-akda ng AutoRound na quantization tool. Ang INT4 ay binabawasan ang bawat weight mula sa 2 bytes ng BF16 hanggang 0.5 bytes, na nagiging halos isang-kwarter ng orihinal na laki. Ang dalawang A14B ay gumagamit ng MoE architecture, may kabuuang 27B parameters at 14B activation bawat hakbang; ayon sa opisyal na dokumentasyon, kailangan ng hindi bababa sa 80GB VRAM para i-run ang 720P sa isang GPU. Ang TI2V-5B ay isang dense model, at ang orihinal nito ay kayang i-run ang 720P@24fps sa 4090. Ang eksaktong VRAM at quality comparison pagkatapos ng quantization ay hindi pa ipinahayag ng Intel, kailangan pang hintayin ang third-party replication. Ang inference pipeline ng tatlong model ay hindi gumagamit ng pangunahing vLLM; ang README ay nagdirekta sa sariling branch ni Intel na vllm-omni (feats/ar-w4a16-wan22), at kailangan i-install ang branch na ito upang magsimula ang serbisyo. (Source: BlockBeats)

Source:Ipakita ang original

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.