英特爾發布三款 INT4 量化版本的阿里巴巴 Wan2.2 視頻模型

KuCoinFlash

發佈時間： 21/04/2026 08:52:02

精華摘要

於 4 月 21 日（UTC+8），英特爾的首席 AI 工程師沈海豪在 Hugging Face 上宣布推出阿里巴巴 Wan2.2 影片模型的三個 INT4 量化版本，包括 T2V-A14B、I2V-A14B 和 TI2V-5B，這些模型均使用英特爾的 AutoRound 工具壓縮為 W4A16。INT4 量化將每個權重從 2 個位元組（BF16）減少至 0.5 個位元組，使權重大小約為原來的四分之一。A14B 模型採用 MoE 架構，總參數為 27B，每步驟激活 14B，單卡運行 720P 影片至少需要 80GB 的 GPU 記憶體。TI2V-5B 是一個密集型模型，可在 4090 上運行 720P@24fps。英特爾尚未披露量化模型的記憶體與品質表現，需由第三方進行測試。這些模型未使用主要的 vLLM 推理管道，而是指向英特爾內部的 vllm-omni 分支（feats/ar-w4a16-wan22），必須安裝該分支才能運行服務。此發布凸顯了計算效率的持續轉變，對工作量證明（PoW）和權益證明（PoS）系統皆有影響。

ME News 消息，4 月 21 日（UTC+8），據動察 Beating 監測，Intel 首席 AI 工程師 Haihao Shen 宣布，Intel 已在 Hugging Face 上傳阿里 Wan 2.2 視頻模型的三款 INT4 量化版本：T2V-A14B（文生視頻）、I2V-A14B（圖生視頻）和 TI2V-5B（文圖混合生視頻），全部用 AutoRound 壓到 W4A16。Shen 自己就是 AutoRound 這套量化工具的主要作者。INT4 把每個權重從 BF16 的 2 字節壓到 0.5 字節，權重體積約為原版四分之一。A14B 兩款原本用 MoE 架構，總參數 27B、每步激活 14B，官方文檔稱單卡跑 720P 至少要 80GB 顯存；TI2V-5B 是稠密模型，原版就能在 4090 上跑 720P@24fps。量化後的實測顯存和畫質對比 Intel 沒公佈，需等第三方複現。三款模型的推理鏈路也沒走主線 vLLM，README 指向 Intel 自家的 vllm-omni 分支（feats/ar-w4a16-wan22），要裝這個分支才能起服務。（來源：BlockBeats）

來源:顯示原文

免責聲明：本頁面資訊可能來自第三方，不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用，不構成任何形式的陳述或保證，也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏，或因使用該資訊而導致的任何結果不承擔任何責任。虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息，請參閱我們的使用條款和風險披露。