Intel випустила три версії INT4 квантованих відеомоделей Alibaba Wan2.2

KuCoinFlash

Час випуску: 21.04.2026, 08:52:02

Поділитися

Короткий зміст

21 квітня (UTC+8) провідний інженер з ШІ в Intel Хайхао Шень оголосив про випуск трьох INT4-квантованих версій відеомоделі Wan2.2 від Alibaba на Hugging Face. Моделі включають T2V-A14B, I2V-A14B та TI2V-5B, всі стиснуті за допомогою інструменту Intel AutoRound до W4A16. INT4-квантування зменшує кожен ваговий коефіцієнт з 2 байт (BF16) до 0,5 байта, зменшуючи розмір ваг приблизно в чотири рази. Моделі A14B використовують архітектуру MoE з загальною кількістю 27 млрд параметрів і 14 млрд активних на крок, що вимагає щонайменше 80 ГБ пам’яті GPU для відео 720P на одній карті. TI2V-5B — це щільна модель, яка може запускати відео 720P@24fps на 4090. Intel ще не розкрила пам’ять та якість продуктивності квантованих моделей, що вимагає стороннього тестування. Моделі не використовують основний інференс-конвеєр vLLM, а замість цього посилаються на внутрішню гілку vllm-omni Intel (feats/ar-w4a16-wan22), яку потрібно встановити для запуску сервісу. Випуск підкреслює постійний зсув у напрямку обчислювальної ефективності, що має наслідки для систем Proof of Work (PoW) та Proof of Stake (PoS).

ME News: 21 квітня (UTC+8), за даними Beating, головний інженер з штучного інтелекту Intel Хайхао Шень оголосив, що Intel завантажила на Hugging Face три INT4-квантовані версії відеомоделі Wan 2.2 від Alibaba: T2V-A14B (текст до відео), I2V-A14B (зображення до відео) та TI2V-5B (змішаний текст і зображення до відео), усі звужені до W4A16 за допомогою AutoRound. Шень є одним із головних авторів інструменту квантування AutoRound. INT4 зменшує кожен ваговий коефіцієнт з 2 байтів у BF16 до 0,5 байта, зменшуючи об’єм ваг приблизно до чверті оригіналу. Дві моделі A14B використовують архітектуру MoE з загальною кількістю параметрів 27B та активованою кількістю 14B на крок; офіційна документація стверджує, що для запуску 720p на одній карті потрібно щонайменше 80 ГБ відеопам’яті. TI2V-5B — це щільна модель, яка оригінально може працювати з 720p@24fps на 4090. Intel не оприлюднила реальні порівняння використання відеопам’яті та якості зображення після квантування — це очікується від сторонніх повторень. Ланцюжки висновку для цих трьох моделей не використовують основну версію vLLM; README посилається на власну гілку Intel vllm-omni (feats/ar-w4a16-wan22), яку потрібно встановити, щоб запустити сервіс. (Джерело: BlockBeats)

Джерело:Показати оригінал

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.