Intel publie trois versions quantifiées INT4 des modèles vidéo Alibaba Wan2.2

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Le 21 avril (UTC+8), Haihao Shen, ingénieur principal en IA d'Intel, a annoncé la publication sur Hugging Face de trois versions quantifiées en INT4 du modèle vidéo Wan2.2 d'Alibaba. Les modèles incluent T2V-A14B, I2V-A14B et TI2V-5B, tous compressés à l'aide de l'outil AutoRound d'Intel en W4A16. La quantification INT4 réduit chaque poids de 2 octets (BF16) à 0,5 octet, ce qui réduit la taille des poids à environ un quart de l'original. Les modèles A14B utilisent une architecture MoE avec 27 milliards de paramètres au total et 14 milliards actifs par étape, nécessitant au moins 80 Go de mémoire GPU pour une vidéo 720P sur une seule carte. TI2V-5B est un modèle dense capable d'exécuter une vidéo 720P@24fps sur une 4090. Intel n'a pas encore divulgué les performances mémoire et qualité des modèles quantifiés, qui nécessitent des tests tiers. Ces modèles n'utilisent pas le pipeline d'inférence vLLM principal, mais pointent vers la branche interne vllm-omni d'Intel (feats/ar-w4a16-wan22), qui doit être installée pour exécuter le service. Cette publication met en lumière le changement en cours vers une efficacité computationnelle accrue, avec des implications pour les systèmes de Preuve de Travail (PoW) et de Preuve d'Enjeu (PoS).

Selon les nouvelles de ME, le 21 avril (UTC+8), selon les données de Beating, Haihao Shen, ingénieur principal en IA chez Intel, a annoncé qu'Intel a téléchargé sur Hugging Face trois versions quantifiées en INT4 du modèle vidéo Wan 2.2 d'Alibaba : T2V-A14B (texte vers vidéo), I2V-A14B (image vers vidéo) et TI2V-5B (texte et image combinés vers vidéo), toutes quantifiées à l'aide d'AutoRound en W4A16. Shen est l'un des principaux auteurs de l'outil de quantification AutoRound. L'INT4 réduit chaque poids de 2 octets en BF16 à 0,5 octet, soit environ un quart du volume d'origine. Les deux modèles A14B utilisent initialement une architecture MoE, avec 27 milliards de paramètres totaux et 14 milliards activés par étape ; la documentation officielle indique qu'un seul GPU nécessite au moins 80 Go de mémoire vidéo pour exécuter du 720p. Le TI2V-5B est un modèle dense, dont la version d'origine peut déjà exécuter du 720p@24fps sur une 4090. Intel n'a pas publié de comparaisons expérimentales de la mémoire vidéo et de la qualité d'image après quantification ; il faut attendre des reproducteurs tiers. Les chaînes d'inférence pour ces trois modèles ne passent pas par vLLM principal ; le README pointe vers la branche propriétaire d'Intel vllm-omni (feats/ar-w4a16-wan22), qu'il faut installer pour démarrer le service. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.