Noticias de ME, el 21 de abril (UTC+8), según el monitoreo de Beating, el ingeniero jefe de IA de Intel, Haihao Shen, anunció que Intel ha subido a Hugging Face tres versiones cuantizadas INT4 del modelo de video Wan 2.2 de Alibaba: T2V-A14B (texto a video), I2V-A14B (imagen a video) y TI2V-5B (texto e imagen combinados para generar video), todas cuantizadas con AutoRound a W4A16. Shen es uno de los principales autores de la herramienta de cuantización AutoRound. INT4 reduce cada peso de 2 bytes en BF16 a 0.5 bytes, reduciendo el tamaño de los pesos aproximadamente a una cuarta parte del original. Las dos versiones A14B originalmente utilizan la arquitectura MoE, con un total de 27B parámetros y 14B activados por paso; la documentación oficial indica que para ejecutar 720P en una sola tarjeta se requieren al menos 80 GB de memoria VRAM. TI2V-5B es un modelo denso, cuya versión original puede ejecutar 720P@24fps en una 4090. Intel no ha publicado comparaciones de memoria VRAM ni calidad de imagen tras la cuantización, lo cual dependerá de la reproducción por terceros. Las rutas de inferencia para los tres modelos no utilizan la línea principal vLLM; el README dirige a la rama propia de Intel, vllm-omni (feats/ar-w4a16-wan22), que debe instalarse para iniciar el servicio. (Fuente: BlockBeats)
Intel lanza tres versiones cuantizadas INT4 de los modelos de video Alibaba Wan2.2
KuCoinFlashCompartir






El 21 de abril (UTC+8), el ingeniero principal de IA de Intel, Haihao Shen, anunció el lanzamiento de tres versiones cuantizadas INT4 del modelo de video Wan2.2 de Alibaba en Hugging Face. Los modelos incluyen T2V-A14B, I2V-A14B y TI2V-5B, todos comprimidos con la herramienta AutoRound de Intel a W4A16. La cuantización INT4 reduce cada peso de 2 bytes (BF16) a 0.5 bytes, haciendo que el tamaño del peso sea aproximadamente una cuarta parte del original. Los modelos A14B utilizan una arquitectura MoE con 27B parámetros totales y 14B activos por paso, requiriendo al menos 80 GB de memoria GPU para video 720P en una sola tarjeta. TI2V-5B es un modelo denso que puede ejecutar 720P@24fps en una 4090. Intel aún no ha revelado el rendimiento de memoria y calidad de los modelos cuantizados, lo cual requiere pruebas de terceros. Los modelos no utilizan el pipeline de inferencia vLLM principal, sino que apuntan a la rama interna de Intel vllm-omni (feats/ar-w4a16-wan22), que debe instalarse para ejecutar el servicio. El lanzamiento destaca el cambio continuo hacia la eficiencia computacional, con implicaciones para los sistemas de Prueba de Trabajo (PoW) y Prueba de Stake (PoS).
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.