Notícia da ME, 21 de abril (UTC+8): segundo monitoramento da Beating, o engenheiro-chefe de IA da Intel, Haihao Shen, anunciou que a Intel enviou três versões quantizadas INT4 do modelo de vídeo Wan 2.2 da Alibaba no Hugging Face: T2V-A14B (texto para vídeo), I2V-A14B (imagem para vídeo) e TI2V-5B (texto e imagem para vídeo), todas quantizadas para W4A16 usando o AutoRound. Shen é um dos principais autores da ferramenta de quantização AutoRound. A quantização INT4 reduz cada peso de 2 bytes no BF16 para 0,5 byte, reduzindo o tamanho dos pesos para aproximadamente um quarto do original. As duas versões A14B originalmente usavam arquitetura MoE, com 27B de parâmetros totais e 14B ativados por passo; a documentação oficial afirma que, para executar 720p em um único GPU, são necessários pelo menos 80 GB de memória VRAM. O TI2V-5B é um modelo denso, cuja versão original já consegue executar 720p@24fps em uma 4090. A Intel não divulgou comparações de uso real de memória VRAM e qualidade de imagem após a quantização — aguarda-se reprodução por terceiros. As cadeias de inferência desses três modelos não utilizam o vLLM principal; o README aponta para o branch próprio da Intel, vllm-omni (feats/ar-w4a16-wan22), que precisa ser instalado para iniciar os serviços. (Fonte: BlockBeats)
A Intel lança três versões quantizadas INT4 dos modelos de vídeo Alibaba Wan2.2
KuCoinFlashCompartilhar






Em 21 de abril (UTC+8), o engenheiro-chefe de IA da Intel, Haihao Shen, anunciou o lançamento de três versões quantizadas INT4 do modelo de vídeo Wan2.2 da Alibaba no Hugging Face. Os modelos incluem T2V-A14B, I2V-A14B e TI2V-5B, todos comprimidos usando a ferramenta AutoRound da Intel para W4A16. A quantização INT4 reduz cada peso de 2 bytes (BF16) para 0,5 byte, tornando o tamanho dos pesos aproximadamente um quarto do original. Os modelos A14B utilizam uma arquitetura MoE com 27B de parâmetros totais e 14B ativos por etapa, exigindo pelo menos 80 GB de memória GPU para vídeo 720P em um único cartão. TI2V-5B é um modelo denso que pode executar 720P@24fps em uma 4090. A Intel ainda não divulgou o desempenho de memória e qualidade dos modelos quantizados, o que exige testes de terceiros. Os modelos não utilizam o pipeline principal de inferência vLLM, mas apontam para o branch interno da Intel vllm-omni (feats/ar-w4a16-wan22), que deve ser instalado para executar o serviço. O lançamento destaca a mudança contínua em eficiência computacional, com implicações para sistemas de Proof of Work (PoW) e Proof of Stake (PoS).
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.