A Intel lança três versões quantizadas INT4 dos modelos de vídeo Alibaba Wan2.2

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Em 21 de abril (UTC+8), o engenheiro-chefe de IA da Intel, Haihao Shen, anunciou o lançamento de três versões quantizadas INT4 do modelo de vídeo Wan2.2 da Alibaba no Hugging Face. Os modelos incluem T2V-A14B, I2V-A14B e TI2V-5B, todos comprimidos usando a ferramenta AutoRound da Intel para W4A16. A quantização INT4 reduz cada peso de 2 bytes (BF16) para 0,5 byte, tornando o tamanho dos pesos aproximadamente um quarto do original. Os modelos A14B utilizam uma arquitetura MoE com 27B de parâmetros totais e 14B ativos por etapa, exigindo pelo menos 80 GB de memória GPU para vídeo 720P em um único cartão. TI2V-5B é um modelo denso que pode executar 720P@24fps em uma 4090. A Intel ainda não divulgou o desempenho de memória e qualidade dos modelos quantizados, o que exige testes de terceiros. Os modelos não utilizam o pipeline principal de inferência vLLM, mas apontam para o branch interno da Intel vllm-omni (feats/ar-w4a16-wan22), que deve ser instalado para executar o serviço. O lançamento destaca a mudança contínua em eficiência computacional, com implicações para sistemas de Proof of Work (PoW) e Proof of Stake (PoS).

Notícia da ME, 21 de abril (UTC+8): segundo monitoramento da Beating, o engenheiro-chefe de IA da Intel, Haihao Shen, anunciou que a Intel enviou três versões quantizadas INT4 do modelo de vídeo Wan 2.2 da Alibaba no Hugging Face: T2V-A14B (texto para vídeo), I2V-A14B (imagem para vídeo) e TI2V-5B (texto e imagem para vídeo), todas quantizadas para W4A16 usando o AutoRound. Shen é um dos principais autores da ferramenta de quantização AutoRound. A quantização INT4 reduz cada peso de 2 bytes no BF16 para 0,5 byte, reduzindo o tamanho dos pesos para aproximadamente um quarto do original. As duas versões A14B originalmente usavam arquitetura MoE, com 27B de parâmetros totais e 14B ativados por passo; a documentação oficial afirma que, para executar 720p em um único GPU, são necessários pelo menos 80 GB de memória VRAM. O TI2V-5B é um modelo denso, cuja versão original já consegue executar 720p@24fps em uma 4090. A Intel não divulgou comparações de uso real de memória VRAM e qualidade de imagem após a quantização — aguarda-se reprodução por terceiros. As cadeias de inferência desses três modelos não utilizam o vLLM principal; o README aponta para o branch próprio da Intel, vllm-omni (feats/ar-w4a16-wan22), que precisa ser instalado para iniciar os serviços. (Fonte: BlockBeats)

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.