MEニュース:4月21日(UTC+8)、動察Beatingの監視によると、IntelのチーフAIエンジニアであるHaihao Shenは、IntelがHugging FaceにAlibabaのWan 2.2ビデオモデルの3つのINT4量子化バージョンをアップロードしたと発表しました。これらはT2V-A14B(テキストからビデオ)、I2V-A14B(画像からビデオ)、TI2V-5B(テキストと画像の混合からビデオ)で、すべてAutoRoundを用いてW4A16に量子化されています。Shen自身がAutoRoundという量子化ツールの主な開発者です。INT4は、各重みをBF16の2バイトから0.5バイトに圧縮し、重みのサイズは元の約4分の1になります。A14Bの2モデルは原本MoEアーキテクチャを使用し、総パラメータ数は27B、1ステップあたり14Bを活性化します。公式ドキュメントによると、720Pを1枚のGPUで実行するには最低80GBのVRAMが必要です。TI2V-5Bは密結合モデルで、原本でも4090で720P@24fpsを実行可能です。量子化後の実際のVRAM使用量と画質の比較についてはIntelが公表しておらず、第三者による再現を待つ必要があります。また、3つのモデルの推論フローはvLLMのメインラインではなく、READMEにはIntel独自のvllm-omniブランチ(feats/ar-w4a16-wan22)へのリンクが記載されており、このブランチをインストールしないとサービスを起動できません。(出典:BlockBeats)
Intel、Alibaba Wan2.2の3つのINT4量子化バージョンをリリース
KuCoinFlash共有






4月21日(UTC+8)、インテルのAI首席エンジニアである沈海豪は、Hugging Face上でアリババのWan2.2ビデオモデルの3つのINT4量子化バージョンを発表しました。これらのモデルは、T2V-A14B、I2V-A14B、TI2V-5Bで、すべてインテルのAutoRoundツールを使用してW4A16に圧縮されています。INT4量子化により、各重みは2バイト(BF16)から0.5バイトに削減され、重みサイズは元の約1/4になります。A14BモデルはMoEアーキテクチャを採用し、合計パラメータ数は27Bで、1ステップあたり14Bがアクティブであり、単一GPUカードで720P動画を実行するには最低80GBのGPUメモリが必要です。TI2V-5Bは密度の高いモデルで、4090上で720P@24fpsを実行できます。インテルは、量子化モデルのメモリ使用量と品質パフォーマンスをまだ公開しておらず、これらは第三者によるテストを必要とします。これらのモデルは主なvLLM推論パイプラインを使用せず、代わりにインテルの内部vllm-omniブランチ(feats/ar-w4a16-wan22)を指しており、サービスを実行するにはこのブランチをインストールする必要があります。このリリースは、Proof of Work(PoW)およびProof of Stake(PoS)システム両方への影響を含む、計算効率における継続的なシフトを強調しています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。