Intel выпустила три версии видео-моделей Alibaba Wan2.2 с квантованием INT4

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
21 апреля (UTC+8) ведущий инженер по ИИ от Intel Хайхао Шэнь объявил о выпуске трех INT4-квантованных версий видео-модели Wan2.2 от Alibaba на Hugging Face. Модели включают T2V-A14B, I2V-A14B и TI2V-5B, все сжатые с помощью инструмента Intel AutoRound до W4A16. INT4-квантование снижает размер каждого веса с 2 байтов (BF16) до 0,5 байта, уменьшая размер весов примерно в четыре раза. Модели A14B используют архитектуру MoE с общим количеством 27 млрд параметров и 14 млрд активных на каждом шаге, требуя как минимум 80 ГБ памяти GPU для обработки видео 720P на одном устройстве. TI2V-5B — это плотная модель, способная работать с видео 720P@24fps на GPU 4090. Intel пока не раскрыла данные о памяти и качестве работы квантованных моделей, что требует стороннего тестирования. Модели не используют основной инференс-конвейер vLLM, а вместо этого указывают на внутреннюю ветку Intel vllm-omni (feats/ar-w4a16-wan22), которую необходимо установить для запуска сервиса. Выпуск подчеркивает продолжающийся сдвиг в сторону повышения вычислительной эффективности, что имеет последствия как для систем Proof of Work (PoW), так и Proof of Stake (PoS).

Согласно новости ME, 21 апреля (UTC+8), по данным мониторинга Beating, главный инженер по ИИ в Intel Хайхао Шэнь объявил, что Intel загрузила на Hugging Face три INT4-квантованные версии видео-модели Wan 2.2 от Alibaba: T2V-A14B (текст в видео), I2V-A14B (изображение в видео) и TI2V-5B (смешанный текст и изображение в видео), все они были сжаты с помощью AutoRound до W4A16. Сам Шэнь является одним из основных авторов инструмента квантования AutoRound. INT4 снижает размер каждого веса с 2 байт в BF16 до 0,5 байта, уменьшая общий объем весов примерно до четверти оригинального. Две модели A14B изначально использовали архитектуру MoE с общим количеством параметров 27B и активацией 14B на шаг; согласно официальной документации, для запуска 720p на одном GPU требуется как минимум 80 ГБ видеопамяти. TI2V-5B — это плотная модель, оригинальная версия которой может запускать 720p@24fps на 4090. Intel не опубликовала сравнительные данные по потреблению видеопамяти и качеству изображения после квантования — эти данные ожидаются после повторного воспроизведения третьими сторонами. Инференс для всех трех моделей не использует основную ветку vLLM; в README указано на собственную ветку Intel vllm-omni (feats/ar-w4a16-wan22), для запуска сервиса необходимо установить именно эту ветку. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.