Tin tức từ ME News, ngày 21 tháng 4 (UTC+8), theo giám sát của Beating, kỹ sư trưởng AI của Intel, Haihao Shen, đã công bố rằng Intel đã tải lên Hugging Face ba phiên bản lượng tử hóa INT4 của mô hình video Wan 2.2 của Alibaba: T2V-A14B (văn bản sinh video), I2V-A14B (hình ảnh sinh video) và TI2V-5B (hỗn hợp văn bản và hình ảnh sinh video), tất cả đều được nén bằng AutoRound xuống W4A16. Shen chính là tác giả chính của công cụ lượng tử hóa AutoRound này. INT4 giảm mỗi trọng số từ 2 byte của BF16 xuống còn 0,5 byte, làm giảm kích thước trọng số xuống khoảng một phần tư so với bản gốc. Hai mô hình A14B ban đầu sử dụng kiến trúc MoE, tổng tham số 27B, kích hoạt 14B mỗi bước; tài liệu chính thức cho biết để chạy 720P trên một card duy nhất cần ít nhất 80GB VRAM; TI2V-5B là mô hình dày đặc, bản gốc đã có thể chạy 720P@24fps trên 4090. Intel chưa công bố dữ liệu thực tế về VRAM và chất lượng hình ảnh sau khi lượng tử hóa, cần chờ các bên thứ ba tái hiện lại. Đường dẫn suy luận của ba mô hình này cũng không sử dụng vLLM chính, README hướng dẫn đến nhánh vllm-omni riêng của Intel (feats/ar-w4a16-wan22), cần cài nhánh này mới có thể khởi động dịch vụ. (Nguồn: BlockBeats)
Intel phát hành ba phiên bản lượng tử hóa INT4 của các mô hình video Alibaba Wan2.2
KuCoinFlashChia sẻ






Vào ngày 21 tháng 4 (UTC+8), kỹ sư AI hàng đầu của Intel, Haihao Shen, đã công bố việc phát hành ba phiên bản lượng tử hóa INT4 của mô hình video Wan2.2 do Alibaba phát triển trên Hugging Face. Các mô hình bao gồm T2V-A14B, I2V-A14B và TI2V-5B, tất cả đều được nén bằng công cụ AutoRound của Intel thành W4A16. Việc lượng tử hóa INT4 giảm mỗi trọng số từ 2 byte (BF16) xuống còn 0,5 byte, làm giảm kích thước trọng số xuống khoảng một phần tư so với bản gốc. Các mô hình A14B sử dụng kiến trúc MoE với tổng 27B tham số và 14B hoạt động mỗi bước, yêu cầu ít nhất 80GB bộ nhớ GPU để xử lý video 720P trên một card. TI2V-5B là mô hình dày đặc có thể chạy 720P@24fps trên card 4090. Intel chưa công bố hiệu suất bộ nhớ và chất lượng của các mô hình đã lượng tử hóa, điều này cần được kiểm tra bởi bên thứ ba. Các mô hình không sử dụng pipeline suy luận vLLM chính mà thay vào đó trỏ đến nhánh nội bộ vllm-omni của Intel (feats/ar-w4a16-wan22), cần được cài đặt để chạy dịch vụ. Việc phát hành này nhấn mạnh sự chuyển dịch liên tục về hiệu suất tính toán, có tác động đến cả hệ thống Proof of Work (PoW) và Proof of Stake (PoS).
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.