อินเทลเปิดตัวรุ่นควอนไตรซ์ INT4 สามรุ่นของโมเดลวิดีโอ Alibaba Wan2.2

KuCoinFlash

เวลาเผยแพร่: 21/04/2569 08:52:02

แชร์

สรุป

ในวันที่ 21 เมษายน (UTC+8) ไฮฮาโอ เซิน วิศวกรอาวุโสด้าน AI ของอินเทล ได้ประกาศเปิดตัวเวอร์ชัน INT4 ที่ถูกควอนไทซ์สามเวอร์ชันของโมเดลวิดีโอ Wan2.2 ของอาลีบาบาบน Hugging Face โมเดลเหล่านี้ประกอบด้วย T2V-A14B, I2V-A14B และ TI2V-5B ซึ่งถูกบีบอัดโดยใช้เครื่องมือ AutoRound ของอินเทลไปยังรูปแบบ W4A16 การควอนไทซ์แบบ INT4 ลดน้ำหนักแต่ละค่าจาก 2 ไบต์ (BF16) เหลือ 0.5 ไบต์ ทำให้ขนาดน้ำหนักลดลงเหลือประมาณหนึ่งในสี่ของขนาดเดิม โมเดล A14B ใช้สถาปัตยกรรม MoE ที่มีพารามิเตอร์รวม 27B และใช้งาน 14B ต่อขั้นตอน ต้องการหน่วยความจำ GPU อย่างน้อย 80GB เพื่อเรียกใช้วิดีโอความละเอียด 720P บนการ์ดเดียว TI2V-5B เป็นโมเดลแบบหนาแน่นที่สามารถรันวิดีโอ 720P@24fps ได้บนการ์ด 4090 อินเทลยังไม่เปิดเผยข้อมูลเกี่ยวกับหน่วยความจำและประสิทธิภาพคุณภาพของโมเดลที่ถูกควอนไทซ์ ซึ่งต้องการการทดสอบจากบุคคลที่สาม โมเดลเหล่านี้ไม่ได้ใช้ท่อการสร้างผลลัพธ์ vLLM หลัก แต่ชี้ไปที่สาขา vllm-omni ภายในของอินเทล (feats/ar-w4a16-wan22) ซึ่งต้องติดตั้งเพื่อเรียกใช้บริการ การเปิดตัวนี้เน้นย้ำถึงการเปลี่ยนแปลงอย่างต่อเนื่องในด้านประสิทธิภาพการคำนวณ โดยมีผลกระทบต่อระบบ Proof of Work (PoW) และ Proof of Stake (PoS)

ข่าวจาก ME News เมื่อวันที่ 21 เมษายน (UTC+8) ตามข้อมูลจาก Beating Monitoring ฮายห่าว เซิน วิศวกรหัวหน้าด้าน AI ของ Intel ประกาศว่า Intel ได้อัปโหลดรุ่น INT4 จำนวนสามรุ่นของโมเดลวิดีโอ Wan 2.2 ของ Alibaba ลงบน Hugging Face ได้แก่ T2V-A14B (ข้อความเป็นวิดีโอ), I2V-A14B (รูปภาพเป็นวิดีโอ) และ TI2V-5B (ผสมข้อความและรูปภาพเป็นวิดีโอ) โดยทั้งหมดถูกบีบอัดด้วย AutoRound ไปที่ W4A16 เซินเองเป็นผู้เขียนหลักของเครื่องมือการบีบอัด AutoRound นี้ INT4 ลดขนาดน้ำหนักจาก 2 ไบต์ใน BF16 เหลือเพียง 0.5 ไบต์ ทำให้ขนาดน้ำหนักลดเหลือประมาณหนึ่งในสี่ของรุ่นเดิม รุ่น A14B ทั้งสองรุ่นใช้สถาปัตยกรรม MoE มีพารามิเตอร์รวม 27B และเปิดใช้งาน 14B ต่อขั้นตอน เอกสารอย่างเป็นทางการระบุว่าต้องใช้หน่วยความจำ GPU อย่างน้อย 80GB เพื่อเรียกใช้งานวิดีโอความละเอียด 720P บนหนึ่งการ์ด ส่วน TI2V-5B เป็นโมเดลหนาแน่น รุ่นเดิมสามารถเรียกใช้งานวิดีโอความละเอียด 720P@24fps ได้บนการ์ด 4090 อย่างไรก็ตาม Intel ยังไม่ได้เปิดเผยผลการทดสอบจริงเกี่ยวกับหน่วยความจำ GPU และคุณภาพภาพหลังการบีบอัด ต้องรอการยืนยันจากบุคคลที่สาม การเชื่อมต่อการให้บริการของโมเดลทั้งสามรุ่นไม่ได้ใช้ vLLM เส้นทางหลัก แต่ README ชี้ไปยังสาขา vllm-omni ของ Intel เอง (feats/ar-w4a16-wan22) ซึ่งต้องติดตั้งสาขาดังกล่าวจึงจะสามารถเรียกใช้งานได้ (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ

คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา