ฮูเวย์และมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งจีนร่วมมือกันทำลายผูกขาดของ NVIDIA ความเร็วในการคำนวณรุ่น Ascend A3 เพิ่มขึ้น 58%

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ฮูเวย์และมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งจีนได้พัฒนากรอบงาน HyperParallel-MoE เพื่อเพิ่มประสิทธิภาพของชิป Ascend A3 ในการฝึกโมเดลขนาดใหญ่ การออกแบบนี้ปรับปรุงการจัดตารางโดยการจัดการคิวฮาร์ดแวร์ในระดับไทล์ ทำให้แกน AIC และ AIV สามารถทำงานแบบขนานกันได้ การทดสอบบนคลัสเตอร์ 64 โหนดแสดงให้เห็นถึงการเพิ่มความเร็ว 58% ในการคำนวณผู้เชี่ยวชาญ และการเพิ่มความเร็วในการฝึกแบบ end-to-end 8-9% การเคลื่อนไหวนี้อาจเปลี่ยนระดับการสนับสนุนและระดับการต้านทานในตลาดชิปปัญญาประดิษฐ์ พร้อมเสนออัตราส่วนความเสี่ยงต่อผลตอบแทนที่ดีขึ้นสำหรับการนำเทคโนโลยีภายในประเทศมาใช้
ME AI ข่าว ตามการติดตามของ Beating ในการพัฒนาสถาปัตยกรรม MoE ขนาดใหญ่ การฝึกโมเดลขนาดใหญ่ด้วยชิป Ascend ของจีนได้กลายเป็นทิศทางสำคัญในการสร้างพลังการประมวลผล AI ที่สามารถควบคุมได้ด้วยตนเอง อย่างไรก็ตาม กรอบงานโมเดลขนาดใหญ่ส่วนใหญ่ถูกพัฒนาบนระบบนิเวศ CUDA ของ NVIDIA เมื่อโยกย้ายไปยังแพลตฟอร์ม Ascend มักเผชิญกับความท้าทาย เช่น การจัดตารางคิวฮาร์ดแวร์ไม่สมดุลและการใช้งานพลังการประมวลผลต่ำ มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีจีน ฮัวเว่ย และมหาวิทยาลัยปักกิ่งร่วมกันเปิดตัวกรอบงานการคอมไพล์และการจัดตาราง HyperParallel-MoE ซึ่งออกแบบมาเพื่อควบคุมระดับแท่ง (tile-level) สำหรับคิวฮาร์ดแวร์เฉพาะของ Ascend A3 โดยมีเป้าหมายเพื่อเอาชนะข้อจำกัดด้านประสิทธิภาพพลังงานในการจัดตารางแบบขนานของพลังการประมวลผลแบบไม่เหมือนกัน Ascend A3 มีสองประเภทของแกนหลัก: AIC รับผิดชอบการคูณเมทริกซ์ ส่วน AIV จัดการการคำนวณเวกเตอร์และการสื่อสาร แต่ภายใต้การจัดตารางแบบเรียงลำดับแบบดั้งเดิม แกนทั้งสองประเภทจะทำงานสลับกันและพักตัวสลับกัน ข้อมูลการทดสอบแสดงว่า เมื่อใช้คลัสเตอร์ 256 โหนดเพื่อเรียกใช้โมเดลขนาดใหญ่ DeepSeek แบบ 671B การใช้งานของ AIC มีเพียง 67% และความล่าช้าในการสื่อสารการเรียกใช้งานผู้เชี่ยวชาญถึง 39% ถูกเปิดเผยบนเส้นทางการคำนวณหลัก HyperParallel-MoE มีการปรับเปลี่ยนหลักสามประการ ประการแรก ออกแบบคำสั่งเขียนด้านเดียวที่ขับเคลื่อนโดย AIV เพื่อให้การคำนวณเริ่มต้นทันทีเมื่อแท่งข้อมูลมาถึง โดยไม่ต้องรอให้ชุดข้อมูลครบถ้วน ประการที่สอง นำแนวคิดการสร้างงานแท่งที่รับรู้ความพึ่งพาเข้ามา เพื่อรวมการสื่อสารและคำนวณเป็นหน่วยเดียวกัน ประการที่สาม ใช้ตัวจัดตารางแบบคงที่เพื่อสร้างลำดับงานล่วงหน้า โดยขับเคลื่อนแกนทั้งสองประเภทให้ทำงานแบบขนานภายใน kernel เดียว และใช้แคช L2 ความเร็วสูงในการแชร์ผลลัพธ์ระหว่างกลาง เพื่อลดความล่าช้าจากการเขียนกลับและอ่านหน่วยความจำ HBM ที่ช้า การทดสอบแสดงว่า ในระบบสมดุล 64 โหนด โมดูลแกนคำนวณผู้เชี่ยวชาญ (MoE-FFN) ลดความล่าช้าลงประมาณ 36% เทียบเท่ากับการเพิ่มความเร็วในการประมวลผลข้อมูลสูงสุดถึง 58% (หรือเร็วขึ้น 1.49 ถึง 1.58 เท่า) ในระบบแบบ end-to-end การเร่งความเร็วของการฝึกแต่ละขั้นตอนยังเพิ่มขึ้น 8% ถึง 9% สิ่งนี้แสดงให้เห็นว่าประสิทธิภาพพลังงานจริงของ Ascend ไม่ได้ขึ้นอยู่กับสเปคฮาร์ดแวร์เพียงอย่างเดียว แต่ขึ้นอยู่กับความสามารถของคอมไพเลอร์และรันไทม์ในการจัดตารางแกน AIC/AIV อย่างมีประสิทธิภาพ (ที่มา: BlockBeats)
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา