ฮูเวย์และมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งจีนร่วมมือกันทำลายผูกขาดของ NVIDIA ความเร็วในการคำนวณรุ่น Ascend A3 เพิ่มขึ้น 58%

ME AI ข่าว ตามการติดตามของ Beating ในการพัฒนาสถาปัตยกรรม MoE ขนาดใหญ่ การฝึกโมเดลขนาดใหญ่ด้วยชิป Ascend ของจีนได้กลายเป็นทิศทางสำคัญในการสร้างพลังการประมวลผล AI ที่สามารถควบคุมได้ด้วยตนเอง อย่างไรก็ตาม กรอบงานโมเดลขนาดใหญ่ส่วนใหญ่ถูกพัฒนาบนระบบนิเวศ CUDA ของ NVIDIA เมื่อโยกย้ายไปยังแพลตฟอร์ม Ascend มักเผชิญกับความท้าทาย เช่น การจัดตารางคิวฮาร์ดแวร์ไม่สมดุลและการใช้งานพลังการประมวลผลต่ำ มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีจีน ฮัวเว่ย และมหาวิทยาลัยปักกิ่งร่วมกันเปิดตัวกรอบงานการคอมไพล์และการจัดตาราง HyperParallel-MoE ซึ่งออกแบบมาเพื่อควบคุมระดับแท่ง (tile-level) สำหรับคิวฮาร์ดแวร์เฉพาะของ Ascend A3 โดยมีเป้าหมายเพื่อเอาชนะข้อจำกัดด้านประสิทธิภาพพลังงานในการจัดตารางแบบขนานของพลังการประมวลผลแบบไม่เหมือนกัน Ascend A3 มีสองประเภทของแกนหลัก: AIC รับผิดชอบการคูณเมทริกซ์ ส่วน AIV จัดการการคำนวณเวกเตอร์และการสื่อสาร แต่ภายใต้การจัดตารางแบบเรียงลำดับแบบดั้งเดิม แกนทั้งสองประเภทจะทำงานสลับกันและพักตัวสลับกัน ข้อมูลการทดสอบแสดงว่า เมื่อใช้คลัสเตอร์ 256 โหนดเพื่อเรียกใช้โมเดลขนาดใหญ่ DeepSeek แบบ 671B การใช้งานของ AIC มีเพียง 67% และความล่าช้าในการสื่อสารการเรียกใช้งานผู้เชี่ยวชาญถึง 39% ถูกเปิดเผยบนเส้นทางการคำนวณหลัก HyperParallel-MoE มีการปรับเปลี่ยนหลักสามประการ ประการแรก ออกแบบคำสั่งเขียนด้านเดียวที่ขับเคลื่อนโดย AIV เพื่อให้การคำนวณเริ่มต้นทันทีเมื่อแท่งข้อมูลมาถึง โดยไม่ต้องรอให้ชุดข้อมูลครบถ้วน ประการที่สอง นำแนวคิดการสร้างงานแท่งที่รับรู้ความพึ่งพาเข้ามา เพื่อรวมการสื่อสารและคำนวณเป็นหน่วยเดียวกัน ประการที่สาม ใช้ตัวจัดตารางแบบคงที่เพื่อสร้างลำดับงานล่วงหน้า โดยขับเคลื่อนแกนทั้งสองประเภทให้ทำงานแบบขนานภายใน kernel เดียว และใช้แคช L2 ความเร็วสูงในการแชร์ผลลัพธ์ระหว่างกลาง เพื่อลดความล่าช้าจากการเขียนกลับและอ่านหน่วยความจำ HBM ที่ช้า การทดสอบแสดงว่า ในระบบสมดุล 64 โหนด โมดูลแกนคำนวณผู้เชี่ยวชาญ (MoE-FFN) ลดความล่าช้าลงประมาณ 36% เทียบเท่ากับการเพิ่มความเร็วในการประมวลผลข้อมูลสูงสุดถึง 58% (หรือเร็วขึ้น 1.49 ถึง 1.58 เท่า) ในระบบแบบ end-to-end การเร่งความเร็วของการฝึกแต่ละขั้นตอนยังเพิ่มขึ้น 8% ถึง 9% สิ่งนี้แสดงให้เห็นว่าประสิทธิภาพพลังงานจริงของ Ascend ไม่ได้ขึ้นอยู่กับสเปคฮาร์ดแวร์เพียงอย่างเดียว แต่ขึ้นอยู่กับความสามารถของคอมไพเลอร์และรันไทม์ในการจัดตารางแกน AIC/AIV อย่างมีประสิทธิภาพ (ที่มา: BlockBeats)