ความก้าวหน้าด้านปัญญาประดิษฐ์ของจีน: โมเดล DeepSeek ขนาดพารามิเตอร์ 1.6 ล้านล้าน ได้รับการฝึกอบรมอย่างสมบูรณ์บน Ascend 910C ภายในประเทศ

ME AI ข่าว ตามการติดตามของ Beating ทีมร่วมวิจัยประกอบด้วยวิทยาลัยเซินเจิ้นเหอฉวง มหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) สถาบันวิจัยข้อมูลขนาดใหญ่เซินเจิ้น และทีมที่เกี่ยวข้องกับ Huawei ได้ประกาศประสบความสำเร็จในการดำเนินการฝึกแบบเต็มพารามิเตอร์ (Post-training) สำหรับโมเดลขนาดใหญ่ DeepSeek-V4-Pro ที่มีพารามิเตอร์ 1.6 ล้านล้านบนแพลตฟอร์ม AI ของประเทศ โดยเป็นครั้งแรกขององค์กรภายนอกทั่วโลกที่สามารถทำสำเร็จการฝึกแบบเต็มพารามิเตอร์สำหรับโมเดลขนาด 1.6 ล้านล้านพารามิเตอร์บนแพลตฟอร์ม AI ของประเทศ เมื่อเทียบกับการฝึกแบบเริ่มจากศูนย์ (Pre-training) ขั้นตอนการฝึกหลัง (Post-training) ซึ่งรวมถึงการปรับแต่งด้วยการควบคุม (SFT) และการเรียนรู้เชิงเสริมแรง (RL) มุ่งเน้นที่การสอนโมเดลให้ปฏิบัติตามคำสั่งและดำเนินงานเฉพาะผ่านคำสั่งคุณภาพสูงและการปรับให้สอดคล้องกับความชอบของมนุษย์ อย่างไรก็ตาม การฝึกแบบเต็มพารามิเตอร์สำหรับโมเดล MoE ขนาด 1.6 ล้านล้านพารามิเตอร์ยังคงต้องการข้อกำหนดที่เข้มงวดอย่างมากต่อความจุหน่วยความจำ GPU ของฮาร์ดแวร์พื้นฐาน แบนด์วิดธ์การสื่อสารระหว่างหลายการ์ด (เช่น การสื่อสารแบบทุกต่อทุกที่ที่เกิดจาก MoE routing) และความเสถียรของคลัสเตอร์ขนาดใหญ่ ทีมร่วมวิจัยใช้คลัสเตอร์พลังประมวลผล Huawei Ascend 910C ที่มีชิปมากกว่าหนึ่งพันตัว โดยปรับปรุงกลยุทธ์การรับภาระและการกระจายโหลดอย่างมีประสิทธิภาพ เพื่อเอาชนะข้อจำกัดด้านการสื่อสาร ในกระบวนการฝึกกว่า 1,500 ขั้นตอน ระบบไม่เคยหยุดทำงานเลย และประสิทธิภาพการใช้งานพลังประมวลผลของโมเดล (MFU) สูงกว่า 30% ประสิทธิภาพของโอเปอเรเตอร์หลักเพิ่มขึ้น 14% และตัวชี้วัดทั้งหมดอยู่ในมาตรฐานการใช้งานเชิงอุตสาหกรรม การวิเคราะห์จากวงการอุตสาหกรรมชี้ว่า การดำเนินงานที่ประสบความสำเร็จของคลัสเตอร์ Huawei Ascend 910C ในการฝึกโมเดลระดับล้านล้านพารามิเตอร์ยืนยันถึงความเป็นไปได้ทางเทคนิคของชิป AI ของประเทศในการรับภาระงานฝึกเชิงลึกสำหรับโมเดลขนาดใหญ่มาก ก่อนหน้านี้ การพัฒนาโมเดลขนาดใหญ่มักพึ่งพาคลัสเตอร์ GPU ของ NVIDIA เป็นหลัก และพลังประมวลผลของประเทศส่วนใหญ่เคยใช้สำหรับงานการให้บริการ (Inference) หรือการปรับแต่งพารามิเตอร์ขนาดเล็ก การประสบความสำเร็จในการร่วมวิจัยครั้งนี้ถือเป็นจุดเปลี่ยนสำคัญที่แสดงให้เห็นว่าระบบนิเวศพลังประมวลผลของประเทศกำลังเร่งเปลี่ยนผ่านจาก “รองรับเฉพาะการให้บริการ” สู่ “การรองรับการฝึกแบบเต็มพารามิเตอร์สำหรับโมเดลขนาดใหญ่มาก” (ที่มา: MLion)