Aurora Optimizer ลดนิวรอนที่ไม่ใช้งานลง 25% ใน Muon และเพิ่มประสิทธิภาพการฝึกอบรมถึง 100 เท่า

ตามการตรวจสอบของ Beating ที่ดำเนินการโดย Tilde Research พบว่าตัวปรับแต่ง Muon ซึ่งถูกใช้โดยโมเดลชั้นนำเช่น DeepSeek V4, Kimi K2.5 และ GLM-5 มีข้อบกพร่องซ่อนเร้น: มันทำให้เซลล์ประสาทมากกว่าหนึ่งในสี่ของชั้น MLP เสียหายถาวรในช่วงต้นของการฝึกอบรม ทีมงานจึงออกแบบตัวปรับแต่งทางเลือกชื่อ Aurora และเปิดรหัสแหล่งที่มา โมเดลขนาด 1.1B ที่ใช้ข้อมูลเพียงประมาณ 100B token สามารถทำคะแนนเทียบเท่ากับ Qwen3-1.7B ที่ฝึกด้วยข้อมูล 36T token บนมาตรฐานการเข้าใจภาษาอย่าง HellaSwag และ Winogrande ปัญหานี้เกิดจากคุณสมบัติทางคณิตศาสตร์อย่างหนึ่งของ Muon เมื่อจัดการกับเมทริกซ์น้ำหนักของ MLP ในช่วงเริ่มต้นของการฝึกอบรม เซลล์ประสาทบางตัวได้รับสัญญาณเกรเดียนต์ที่อ่อนแอโดยบังเอิญ ตัวปรับแต่งแบบดั้งเดิมเช่น AdamW จะทำการปรับมาตรฐานแบบพารามิเตอร์ต่อพารามิเตอร์ จึงช่วยลดความแตกต่างนี้โดยธรรมชาติ แต่ขั้นตอนการออร์โธโกนอลของ Muon จะส่งผ่านสัญญาณอ่อนเหล่านี้ไปอย่างไม่เปลี่ยนแปลง เซลล์ประสาทที่อ่อนแอจึงได้รับการอัปเดตที่อ่อนแออย่างต่อเนื่อง ทำให้ยิ่งเงียบมากขึ้น และเกิดวัฏจักรตายแบบ “ผู้แข็งแรงยิ่งแข็งแรง” เมื่อถึงขั้นตอนที่ 500 ของกระบวนการฝึกอบรม เซลล์ประสาทมากกว่าหนึ่งในสี่ได้เสียหายอย่างมีนัยสำคัญ ส่งผลให้ความสามารถของพารามิเตอร์ถูกใช้ไปโดยเปล่าประโยชน์ ก่อนหน้านี้ รุ่นปรับปรุง NorMuon ได้บรรเทาปัญหานี้โดยบังคับให้ขนาดของการอัปเดตแต่ละแถวเท่ากัน แต่代价คือการทำลายความออร์โธโกนอลของเมทริกซ์การอัปเดต (ความออร์โธโกนอลช่วยให้การอัปเดตแต่ละขั้นตอนมีประสิทธิภาพสูงสุด ซึ่งเป็นข้อได้เปรียบหลักของ Muon) ส่งผลให้ความแม่นยำในการปรับแต่งลดลง Aurora กำหนด “การอัปเดตที่สม่ำเสมอ” และ “ความออร์โธโกนอล” เป็นข้อจำกัดร่วมกัน และใช้วิธีการวนซ้ำสลับเพื่อตอบสนองทั้งสองเงื่อนไขพร้อมกัน: ทั้งให้เซลล์ประสาททุกตัวมีโอกาสเรียนรู้อย่างเป็นธรรม และไม่เสียความแม่นยำของการอัปเดต Aurora ที่ยังไม่ได้ปรับพารามิเตอร์ มีค่าใช้จ่ายในการคำนวณเพียงมากกว่า Muon อยู่ 6% เท่านั้น และสามารถแทนที่ได้ทันที ในคะแนนการปรับแต่ง modded-nanoGPT Aurora ทำลายสถิติเดิมด้วยเวลาเพียง 3175 ขั้นตอน ข้อได้เปรียบของ Aurora จะยิ่งเพิ่มขึ้นเมื่อความกว้างของ MLP เพิ่มขึ้น โดยยิ่งมีสัดส่วนการขยายตัวสูงเท่าใด การปรับปรุงก็จะยิ่งชัดเจนขึ้นเท่านั้น รหัสและโมเดลพรีเทรนด์ขนาด 1.1B ได้รับการเปิดเผยแหล่งที่มาแล้ว