Aurora Optimizer ลดนิวรอนที่ไม่ใช้งานลง 25% ใน Muon และเพิ่มประสิทธิภาพการฝึกอบรมถึง 100 เท่า

icon MarsBit
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
Aurora ผู้ปรับปรุงประสิทธิภาพใหม่จาก Tilde Research ลดนิวรอนที่ไม่ใช้งานลง 25% ใน Muon เครื่องมือที่ใช้โดยโมเดลชั้นนำเช่น DeepSeek V4 และ Kimi K2.5 ตัวปรับปรุง Aurora แบบโอเพ่นซอร์สช่วยเพิ่มประสิทธิภาพการฝึกอบรมขึ้น 100 เท่า โมเดลขนาด 1.1 พันล้านพารามิเตอร์ที่ฝึกบนข้อมูล 100 พันล้านโทเค็นด้วย Aurora มีประสิทธิภาพเทียบเท่ากับ Qwen3-1.7B ที่ฝึกบนข้อมูล 36 ล้านล้านโทเค็น ข่าวบนโซ่ฉบับนี้ถือเป็นก้าวสำคัญในการปรับปรุงประสิทธิภาพโมเดล Aurora สมดุลระหว่างความสม่ำเสมอและการตั้งฉากของการอัปเดต โดยเพิ่มภาระงานเพียง 6% เจ้าตัวได้ตั้งมาตรฐานใหม่ในการปรับปรุง modded-nanoGPT และเป็นหนึ่งในข่าว altcoin สำคัญที่สุดของปี 2025

ตามการตรวจสอบของ Beating ที่ดำเนินการโดย Tilde Research พบว่าตัวปรับแต่ง Muon ซึ่งถูกใช้โดยโมเดลชั้นนำเช่น DeepSeek V4, Kimi K2.5 และ GLM-5 มีข้อบกพร่องซ่อนเร้น: มันทำให้เซลล์ประสาทมากกว่าหนึ่งในสี่ของชั้น MLP เสียหายถาวรในช่วงต้นของการฝึกอบรม ทีมงานจึงออกแบบตัวปรับแต่งทางเลือกชื่อ Aurora และเปิดรหัสแหล่งที่มา โมเดลขนาด 1.1B ที่ใช้ข้อมูลเพียงประมาณ 100B token สามารถทำคะแนนเทียบเท่ากับ Qwen3-1.7B ที่ฝึกด้วยข้อมูล 36T token บนมาตรฐานการเข้าใจภาษาอย่าง HellaSwag และ Winogrande ปัญหานี้เกิดจากคุณสมบัติทางคณิตศาสตร์อย่างหนึ่งของ Muon เมื่อจัดการกับเมทริกซ์น้ำหนักของ MLP ในช่วงเริ่มต้นของการฝึกอบรม เซลล์ประสาทบางตัวได้รับสัญญาณเกรเดียนต์ที่อ่อนแอโดยบังเอิญ ตัวปรับแต่งแบบดั้งเดิมเช่น AdamW จะทำการปรับมาตรฐานแบบพารามิเตอร์ต่อพารามิเตอร์ จึงช่วยลดความแตกต่างนี้โดยธรรมชาติ แต่ขั้นตอนการออร์โธโกนอลของ Muon จะส่งผ่านสัญญาณอ่อนเหล่านี้ไปอย่างไม่เปลี่ยนแปลง เซลล์ประสาทที่อ่อนแอจึงได้รับการอัปเดตที่อ่อนแออย่างต่อเนื่อง ทำให้ยิ่งเงียบมากขึ้น และเกิดวัฏจักรตายแบบ “ผู้แข็งแรงยิ่งแข็งแรง” เมื่อถึงขั้นตอนที่ 500 ของกระบวนการฝึกอบรม เซลล์ประสาทมากกว่าหนึ่งในสี่ได้เสียหายอย่างมีนัยสำคัญ ส่งผลให้ความสามารถของพารามิเตอร์ถูกใช้ไปโดยเปล่าประโยชน์ ก่อนหน้านี้ รุ่นปรับปรุง NorMuon ได้บรรเทาปัญหานี้โดยบังคับให้ขนาดของการอัปเดตแต่ละแถวเท่ากัน แต่代价คือการทำลายความออร์โธโกนอลของเมทริกซ์การอัปเดต (ความออร์โธโกนอลช่วยให้การอัปเดตแต่ละขั้นตอนมีประสิทธิภาพสูงสุด ซึ่งเป็นข้อได้เปรียบหลักของ Muon) ส่งผลให้ความแม่นยำในการปรับแต่งลดลง Aurora กำหนด “การอัปเดตที่สม่ำเสมอ” และ “ความออร์โธโกนอล” เป็นข้อจำกัดร่วมกัน และใช้วิธีการวนซ้ำสลับเพื่อตอบสนองทั้งสองเงื่อนไขพร้อมกัน: ทั้งให้เซลล์ประสาททุกตัวมีโอกาสเรียนรู้อย่างเป็นธรรม และไม่เสียความแม่นยำของการอัปเดต Aurora ที่ยังไม่ได้ปรับพารามิเตอร์ มีค่าใช้จ่ายในการคำนวณเพียงมากกว่า Muon อยู่ 6% เท่านั้น และสามารถแทนที่ได้ทันที ในคะแนนการปรับแต่ง modded-nanoGPT Aurora ทำลายสถิติเดิมด้วยเวลาเพียง 3175 ขั้นตอน ข้อได้เปรียบของ Aurora จะยิ่งเพิ่มขึ้นเมื่อความกว้างของ MLP เพิ่มขึ้น โดยยิ่งมีสัดส่วนการขยายตัวสูงเท่าใด การปรับปรุงก็จะยิ่งชัดเจนขึ้นเท่านั้น รหัสและโมเดลพรีเทรนด์ขนาด 1.1B ได้รับการเปิดเผยแหล่งที่มาแล้ว

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา