Aurora Optimizer giảm 25% neuron chết trong Muon, tăng hiệu quả đào tạo lên 100 lần

Theo giám sát của Beating, Tilde Research phát hiện ra rằng bộ tối ưu Muon, được các mô hình hàng đầu như DeepSeek V4, Kimi K2.5 và GLM-5 sử dụng, có một khuyết điểm ẩn: nó khiến hơn một phần tư nơ-ron trong các lớp MLP chết vĩnh viễn trong giai đoạn đầu huấn luyện. Nhóm đã thiết kế bộ tối ưu thay thế Aurora và phát hành mã nguồn mở. Một mô hình 1.1B chỉ cần khoảng 100B token đã đạt được hiệu suất ngang bằng với Qwen3-1.7B được huấn luyện bằng 36T token trên các benchmark hiểu ngôn ngữ như HellaSwag và Winogrande. Vấn đề nằm ở một đặc tính toán học khi Muon xử lý ma trận trọng số MLP. Trong giai đoạn đầu huấn luyện, một số nơ-ron vô tình nhận được tín hiệu gradient yếu. Các bộ tối ưu truyền thống như AdamW sẽ chuẩn hóa từng tham số riêng lẻ, tự động làm phẳng sự khác biệt này; nhưng bước trực giao hóa của Muon sẽ giữ nguyên tín hiệu yếu và truyền chúng đi. Các nơ-ron yếu liên tục nhận cập nhật yếu, ngày càng im lặng, tạo thành vòng lặp “người mạnh càng mạnh”. Đến bước thứ 500 của huấn luyện, đã có hơn một phần tư nơ-ron thực sự chết đi, gây lãng phí dung lượng tham số. Phiên bản cải tiến trước đó là NorMuon đã giảm nhẹ vấn đề bằng cách ép buộc làm phẳng độ lớn cập nhật trên mỗi hàng, nhưng đổi lại làm phá vỡ tính trực giao của ma trận cập nhật (tính trực giao giúp mỗi bước cập nhật đạt hiệu quả tối ưu — là lợi thế cốt lõi của Muon), dẫn đến mất đi độ chính xác tối ưu. Aurora đặt “cập nhật đồng đều” và “tính trực giao” làm ràng buộc kết hợp, sử dụng lặp xen kẽ để đồng thời thỏa mãn cả hai: vừa đảm bảo mỗi nơ-ron đều có cơ hội học công bằng, vừa không hy sinh độ chính xác cập nhật. Aurora chưa tinh chỉnh chỉ tốn thêm 6% chi phí tính toán so với Muon và có thể thay thế trực tiếp. Trong bài kiểm tra tối ưu modded-nanoGPT, Aurora đã thiết lập kỷ lục mới với 3175 bước. Lợi thế của Aurora càng được khuếch đại khi độ rộng MLP tăng lên — hệ số mở rộng càng cao, cải thiện càng rõ rệt. Mã nguồn và mô hình tiền huấn luyện 1.1B đã được phát hành công khai.