Theo giám sát của Beating, Tilde Research phát hiện ra rằng bộ tối ưu Muon, được các mô hình hàng đầu như DeepSeek V4, Kimi K2.5 và GLM-5 sử dụng, có một khuyết điểm ẩn: nó khiến hơn một phần tư nơ-ron trong các lớp MLP chết vĩnh viễn trong giai đoạn đầu huấn luyện. Nhóm đã thiết kế bộ tối ưu thay thế Aurora và phát hành mã nguồn mở. Một mô hình 1.1B chỉ cần khoảng 100B token đã đạt được hiệu suất ngang bằng với Qwen3-1.7B được huấn luyện bằng 36T token trên các benchmark hiểu ngôn ngữ như HellaSwag và Winogrande. Vấn đề nằm ở một đặc tính toán học khi Muon xử lý ma trận trọng số MLP. Trong giai đoạn đầu huấn luyện, một số nơ-ron vô tình nhận được tín hiệu gradient yếu. Các bộ tối ưu truyền thống như AdamW sẽ chuẩn hóa từng tham số riêng lẻ, tự động làm phẳng sự khác biệt này; nhưng bước trực giao hóa của Muon sẽ giữ nguyên tín hiệu yếu và truyền chúng đi. Các nơ-ron yếu liên tục nhận cập nhật yếu, ngày càng im lặng, tạo thành vòng lặp “người mạnh càng mạnh”. Đến bước thứ 500 của huấn luyện, đã có hơn một phần tư nơ-ron thực sự chết đi, gây lãng phí dung lượng tham số. Phiên bản cải tiến trước đó là NorMuon đã giảm nhẹ vấn đề bằng cách ép buộc làm phẳng độ lớn cập nhật trên mỗi hàng, nhưng đổi lại làm phá vỡ tính trực giao của ma trận cập nhật (tính trực giao giúp mỗi bước cập nhật đạt hiệu quả tối ưu — là lợi thế cốt lõi của Muon), dẫn đến mất đi độ chính xác tối ưu. Aurora đặt “cập nhật đồng đều” và “tính trực giao” làm ràng buộc kết hợp, sử dụng lặp xen kẽ để đồng thời thỏa mãn cả hai: vừa đảm bảo mỗi nơ-ron đều có cơ hội học công bằng, vừa không hy sinh độ chính xác cập nhật. Aurora chưa tinh chỉnh chỉ tốn thêm 6% chi phí tính toán so với Muon và có thể thay thế trực tiếp. Trong bài kiểm tra tối ưu modded-nanoGPT, Aurora đã thiết lập kỷ lục mới với 3175 bước. Lợi thế của Aurora càng được khuếch đại khi độ rộng MLP tăng lên — hệ số mở rộng càng cao, cải thiện càng rõ rệt. Mã nguồn và mô hình tiền huấn luyện 1.1B đã được phát hành công khai.
Aurora Optimizer giảm 25% neuron chết trong Muon, tăng hiệu quả đào tạo lên 100 lần
MarsBitChia sẻ






Aurora, một trình tối ưu hóa mới từ Tilde Research, giảm 25% số neuron chết trong Muon, một công cụ được sử dụng bởi các mô hình hàng đầu như DeepSeek V4 và Kimi K2.5. Trình tối ưu hóa nguồn mở Aurora cải thiện hiệu quả huấn luyện lên 100 lần. Một mô hình 1,1 tỷ tham số được huấn luyện trên 100 tỷ token với Aurora đạt hiệu suất tương đương Qwen3-1.7B được huấn luyện trên 36T token. Tin tức trên chuỗi này đánh dấu một bước tiến lớn trong tối ưu hóa mô hình. Aurora cân bằng tính đồng đều và trực giao của các cập nhật, chỉ thêm 6% chi phí phụ. Nó đã thiết lập tiêu chuẩn mới trong tối ưu hóa modded-nanoGPT và là một trong những câu chuyện altcoin nổi bật nhất năm 2025.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.