Một trong những báo cáo đào tạo LLM tiên tiến chi tiết nhất trong nhiều năm. Microsoft vừa công bố phân tích kỹ thuật sâu về MAI-Thinking-1, mô hình tập trung vào khả năng suy luận của họ: • 35B tham số hoạt động / 1T tổng tham số MoE • Cửa sổ ngữ cảnh 256k (~600 trang tài liệu) • Được đào tạo trên cụm 8.000 GPU GB200 Phần thú vị: trọng tâm không nằm ở kiến trúc mới lạ mà ở chất lượng dữ liệu + công thức đào tạo. Đó chính là nơi lợi thế của các mô hình tiên tiến có thể đang dịch chuyển. Mô hình này không được mở nguồn, nhưng Microsoft dự định cung cấp khả năng tinh chỉnh thông qua API. Nếu các phòng thí nghiệm công nghệ lớn khác bắt đầu chia sẻ mức độ chi tiết tương tự, các nhà nghiên cứu và nhà phát triển sẽ có cái nhìn rõ ràng hơn về những yếu tố thực sự quan trọng. Bạn nghĩ lợi ích lớn tiếp theo sẽ đến từ kiến trúc tốt hơn—hay dữ liệu và quy trình đào tạo tốt hơn?

Chia sẻ






Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.