Dấu mốc AI Trung Quốc: Mô hình DeepSeek 1,6 nghìn tỷ tham số đã được huấn luyện hoàn toàn trên Ascend 910C trong nước

ME AI tin tức, theo giám sát của Beating, một đội ngũ hợp tác gồm Học viện Thâm Quyến Hà Phù, Đại học Khoa học và Công nghệ Hoa Trung (Thâm Quyến), Viện Nghiên cứu Dữ liệu Lớn Thâm Quyến và các nhóm liên quan của Huawei, đã công bố thành công trong việc thực hiện toàn bộ quá trình hậu huấn luyện (Post-training) cho mô hình lớn 1,6 nghìn tỷ tham số DeepSeek-V4-Pro trên nền tảng AI nội địa. Đây là lần đầu tiên một tổ chức bên thứ ba trên toàn cầu hoàn thành hậu huấn luyện toàn bộ tham số cho mô hình quy mô 1,6 nghìn tỷ tham số trên nền tảng tính toán nội địa. So với tiền huấn luyện (Pre-training) từ đầu, giai đoạn hậu huấn luyện (chủ yếu bao gồm tinh chỉnh có giám sát SFT và học tăng cường RL) tập trung vào việc hướng dẫn mô hình tuân theo lệnh và thực hiện các nhiệm vụ cụ thể thông qua các hướng dẫn chất lượng cao và căn chỉnh sở thích con người. Tuy nhiên, đối với mô hình MoE có 1,6 nghìn tỷ tham số, hậu huấn luyện toàn bộ tham số vẫn đòi hỏi rất khắt khe về dung lượng bộ nhớ GPU của phần cứng cơ sở, băng thông truyền thông giữa nhiều card (như truyền thông toàn bộ-đến-toàn bộ do định tuyến MoE kích hoạt) và độ ổn định của cụm quy mô lớn. Đội ngũ hợp tác đã dựa vào cụm tính toán Huawei Ascend 910C với quy mô hơn một nghìn chip, thông qua tối ưu hóa chiến lược phân phối tải và cân bằng tải, đã thành công vượt qua các điểm nghẽn truyền thông. Trong suốt hơn 1.500 bước huấn luyện, hệ thống không xảy ra bất kỳ sự gián đoạn nào, hiệu suất sử dụng tính toán mô hình (MFU) vượt quá 30%, hiệu quả của các toán tử then chốt được cải thiện 14%, tất cả các chỉ số đều đạt tiêu chuẩn vận hành công nghiệp. Các chuyên gia trong ngành nhận định rằng việc Huawei Ascend 910C thành công trong việc chạy mô hình quy mô nghìn tỷ tham số xác nhận tính khả thi kỹ thuật của chip AI nội địa trong việc thực hiện các nhiệm vụ huấn luyện sâu cho mô hình quy mô cực lớn. Trước đây, việc huấn luyện tiền cơ bản cho các mô hình lớn chủ yếu phụ thuộc vào cụm GPU NVIDIA, trong khi tính toán nội địa chủ yếu chỉ đảm nhận các nhiệm vụ suy luận (Inference) hoặc tinh chỉnh với tham số nhỏ. Thành công của cuộc hợp tác này đánh dấu sự chuyển đổi nhanh chóng của hệ sinh thái tính toán nội địa từ “chỉ hỗ trợ suy luận” sang “đảm nhận huấn luyện toàn bộ tham số cho mô hình quy mô cực lớn”. (Nguồn: MLion)