Huawei và USTC hợp tác phá vỡ độc quyền của NVIDIA, tốc độ tính toán mô hình Ascend A3 tăng 58%
KuCoinFlash
Chia sẻ
Tóm tắt
Huawei và USTC đã phát triển khung HyperParallel-MoE để tăng hiệu suất của chip Ascend A3 trong đào tạo mô hình lớn. Thiết kế này cải thiện lịch trình bằng cách quản lý hàng đợi phần cứng ở cấp độ tile, cho phép các lõi AIC và AIV chạy song song. Các bài kiểm tra trên cụm 64 nút mạng cho thấy tốc độ tính toán chuyên gia tăng 58% và tốc độ đào tạo end-to-end tăng 8-9%. Động thái này có thể làm thay đổi các mức hỗ trợ và kháng cự trên thị trường chip AI, mang lại tỷ lệ rủi ro-lợi nhuận tốt hơn cho việc áp dụng công nghệ trong nước.
ME AI tin tức, theo giám sát của Dongcha Beating, trong quá trình phát triển quy mô lớn của kiến trúc MoE, việc huấn luyện mô hình lớn bằng chip Ascend trong nước đã trở thành hướng đi then chốt để xây dựng năng lực AI tự chủ và kiểm soát được. Tuy nhiên, các khung mô hình lớn phổ biến chủ yếu được phát triển dựa trên hệ sinh thái CUDA của NVIDIA, nên khi di chuyển trực tiếp sang nền tảng Ascend thường gặp các thách thức như phân bổ hàng đợi phần cứng không đều và hiệu suất sử dụng tính toán thấp. Đại học Khoa học và Công nghệ Trung Quốc, Huawei và Đại học Bắc Kinh đã cùng nhau ra mắt khung biên dịch và lập lịch HyperParallel-MoE, thực hiện điều khiển ở cấp độ tile (tile-level) dành riêng cho hàng đợi phần cứng độc đáo của Ascend A3, nhằm phá vỡ giới hạn hiệu suất về mặt lập lịch song song của năng lực tính toán dị cấu. Ascend A3 sở hữu hai loại lõi chính: AIC chịu trách nhiệm phép nhân ma trận, trong khi AIV xử lý tính toán vector và truyền thông. Tuy nhiên, dưới lịch trình tác vụ tuần tự truyền thống, hai loại lõi này chỉ có thể hoạt động luân phiên và luân phiên nghỉ ngơi. Dữ liệu thực nghiệm cho thấy, khi chạy mô hình lớn phong cách DeepSeek 671B trên cụm 256 nút, hiệu suất sử dụng của AIC chỉ đạt 67%, và 39% độ trễ truyền thông định tuyến chuyên gia xuất hiện trên đường tính toán then chốt. Ba cải tiến cốt lõi của HyperParallel-MoE bao gồm: Thứ nhất, thiết kế nguyên tử ghi một chiều do AIV điều khiển, cho phép kích hoạt tính toán ngay khi tile dữ liệu đến, không cần chờ đợi toàn bộ lô hoàn tất. Thứ hai, giới thiệu việc tạo tác vụ tile nhận biết phụ thuộc, đồng nhất trừu tượng hóa các tác vụ truyền thông và tính toán. Thứ ba, sử dụng bộ lập lịch tĩnh để tạo trước chuỗi tác vụ, điều khiển song song hai loại lõi trong một kernel duy nhất, đồng thời tận dụng bộ nhớ đệm L2 tốc độ cao để chia sẻ kết quả trung gian, giảm độ trễ khi ghi lại và đọc dữ liệu từ bộ nhớ HBM chậm. Kết quả kiểm tra cho thấy, trong điều kiện định tuyến cân bằng 64 nút, độ trễ của module lõi tính toán chuyên gia (MoE-FFN) giảm khoảng 36%, tương đương tốc độ xử lý dữ liệu tăng tối đa 58% (tức là tăng từ 1,49 đến 1,58 lần). Trong quá trình chạy end-to-end toàn bộ hệ thống, tốc độ huấn luyện từng bước cũng đồng thời tăng 8% đến 9%. Điều này cho thấy hiệu suất thực tế của Ascend không chỉ phụ thuộc vào thông số phần cứng, mà còn nằm ở khả năng của trình biên dịch và runtime trong việc lập lịch hiệu quả các lõi AIC/AIV. (Nguồn: BlockBeats)
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.