Huawei và USTC hợp tác phá vỡ độc quyền của NVIDIA, tốc độ tính toán mô hình Ascend A3 tăng 58%

ME AI tin tức, theo giám sát của Dongcha Beating, trong quá trình phát triển quy mô lớn của kiến trúc MoE, việc huấn luyện mô hình lớn bằng chip Ascend trong nước đã trở thành hướng đi then chốt để xây dựng năng lực AI tự chủ và kiểm soát được. Tuy nhiên, các khung mô hình lớn phổ biến chủ yếu được phát triển dựa trên hệ sinh thái CUDA của NVIDIA, nên khi di chuyển trực tiếp sang nền tảng Ascend thường gặp các thách thức như phân bổ hàng đợi phần cứng không đều và hiệu suất sử dụng tính toán thấp. Đại học Khoa học và Công nghệ Trung Quốc, Huawei và Đại học Bắc Kinh đã cùng nhau ra mắt khung biên dịch và lập lịch HyperParallel-MoE, thực hiện điều khiển ở cấp độ tile (tile-level) dành riêng cho hàng đợi phần cứng độc đáo của Ascend A3, nhằm phá vỡ giới hạn hiệu suất về mặt lập lịch song song của năng lực tính toán dị cấu. Ascend A3 sở hữu hai loại lõi chính: AIC chịu trách nhiệm phép nhân ma trận, trong khi AIV xử lý tính toán vector và truyền thông. Tuy nhiên, dưới lịch trình tác vụ tuần tự truyền thống, hai loại lõi này chỉ có thể hoạt động luân phiên và luân phiên nghỉ ngơi. Dữ liệu thực nghiệm cho thấy, khi chạy mô hình lớn phong cách DeepSeek 671B trên cụm 256 nút, hiệu suất sử dụng của AIC chỉ đạt 67%, và 39% độ trễ truyền thông định tuyến chuyên gia xuất hiện trên đường tính toán then chốt. Ba cải tiến cốt lõi của HyperParallel-MoE bao gồm: Thứ nhất, thiết kế nguyên tử ghi một chiều do AIV điều khiển, cho phép kích hoạt tính toán ngay khi tile dữ liệu đến, không cần chờ đợi toàn bộ lô hoàn tất. Thứ hai, giới thiệu việc tạo tác vụ tile nhận biết phụ thuộc, đồng nhất trừu tượng hóa các tác vụ truyền thông và tính toán. Thứ ba, sử dụng bộ lập lịch tĩnh để tạo trước chuỗi tác vụ, điều khiển song song hai loại lõi trong một kernel duy nhất, đồng thời tận dụng bộ nhớ đệm L2 tốc độ cao để chia sẻ kết quả trung gian, giảm độ trễ khi ghi lại và đọc dữ liệu từ bộ nhớ HBM chậm. Kết quả kiểm tra cho thấy, trong điều kiện định tuyến cân bằng 64 nút, độ trễ của module lõi tính toán chuyên gia (MoE-FFN) giảm khoảng 36%, tương đương tốc độ xử lý dữ liệu tăng tối đa 58% (tức là tăng từ 1,49 đến 1,58 lần). Trong quá trình chạy end-to-end toàn bộ hệ thống, tốc độ huấn luyện từng bước cũng đồng thời tăng 8% đến 9%. Điều này cho thấy hiệu suất thực tế của Ascend không chỉ phụ thuộc vào thông số phần cứng, mà còn nằm ở khả năng của trình biên dịch và runtime trong việc lập lịch hiệu quả các lõi AIC/AIV. (Nguồn: BlockBeats)