華為與中國科技大學合作打破 NVIDIA 壟斷，昇騰 A3 模型運算速度提升 58%

ME AI 消息，據動察 Beating 監測，在大規模 MoE 架構演進中，利用國產昇騰 (Ascend) 芯片訓練大模型已成為構建自主可控 AI 算力的關鍵方向。然而，主流大模型框架多基於英偉達 CUDA 生態開發，直接移植至昇騰平台時易面臨硬體隊列調度不均、算力利用率低等挑戰。中科大、華為與北大等聯合推出編譯調度框架 HyperParallel-MoE，針對昇騰 A3 獨特的硬體隊列進行瓦片級 (tile-level) 調控，旨在突破異構算力在並行調度上的能效瓶頸。昇騰 A3 擁有兩類核心，AIC 負責矩陣乘法，AIV 則處理向量計算與通信。但在傳統的算子串行調度下，兩類核心只能交替工作、輪流閒置。實測數據顯示，在 256 節點叢集跑 671B 的 DeepSeek 風格大模型時，AIC 利用率僅為 67%，且 39% 的專家路由通信延遲暴露在關鍵計算路徑上。HyperParallel-MoE 核心改動有三項。第一，設計 AIV 驅動的單邊寫原語，使數據瓦片到達即觸發計算，無需等待整批到齊。第二，引入依賴感知瓦片任務生成，將通信與計算算子統一抽象。第三，以靜態調度器預生成任務序列，在單個 kernel 內驅動兩類核心並行，並利用高速 L2 緩存共享中間結果，減少回寫與讀取 HBM 慢速內存的延遲。測試顯示，在 64 節點平衡路由下，負責專家計算的核心模塊（MoE-FFN）延遲縮短約 36%，相當於數據處理速度最高提升了 58%（即提速 1.49 至 1.58 倍）。在整機端到端運行中，單步訓練速度也同步提升了 8% 至 9%。這說明，昇騰的實際能效不只取決於硬體規格，更在編譯器與運行時能否把 AIC/AIV 核心高效調度起來。（來源：BlockBeats）