華為與中國科技大學合作打破 NVIDIA 壟斷,昇騰 A3 模型運算速度提升 58%

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
華為與中國科技大學開發了 HyperParallel-MoE 框架,以提升 Ascend A3 芯片在大型模型訓練中的性能。該設計通過在 tile 層級管理硬體佇列來改善排程,使 AIC 和 AIV 核心能夠並行運行。在 64 節點叢集上的測試顯示,專家計算速度提升了 58%,端到端訓練速度提高了 8-9%。此舉可能改變 AI 芯片市場的支撐與阻力位,為國內科技採用提供更佳的風險報酬比。
ME AI 消息,據 動察 Beating 監測,在大規模 MoE 架構演進中,利用國產昇騰 (Ascend) 芯片訓練大模型已成為構建自主可控 AI 算力的關鍵方向。然而,主流大模型框架多基於英偉達 CUDA 生態開發,直接移植至昇騰平台時易面臨硬體隊列調度不均、算力利用率低等挑戰。中科大、華為與北大等聯合推出編譯調度框架 HyperParallel-MoE,針對昇騰 A3 獨特的硬體隊列進行瓦片級 (tile-level) 調控,旨在突破異構算力在並行調度上的能效瓶頸。昇騰 A3 擁有兩類核心,AIC 負責矩陣乘法,AIV 則處理向量計算與通信。但在傳統的算子串行調度下,兩類核心只能交替工作、輪流閒置。實測數據顯示,在 256 節點叢集跑 671B 的 DeepSeek 風格大模型時,AIC 利用率僅為 67%,且 39% 的專家路由通信延遲暴露在關鍵計算路徑上。HyperParallel-MoE 核心改動有三項。第一,設計 AIV 驅動的單邊寫原語,使數據瓦片到達即觸發計算,無需等待整批到齊。第二,引入依賴感知瓦片任務生成,將通信與計算算子統一抽象。第三,以靜態調度器預生成任務序列,在單個 kernel 內驅動兩類核心並行,並利用高速 L2 緩存共享中間結果,減少回寫與讀取 HBM 慢速內存的延遲。測試顯示,在 64 節點平衡路由下,負責專家計算的核心模塊(MoE-FFN)延遲縮短約 36%,相當於數據處理速度最高提升了 58%(即提速 1.49 至 1.58 倍)。在整機端到端運行中,單步訓練速度也同步提升了 8% 至 9%。這說明,昇騰的實際能效不只取決於硬體規格,更在編譯器與運行時能否把 AIC/AIV 核心高效調度起來。(來源:BlockBeats)
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露