ファーウェイと中国科学技術大学が協力し、NVIDIAの独占を打破。Ascend A3モデルの計算速度が58%向上

ME AI ニュース：動察Beatingの監視によると、大規模MoEアーキテクチャの進化において、中国製Ascendチップを用いた大規模モデルのトレーニングは、自律制御可能なAI計算能力の構築における重要な方向性となっている。しかし、主流の大規模モデルフレームワークはほぼすべてNVIDIA CUDAエコシステムに基づいて開発されており、Ascendプラットフォームへの直接移植では、ハードウェアキューのスケジューリング不均等や計算資源の利用率低下などの課題に直面しやすい。中国科学技術大学、華為、北京大学などが共同で開発したコンパイラスケジューリングフレームワーク「HyperParallel-MoE」は、Ascend A3の独自のハードウェアキューをタイルレベルで制御することを目的としており、異種計算資源の並列スケジューリングにおける効率のボトルネックを突破することを目指している。Ascend A3はAICとAIVの2種類のコアを備えており、AICは行列乗算を担当し、AIVはベクトル計算と通信を担当する。しかし、従来のオペレータ逐次スケジューリングでは、両方のコアは交互に動作し、一方が動作している間にもう一方は常に闲置状態となる。実測データによると、256ノードクラスタで671B規模のDeepSeekスタイルの大規模モデルを実行した場合、AICの利用率はわずか67％であり、39％のエキスパートルーティング通信遅延が重要な計算パス上に存在していた。HyperParallel-MoEの主な改良点は3つある。第一に、AIV駆動の片方向書き込みプリミティブを設計し、データタイルが到着次第計算を開始し、バッチ全体が揃うのを待たない。第二に、依存関係認識型タスク生成を導入し、通信と計算オペレータを統一的に抽象化する。第三に、静的スケジューラが事前にタスク列を生成し、単一カーネル内で両方のコアを並列に駆動し、高速L2キャッシュを用いて中間結果を共有することで、HBMのような低速メモリへの書き戻しと読み込み遅延を削減する。テスト結果によると、64ノードバランスルーティング下でエキスパート計算を担当するモジュール（MoE-FFN）の遅延は約36％短縮され、データ処理速度は最大58％向上（1.49倍から1.58倍）した。全体のエンドツーエンド実行では、1ステップのトレーニング速度も8％～9％向上した。これは、Ascendの実際の効率がハードウェア仕様だけでなく、コンパイラとランタイムがAIC/AIVコアを効率的にスケジューリングできるかどうかに大きく依存していることを示している。（出典：BlockBeats）