ファーウェイと中国科学技術大学が協力し、NVIDIAの独占を打破。Ascend A3モデルの計算速度が58%向上

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
華為と中国科学技術大学は、Ascend A3チップの大規模モデル学習におけるパフォーマンスを向上させるために、HyperParallel-MoEフレームワークを開発しました。この設計は、タイルレベルでハードウェアキューを管理することでスケジューリングを改善し、AICコアとAIVコアを並列に実行可能にします。64ノードクラスタでのテストでは、エキスパート計算で58%の速度向上、エンドツーエンド学習速度で8~9%の向上が確認されました。この取り組みは、AIチップ市場のサポートレベルとレジスタンスレベルに影響を与える可能性があり、国内テクノロジー採用におけるリスク対リワード比を改善します。
ME AI ニュース:動察Beatingの監視によると、大規模MoEアーキテクチャの進化において、中国製Ascendチップを用いた大規模モデルのトレーニングは、自律制御可能なAI計算能力の構築における重要な方向性となっている。しかし、主流の大規模モデルフレームワークはほぼすべてNVIDIA CUDAエコシステムに基づいて開発されており、Ascendプラットフォームへの直接移植では、ハードウェアキューのスケジューリング不均等や計算資源の利用率低下などの課題に直面しやすい。中国科学技術大学、華為、北京大学などが共同で開発したコンパイラスケジューリングフレームワーク「HyperParallel-MoE」は、Ascend A3の独自のハードウェアキューをタイルレベルで制御することを目的としており、異種計算資源の並列スケジューリングにおける効率のボトルネックを突破することを目指している。Ascend A3はAICとAIVの2種類のコアを備えており、AICは行列乗算を担当し、AIVはベクトル計算と通信を担当する。しかし、従来のオペレータ逐次スケジューリングでは、両方のコアは交互に動作し、一方が動作している間にもう一方は常に闲置状態となる。実測データによると、256ノードクラスタで671B規模のDeepSeekスタイルの大規模モデルを実行した場合、AICの利用率はわずか67%であり、39%のエキスパートルーティング通信遅延が重要な計算パス上に存在していた。HyperParallel-MoEの主な改良点は3つある。第一に、AIV駆動の片方向書き込みプリミティブを設計し、データタイルが到着次第計算を開始し、バッチ全体が揃うのを待たない。第二に、依存関係認識型タスク生成を導入し、通信と計算オペレータを統一的に抽象化する。第三に、静的スケジューラが事前にタスク列を生成し、単一カーネル内で両方のコアを並列に駆動し、高速L2キャッシュを用いて中間結果を共有することで、HBMのような低速メモリへの書き戻しと読み込み遅延を削減する。テスト結果によると、64ノードバランスルーティング下でエキスパート計算を担当するモジュール(MoE-FFN)の遅延は約36%短縮され、データ処理速度は最大58%向上(1.49倍から1.58倍)した。全体のエンドツーエンド実行では、1ステップのトレーニング速度も8%~9%向上した。これは、Ascendの実際の効率がハードウェア仕様だけでなく、コンパイラとランタイムがAIC/AIVコアを効率的にスケジューリングできるかどうかに大きく依存していることを示している。(出典:BlockBeats)
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。