Huawei та USTC спільно переривають монополію NVIDIA, швидкість обчислень моделі Ascend A3 збільшується на 58%

ME AI повідомлення: згідно з моніторингом Beating, у процесі розвитку масштабних архітектур MoE використання китайських чіпів Ascend для навчання великих моделей стає ключовим напрямком для створення автономної та контролюваної AI-обчислювальної потужності. Однак більшість сучасних фреймворків великих моделей розроблені на основі екосистеми NVIDIA CUDA, і при прямому перенесенні на платформу Ascend виникають такі виклики, як нерівномірне планування черг апаратного забезпечення та низька використовуваність обчислювальних ресурсів. Університет науки і технологій Китаю, Huawei та Пекінський університет спільно розробили компіляторний фреймворк планування HyperParallel-MoE, який здійснює тайлове (tile-level) керування унікальними апаратними чергами Ascend A3, щоб подолати енергоефективні обмеження при паралельному плануванні гетерогенних обчислювальних ресурсів. Ascend A3 має два типи ядер: AIC відповідає за матричне множення, а AIV — за векторні обчислення та комунікацію. Однак у традиційній послідовній схемі планування операцій ці два типи ядер працюють по черзі, постійно залишаючись не завантаженими. Результати тестування показують, що при запуску великої моделі DeepSeek розміром 671B на кластері з 256 вузлів використання AIC становить лише 67%, а 39% затримок у маршрутизації експертів виявляються на критичному обчислювальному шляху. Основні зміни в HyperParallel-MoE — три. По-перше, розроблено односторонній оператор запису, керований AIV, який запускає обчислення негайно після отримання тайла, не чекаючи завершення пакету. По-друге, введено генерацію завдань з урахуванням залежностей, що дозволяє уніфікувати абстракцію комунікаційних та обчислювальних операцій. По-третє, статичний планувальник попередньо генерує послідовність завдань, щоб одночасно керувати обох типами ядер всередині одного ядра (kernel), а також використовувати швидкий кеш L2 для спільного доступу до проміжних результатів, зменшуючи затримки при запису та читанні з повільної пам’яті HBM. Тестування показало, що при балансованому маршрутизації на 64 вузлах затримка модуля ядер, відповідальних за обчислення експертів (MoE-FFN), скоротилася приблизно на 36%, що відповідає максимальному підвищенню швидкості обробки даних на 58% (тобто прискорення з 1,49 до 1,58 разу). У повному енд-ту-енд виконанні швидкість однокрокового навчання також зросла на 8–9%. Це свідчить про те, що реальна енергоефективність Ascend залежить не лише від апаратних характеристик, а й від того, наскільки ефективно компілятор і середовище виконання здатні планувати роботу ядер AIC/AIV. (Джерело: BlockBeats)