Huawei та USTC спільно переривають монополію NVIDIA, швидкість обчислень моделі Ascend A3 збільшується на 58%
KuCoinFlash
Поділитися
Короткий зміст
Huawei та USTC розробили фреймворк HyperParallel-MoE для підвищення продуктивності чіпа Ascend A3 у навчанні великих моделей. Дизайн покращує планування шляхом керування апаратними чергами на рівні тайлу, що дозволяє AIC та AIV ядрам працювати паралельно. Тести на кластері з 64 нод показали зростання швидкості обчислення експертів на 58% та підвищення швидкості навчання на 8–9%. Цей крок може змінити рівні підтримки та опору на ринку AI-чіпів, пропонуючи краще співвідношення ризику до винагороди для внутрішнього технологічного впровадження.
ME AI повідомлення: згідно з моніторингом Beating, у процесі розвитку масштабних архітектур MoE використання китайських чіпів Ascend для навчання великих моделей стає ключовим напрямком для створення автономної та контролюваної AI-обчислювальної потужності. Однак більшість сучасних фреймворків великих моделей розроблені на основі екосистеми NVIDIA CUDA, і при прямому перенесенні на платформу Ascend виникають такі виклики, як нерівномірне планування черг апаратного забезпечення та низька використовуваність обчислювальних ресурсів. Університет науки і технологій Китаю, Huawei та Пекінський університет спільно розробили компіляторний фреймворк планування HyperParallel-MoE, який здійснює тайлове (tile-level) керування унікальними апаратними чергами Ascend A3, щоб подолати енергоефективні обмеження при паралельному плануванні гетерогенних обчислювальних ресурсів. Ascend A3 має два типи ядер: AIC відповідає за матричне множення, а AIV — за векторні обчислення та комунікацію. Однак у традиційній послідовній схемі планування операцій ці два типи ядер працюють по черзі, постійно залишаючись не завантаженими. Результати тестування показують, що при запуску великої моделі DeepSeek розміром 671B на кластері з 256 вузлів використання AIC становить лише 67%, а 39% затримок у маршрутизації експертів виявляються на критичному обчислювальному шляху. Основні зміни в HyperParallel-MoE — три. По-перше, розроблено односторонній оператор запису, керований AIV, який запускає обчислення негайно після отримання тайла, не чекаючи завершення пакету. По-друге, введено генерацію завдань з урахуванням залежностей, що дозволяє уніфікувати абстракцію комунікаційних та обчислювальних операцій. По-третє, статичний планувальник попередньо генерує послідовність завдань, щоб одночасно керувати обох типами ядер всередині одного ядра (kernel), а також використовувати швидкий кеш L2 для спільного доступу до проміжних результатів, зменшуючи затримки при запису та читанні з повільної пам’яті HBM. Тестування показало, що при балансованому маршрутизації на 64 вузлах затримка модуля ядер, відповідальних за обчислення експертів (MoE-FFN), скоротилася приблизно на 36%, що відповідає максимальному підвищенню швидкості обробки даних на 58% (тобто прискорення з 1,49 до 1,58 разу). У повному енд-ту-енд виконанні швидкість однокрокового навчання також зросла на 8–9%. Це свідчить про те, що реальна енергоефективність Ascend залежить не лише від апаратних характеристик, а й від того, наскільки ефективно компілятор і середовище виконання здатні планувати роботу ядер AIC/AIV. (Джерело: BlockBeats)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.