Huawei и USTC сотрудничают для преодоления монополии NVIDIA, скорость вычислений модели Ascend A3 увеличилась на 58%

ME AI Сообщение: согласно мониторингу Beating, в ходе масштабной эволюции архитектуры MoE использование отечественных чипов Ascend для обучения крупных моделей стало ключевым направлением в создании автономной и контролируемой ИИ-вычислительной мощности. Однако большинство современных фреймворков крупных моделей разработаны на основе экосистемы NVIDIA CUDA, и при прямой миграции на платформу Ascend возникают такие проблемы, как неравномерное планирование аппаратных очередей и низкая эффективность использования вычислительных ресурсов. Университет науки и технологий Китая, Huawei и Пекинский университет совместно разработали компиляторную систему планирования HyperParallel-MoE, которая обеспечивает тайловое (tile-level) управление уникальными аппаратными очередями Ascend A3 с целью преодоления энергоэффективных барьеров параллельного планирования гетерогенной вычислительной мощности. Ascend A3 имеет два типа ядер: AIC отвечает за матричное умножение, а AIV — за векторные вычисления и коммуникации. Однако при традиционной последовательной планировке операторов эти два типа ядер работают поочередно, оставаясь в состоянии простоя. Экспериментальные данные показывают, что при запуске крупной модели DeepSeek-стиля объемом 671 млрд параметров на кластере из 256 узлов использование ядер AIC составило всего 67%, а 39% задержек коммуникации маршрутизации экспертов проявлялись на критическом вычислительном пути. Основные изменения в HyperParallel-MoE включают три пункта. Во-первых, разработаны односторонние операции записи, управляемые AIV, которые запускают вычисления сразу при поступлении тайла данных, без ожидания полной загрузки пакета. Во-вторых, внедрена генерация задач с учетом зависимостей, объединяющая операторы коммуникации и вычисления в единую абстракцию. В-третьих, статический планировщик предварительно генерирует последовательность задач, обеспечивающую параллельную работу обоих типов ядер внутри одного ядра и использующую высокоскоростной кэш L2 для совместного хранения промежуточных результатов, что снижает задержки при записи и чтении медленной памяти HBM. Тесты показали, что при балансированной маршрутизации на 64 узлах задержка модуля ядер, отвечающих за вычисления экспертов (MoE-FFN), сократилась примерно на 36%, что эквивалентно увеличению скорости обработки данных до 58% (ускорение от 1,49 до 1,58 раза). В целом на уровне системы задержка одного шага обучения также снизилась на 8–9%. Это свидетельствует о том, что реальная энергоэффективность Ascend определяется не только аппаратными характеристиками, но и способностью компилятора и среды выполнения эффективно планировать ядра AIC/AIV. (Источник: BlockBeats)