Китайский прорыв в области ИИ: модель DeepSeek с 1,6 трлн параметров полностью обучена на отечественных процессорах Ascend 910C

ME AI сообщение: согласно мониторингу Beating, совместная команда, состоящая из Шэньчжэньского института Хэцюань, Харбинского технологического института (Шэньчжэнь), Шэньчжэньского института больших данных и команды Huawei, в сотрудничестве с командой по разработке AI-вычислительной платформы Shenzhen Smart City, объявила об успешном проведении полного пост-обучения (Post-training) с полными параметрами большой модели DeepSeek-V4-Pro с 1,6 триллиона параметров на отечественной вычислительной платформе AI. Это первый в мире случай, когда сторонняя организация успешно выполнила полное пост-обучение модели масштабом 1,6 триллиона параметров на отечественной вычислительной платформе. В отличие от предварительного обучения (Pre-training) с нуля, этап пост-обучения (включающий в основном тонкую настройку под наблюдением SFT и обучение с подкреплением RL) фокусируется на обучении модели следовать инструкциям и выполнять конкретные задачи с помощью высококачественных инструкций и выравнивания с человеческими предпочтениями. Однако для модели MoE архитектуры с 1,6 триллиона параметров полное пост-обучение предъявляет чрезвычайно строгие требования к емкости видеопамяти базового оборудования, пропускной способности связи между несколькими картами (например, полный обмен данными, вызываемый маршрутизацией MoE), а также к стабильности крупномасштабных кластеров. Совместная команда, опираясь на вычислительный кластер Huawei Ascend 910C с более чем тысячей чипов, успешно преодолела коммуникационные узкие места за счет оптимизации распределенной нагрузки и стратегий балансировки нагрузки. В течение более чем 1500 шагов обучения система не прерывалась ни разу, коэффициент использования вычислительных ресурсов модели (MFU) превысил 30%, эффективность ключевых операторов повысилась на 14%, все показатели соответствуют промышленным стандартам эксплуатации. Эксперты отрасли отмечают, что успешное выполнение обучения моделей триллионного масштаба на кластере Huawei Ascend 910C подтверждает техническую осуществимость отечественных AI-чипов при выполнении задач глубокого обучения сверхкрупных моделей. Ранее основные этапы предварительного обучения крупных моделей зависели от кластеров GPU NVIDIA, а отечественные вычислительные ресурсы в основном использовались для вывода (Inference) или тонкой настройки моделей с небольшим числом параметров. Успешное достижение этой совместной команды означает, что экосистема отечественных вычислительных ресурсов ускоряет переход от «поддержки только вывода» к «обеспечению полного цикла обучения моделей с огромным числом параметров». (Источник: MLion)