Китайский прорыв в области ИИ: модель DeepSeek с 1,6 трлн параметров полностью обучена на отечественных процессорах Ascend 910C

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Совместная команда, включающая Шэньчжэньский колледж Хэтао, HIT (Шэньчжэнь), Шэньчжэньский институт больших данных и Huawei, завершила полное пост-обучение модели DeepSeek-V4-Pro с 1,6 триллиона параметров на отечественной платформе Ascend 910C. Эта новость на блокчейне отмечает первый случай, когда сторонняя группа достигла полного обучения модели с 1,6 трлн параметров с использованием более 1000 чипов Ascend 910C. Команда повысила использование вычислительных ресурсов модели более чем на 30% и эффективность ключевых операторов на 14%, при этом не было ни одного сбоя системы за более чем 1500 шагов обучения. Новость об ИИ и криптовалюте подчеркивает растущие возможности и инфраструктуру отечественного ИИ.
ME AI сообщение: согласно мониторингу Beating, совместная команда, состоящая из Шэньчжэньского института Хэцюань, Харбинского технологического института (Шэньчжэнь), Шэньчжэньского института больших данных и команды Huawei, в сотрудничестве с командой по разработке AI-вычислительной платформы Shenzhen Smart City, объявила об успешном проведении полного пост-обучения (Post-training) с полными параметрами большой модели DeepSeek-V4-Pro с 1,6 триллиона параметров на отечественной вычислительной платформе AI. Это первый в мире случай, когда сторонняя организация успешно выполнила полное пост-обучение модели масштабом 1,6 триллиона параметров на отечественной вычислительной платформе. В отличие от предварительного обучения (Pre-training) с нуля, этап пост-обучения (включающий в основном тонкую настройку под наблюдением SFT и обучение с подкреплением RL) фокусируется на обучении модели следовать инструкциям и выполнять конкретные задачи с помощью высококачественных инструкций и выравнивания с человеческими предпочтениями. Однако для модели MoE архитектуры с 1,6 триллиона параметров полное пост-обучение предъявляет чрезвычайно строгие требования к емкости видеопамяти базового оборудования, пропускной способности связи между несколькими картами (например, полный обмен данными, вызываемый маршрутизацией MoE), а также к стабильности крупномасштабных кластеров. Совместная команда, опираясь на вычислительный кластер Huawei Ascend 910C с более чем тысячей чипов, успешно преодолела коммуникационные узкие места за счет оптимизации распределенной нагрузки и стратегий балансировки нагрузки. В течение более чем 1500 шагов обучения система не прерывалась ни разу, коэффициент использования вычислительных ресурсов модели (MFU) превысил 30%, эффективность ключевых операторов повысилась на 14%, все показатели соответствуют промышленным стандартам эксплуатации. Эксперты отрасли отмечают, что успешное выполнение обучения моделей триллионного масштаба на кластере Huawei Ascend 910C подтверждает техническую осуществимость отечественных AI-чипов при выполнении задач глубокого обучения сверхкрупных моделей. Ранее основные этапы предварительного обучения крупных моделей зависели от кластеров GPU NVIDIA, а отечественные вычислительные ресурсы в основном использовались для вывода (Inference) или тонкой настройки моделей с небольшим числом параметров. Успешное достижение этой совместной команды означает, что экосистема отечественных вычислительных ресурсов ускоряет переход от «поддержки только вывода» к «обеспечению полного цикла обучения моделей с огромным числом параметров». (Источник: MLion)
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.