Китайська досягнення в галузі ШІ: модель DeepSeek з 1,6 трлн параметрів повністю навчена на внутрішньому Ascend 910C

ME AI повідомлення: згідно з даними моніторингу Beating, спільна група, що складається з Шеньчженьського університету Хэхэ, Харбінського технологічного інституту (Шеньчжень), Шеньчженьського інституту великих даних та команди Huawei, у співпраці з командою AI-платформи Shenzhen Smart City, оголосила про успішне проведення повного післятренінгу (Post-training) великої моделі DeepSeek-V4-Pro з 1,6 трильйона параметрів на китайській платформі AI-обчислень. Це перший у світі випадок, коли третя сторона завершила повний післятренінг моделі розміром 1,6 трильйона параметрів на китайській платформі обчислень. У порівнянні з попереднім тренуванням (Pre-training) з нуля, етап післятренінгу (який включає в себе наглядове доналаштування SFT та підсилене навчання RL) зосереджений на навчанні моделі дотримуватися інструкцій та виконанні конкретних завдань за допомогою якісних інструкцій та вирівнювання з людськими перевагами. Однак для моделей MoE архітектури з 1,6 трильйона параметрів повний післятренінг вимагає дуже високих вимог до нижчого рівня апаратного забезпечення: об’єму пам’яті GPU, пропускної здатності між багатьма картами (наприклад, повний з повним зв’язком, що викликається маршрутизацією MoE), а також стабільності великих кластерів. Спільна група, опираючись на кластер Huawei Ascend 910C з понад тисячею чипів, за допомогою оптимізації стратегій розподіленого навантаження та балансування навантаження успішно подолала комунікаційні обмеження. Протягом понад 1500 кроків тренування система не зазнала жодного переривання, використання обчислювальних ресурсів моделі (MFU) перевищило 30%, ефективність ключових операторів зросла на 14%, і всі показники відповідають промисловим стандартам роботи. За аналізом галузевих експертів, успішне запускання кластера Huawei Ascend 910C для тренування моделей трильйонного розміру підтверджує технічну доцільність китайських AI-чипів для виконання завдань глибокого тренування надвеликих моделей. Раніше основне попереднє тренування великих моделей залежало від кластерів GPU NVIDIA, а китайські обчислювальні ресурси використовувалися переважно для висновків (Inference) або доналаштування моделей з невеликим числом параметрів. Успіх цього спільного проекту означає, що екосистема китайських обчислювальних ресурсів швидко переходить від «підтримки лише висновків» до «забезпечення повного тренування моделей з надвеликим числом параметрів» — формуючи технічний замкнений цикл. (Джерело: MLion)