Китайська досягнення в галузі ШІ: модель DeepSeek з 1,6 трлн параметрів повністю навчена на внутрішньому Ascend 910C

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Спільна команда, що включає Шеньчженьський коледж Хе Тао, HIT (Шеньчжень), Інститут великих даних Шеньчжена та Huawei, завершила повне післятренування моделі DeepSeek-V4-Pro з 1,6 трильйона параметрів на національній платформі Ascend 910C. Ця новина на ланцюгу відзначає перший раз, коли третя сторона досягла повного навчання моделі з 1,6 трильйона параметрів за допомогою понад 1000 чипів Ascend 910C. Команда збільшила використання обчислювальних ресурсів моделі більше ніж на 30% та ефективність ключових операторів на 14%, не маючи жодних системних збоїв протягом понад 1500 кроків навчання. Новина про штучний інтелект та криптовалюту підкреслює зростання національних можливостей та інфраструктури в галузі ШІ.
ME AI повідомлення: згідно з даними моніторингу Beating, спільна група, що складається з Шеньчженьського університету Хэхэ, Харбінського технологічного інституту (Шеньчжень), Шеньчженьського інституту великих даних та команди Huawei, у співпраці з командою AI-платформи Shenzhen Smart City, оголосила про успішне проведення повного післятренінгу (Post-training) великої моделі DeepSeek-V4-Pro з 1,6 трильйона параметрів на китайській платформі AI-обчислень. Це перший у світі випадок, коли третя сторона завершила повний післятренінг моделі розміром 1,6 трильйона параметрів на китайській платформі обчислень. У порівнянні з попереднім тренуванням (Pre-training) з нуля, етап післятренінгу (який включає в себе наглядове доналаштування SFT та підсилене навчання RL) зосереджений на навчанні моделі дотримуватися інструкцій та виконанні конкретних завдань за допомогою якісних інструкцій та вирівнювання з людськими перевагами. Однак для моделей MoE архітектури з 1,6 трильйона параметрів повний післятренінг вимагає дуже високих вимог до нижчого рівня апаратного забезпечення: об’єму пам’яті GPU, пропускної здатності між багатьма картами (наприклад, повний з повним зв’язком, що викликається маршрутизацією MoE), а також стабільності великих кластерів. Спільна група, опираючись на кластер Huawei Ascend 910C з понад тисячею чипів, за допомогою оптимізації стратегій розподіленого навантаження та балансування навантаження успішно подолала комунікаційні обмеження. Протягом понад 1500 кроків тренування система не зазнала жодного переривання, використання обчислювальних ресурсів моделі (MFU) перевищило 30%, ефективність ключових операторів зросла на 14%, і всі показники відповідають промисловим стандартам роботи. За аналізом галузевих експертів, успішне запускання кластера Huawei Ascend 910C для тренування моделей трильйонного розміру підтверджує технічну доцільність китайських AI-чипів для виконання завдань глибокого тренування надвеликих моделей. Раніше основне попереднє тренування великих моделей залежало від кластерів GPU NVIDIA, а китайські обчислювальні ресурси використовувалися переважно для висновків (Inference) або доналаштування моделей з невеликим числом параметрів. Успіх цього спільного проекту означає, що екосистема китайських обчислювальних ресурсів швидко переходить від «підтримки лише висновків» до «забезпечення повного тренування моделей з надвеликим числом параметрів» — формуючи технічний замкнений цикл. (Джерело: MLion)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.