Çinli Yapay Zeka Milestonu: 1,6T Parametreli DeepSeek Modeli Yerel Ascend 910C Üzerinde Tamamen Eğitildi

ME AI mesajı, Beating izleme sistemi tarafından tespit edildiğine göre, Şenzen Hequan Akademisi, Harbin Teknoloji Üniversitesi (Şenzen), Şenzen Büyük Veri Araştırma Enstitüsü ve Huawei ilgili ekiplerinden oluşan ortak çalışma grubu, yerli AI hesaplama platformunda 1,6 trilyon parametrelik büyük model DeepSeek-V4-Pro'nun tam parametreli sonrası eğitimi (Post-training) başarıyla tamamladığını duyurdu. Bu, dünya çapında üçüncü taraf bir kurumun yerli hesaplama platformunda 1,6 trilyon parametrelik bir modelin tam parametreli sonrası eğitimi gerçekleştirmesi açısından ilk kez gerçekleşti. Sıfırdan başlayarak yapılan ön eğitim (Pre-training) ile karşılaştırıldığında, sonrası eğitim aşaması (öncelikle gözetimli ince ayar SFT ve güçlendirilmiş öğrenme RL içerir), kaliteli talimatlar ve insan tercihlerine uyum sağlayarak modelin talimatları takip etmesini ve belirli görevleri yerine getirmesini öğretmeyi hedefler. Ancak 1,6 trilyon parametrelik MoE mimarisine sahip bir model için tam parametreli sonrası eğitim, alt yapıdonanımının GPU bellek kapasitesi, çoklu kartlar arası iletişim bant genişliği (örneğin MoE yönlendirme tarafından tetiklenen tüm-ile-tüm iletişim) ve büyük ölçekli kümelerin kararlılığı açısından çok sıkı gereksinimler gerektirir. Ortak çalışma grubu, binlerce çip kapasiteli Huawei Ascend 910C hesaplama kümesine dayanarak dağıtılmış yük taşıma ve yük dengelleme stratejilerini optimize ederek iletişim darboğazını başarıyla aşmıştır. 1500'den fazla adımdan oluşan eğitim süreci boyunca sistem bir kez bile kesintiye uğramamış, model hesaplama kullanım oranı (MFU) %30'u aşmış, kritik hesaplama operatörlerinin verimliliği %14 artmış ve tüm göstergeler endüstriyel düzeyde çalışma standartlarını karşılamıştır. Sektör analizleri, Huawei Ascend 910C kümesinin trilyonlarca parametreli modellerdeki başarılı uygulamasının, yerli AI çiplerinin aşırı büyük modellerin derin eğitim görevlerini üstlenebilirliği konusunda teknik mümkün olduğunu kanıtladığını göstermektedir. Daha önce büyük modellerin temel ön eğitimi NVIDIA GPU kümelerine bağımlıydı ve yerli hesaplama kaynakları genellikle çıkarım (Inference) veya küçük parametreli ince ayar görevlerini üstlenirdi. Bu ortak çalışma başarısı, yerli hesaplama ekosisteminin "yalnızca çıkarımı destekleme" durumundan "aşırı büyük parametreli modellerin tam parametreli eğitimi"ne teknik bir döngüye geçiş yapmaya başladığını işaret etmektedir. (Kaynak: MLion)