Çinli Yapay Zeka Milestonu: 1,6T Parametreli DeepSeek Modeli Yerel Ascend 910C Üzerinde Tamamen Eğitildi
KuCoinFlash
Paylaş
Özet
Shenzhen HeTao Koleji, HIT (Shenzhen), Shenzhen Büyük Veri Enstitüsü ve Huawei'den oluşan ortak bir ekip, 1,6 trilyon parametreli DeepSeek-V4-Pro modelini yerel Ascend 910C AI platformunda tam post-egitimini tamamladı. Bu zincir içi haber, üçüncü taraf bir grubun 1.000'den fazla Ascend 910C çipi kullanarak 1,6T parametreli bir modeli tam olarak eğitmesinin ilk kez gerçekleştiğini işaret ediyor. Ekip, model hesaplama kullanımını %30'dan fazla artırırken, ana operatör verimliliğini %14 artırdı ve 1.500'den fazla eğitim adımında hiçbir sistem hatası yaşanmadı. AI + kripto haberi, yerel AI kapasitelerinin ve altyapısının arttığını vurgulamaktadır.
ME AI mesajı, Beating izleme sistemi tarafından tespit edildiğine göre, Şenzen Hequan Akademisi, Harbin Teknoloji Üniversitesi (Şenzen), Şenzen Büyük Veri Araştırma Enstitüsü ve Huawei ilgili ekiplerinden oluşan ortak çalışma grubu, yerli AI hesaplama platformunda 1,6 trilyon parametrelik büyük model DeepSeek-V4-Pro'nun tam parametreli sonrası eğitimi (Post-training) başarıyla tamamladığını duyurdu. Bu, dünya çapında üçüncü taraf bir kurumun yerli hesaplama platformunda 1,6 trilyon parametrelik bir modelin tam parametreli sonrası eğitimi gerçekleştirmesi açısından ilk kez gerçekleşti. Sıfırdan başlayarak yapılan ön eğitim (Pre-training) ile karşılaştırıldığında, sonrası eğitim aşaması (öncelikle gözetimli ince ayar SFT ve güçlendirilmiş öğrenme RL içerir), kaliteli talimatlar ve insan tercihlerine uyum sağlayarak modelin talimatları takip etmesini ve belirli görevleri yerine getirmesini öğretmeyi hedefler. Ancak 1,6 trilyon parametrelik MoE mimarisine sahip bir model için tam parametreli sonrası eğitim, alt yapıdonanımının GPU bellek kapasitesi, çoklu kartlar arası iletişim bant genişliği (örneğin MoE yönlendirme tarafından tetiklenen tüm-ile-tüm iletişim) ve büyük ölçekli kümelerin kararlılığı açısından çok sıkı gereksinimler gerektirir. Ortak çalışma grubu, binlerce çip kapasiteli Huawei Ascend 910C hesaplama kümesine dayanarak dağıtılmış yük taşıma ve yük dengelleme stratejilerini optimize ederek iletişim darboğazını başarıyla aşmıştır. 1500'den fazla adımdan oluşan eğitim süreci boyunca sistem bir kez bile kesintiye uğramamış, model hesaplama kullanım oranı (MFU) %30'u aşmış, kritik hesaplama operatörlerinin verimliliği %14 artmış ve tüm göstergeler endüstriyel düzeyde çalışma standartlarını karşılamıştır. Sektör analizleri, Huawei Ascend 910C kümesinin trilyonlarca parametreli modellerdeki başarılı uygulamasının, yerli AI çiplerinin aşırı büyük modellerin derin eğitim görevlerini üstlenebilirliği konusunda teknik mümkün olduğunu kanıtladığını göstermektedir. Daha önce büyük modellerin temel ön eğitimi NVIDIA GPU kümelerine bağımlıydı ve yerli hesaplama kaynakları genellikle çıkarım (Inference) veya küçük parametreli ince ayar görevlerini üstlenirdi. Bu ortak çalışma başarısı, yerli hesaplama ekosisteminin "yalnızca çıkarımı destekleme" durumundan "aşırı büyük parametreli modellerin tam parametreli eğitimi"ne teknik bir döngüye geçiş yapmaya başladığını işaret etmektedir. (Kaynak: MLion)
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.