Beating İzleme'ye göre, büyük modellerin sonrası eğitimi sırasında "aynı yolda örnekleme" (yani modelin kendi gerçek zamanlı ürettiği verilerle eğitilmesi), modelin gerilemesini önlemek ve problem çözme yeteneğini artırmak için kritiktir. Çevrimiçi takviyeli öğrenme (RL) ve aynı yolda öğretim (OPD), geleneksel denetimli ince ayarlamadan (SFT) daha iyi olmasının temel nedeni, modelin dışsal standart cevapları ezberlemesi yerine kendi yazdığı adımlara göre optimize edilmesidir. SFT, standart cevapları zorla vererek her kelimeye eşit kuvvet uygular ve bu da modelin mevcut bilgi yapısını kolayca bozar ve unutmayı tetikler. Bunun yerine, RL ve OPD, modelin kendi taslaklarında en iyi adımları bulup güçlendirmesine izin verir. Bu, "başta bir kelimeyi yanlış yazmak ve ardından tüm yol boyunca sapmak" gibi birikmiş hataları önler ve güncellemeler sadece modelin zaten bildiği bilgi alanlarında gerçekleşir, böylece orijinal yetenekler maksimum düzeyde korunur. "Minimum kod düzenleme" deneyinde, SFT veya RL hocası kullanılarak yapılan aynı yolda öğretimde, öğrenci modelin kodu ilk denemede doğru yazma başarı oranı (Pass@1) sırasıyla %80,0 ve %78,7 olarak, hoca modellerini aşmıştır. Hatta SFT hoca, aşırı ince ayar nedeniyle ciddi şekilde "aptallaşmış" olsa bile (LiveCodeBench kod yeteneği testinde 0,320'den 0,286'ya düşmüş), onun eğittiği öğrenci model hala 0,297 gibi yüksek bir puan almıştır ve hoca eksikliklerinden neredeyse etkilenmemiştir; bu da aynı yolda egzersizin hocanın kötü alışkanlıklarını etkili bir şekilde süzmeyi başardığını kanıtlar. Şu anda DeepSeek-V4 ve GLM-5, uzman modellerin yeteneklerini birleştirmek için aynı yolda öğretimi uygulamaya başlamıştır. Uzman eğitimi sırasında, kodlama ve matematik gibi net doğru/yanlış kriterleri olan alanlar RL için daha uygundur; yaratıcılık ve bilgiye dayalı öznel görevler ise aynı yolda öğretim için daha uygundur. Geleceğin nihai ince ayar algoritması, öğretim verimliliği (yüksek bilgi yoğunluğu) ile RL'nin nesnellik (tarafsız güncellemeler) özelliğini birleştiren yeni bir mekanizmayı aynı yolda eğitim çerçevesi içinde bulmak zorunda kalacaktır.
Büyük Modellerin Son Eğitiminde Yeni Bulgular: Kendi Oluşturduğu Verilerle İçi Eğitim, Modellerin Gelişimine Yardımcı Oluyor
MarsBitPaylaş
Yeni bir araştırma, model performansını artırmak ve bozulmayı önlemek için kendi ürettiği verilerle eşzamanlı eğitimlerin ana yöntem olduğunu vurguluyor. Geleneksel SFT, çevrimiçi RL ve eşzamanlı distilasyon (OPD), modellerin adımlarını gerçek zamanlı olarak kendileri iyileştirmesine izin verir. Son testler, bu yöntemle eğitilen öğrenci modellerinin, enflasyon verileri ve piyasa değişimleri dışsal referansları etkilediği halde, mentörlerini geçtiğini gösteriyor. DeepSeek-V4 ve GLM-5 gibi platformlar, bu yöntemi uzman bilgilerini birleştirmek için zaten kullanıyor. Yeni token listelemeleri, eşzamanlı distilasyon kullanan daha doğru ve uyarlanabilir modellerden faydalanabilir.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.