Büyük Modellerin Son Eğitiminde Yeni Bulgular: Kendi Oluşturduğu Verilerle İçi Eğitim, Modellerin Gelişimine Yardımcı Oluyor

Beating İzleme'ye göre, büyük modellerin sonrası eğitimi sırasında "aynı yolda örnekleme" (yani modelin kendi gerçek zamanlı ürettiği verilerle eğitilmesi), modelin gerilemesini önlemek ve problem çözme yeteneğini artırmak için kritiktir. Çevrimiçi takviyeli öğrenme (RL) ve aynı yolda öğretim (OPD), geleneksel denetimli ince ayarlamadan (SFT) daha iyi olmasının temel nedeni, modelin dışsal standart cevapları ezberlemesi yerine kendi yazdığı adımlara göre optimize edilmesidir. SFT, standart cevapları zorla vererek her kelimeye eşit kuvvet uygular ve bu da modelin mevcut bilgi yapısını kolayca bozar ve unutmayı tetikler. Bunun yerine, RL ve OPD, modelin kendi taslaklarında en iyi adımları bulup güçlendirmesine izin verir. Bu, "başta bir kelimeyi yanlış yazmak ve ardından tüm yol boyunca sapmak" gibi birikmiş hataları önler ve güncellemeler sadece modelin zaten bildiği bilgi alanlarında gerçekleşir, böylece orijinal yetenekler maksimum düzeyde korunur. "Minimum kod düzenleme" deneyinde, SFT veya RL hocası kullanılarak yapılan aynı yolda öğretimde, öğrenci modelin kodu ilk denemede doğru yazma başarı oranı (Pass@1) sırasıyla %80,0 ve %78,7 olarak, hoca modellerini aşmıştır. Hatta SFT hoca, aşırı ince ayar nedeniyle ciddi şekilde "aptallaşmış" olsa bile (LiveCodeBench kod yeteneği testinde 0,320'den 0,286'ya düşmüş), onun eğittiği öğrenci model hala 0,297 gibi yüksek bir puan almıştır ve hoca eksikliklerinden neredeyse etkilenmemiştir; bu da aynı yolda egzersizin hocanın kötü alışkanlıklarını etkili bir şekilde süzmeyi başardığını kanıtlar. Şu anda DeepSeek-V4 ve GLM-5, uzman modellerin yeteneklerini birleştirmek için aynı yolda öğretimi uygulamaya başlamıştır. Uzman eğitimi sırasında, kodlama ve matematik gibi net doğru/yanlış kriterleri olan alanlar RL için daha uygundur; yaratıcılık ve bilgiye dayalı öznel görevler ise aynı yolda öğretim için daha uygundur. Geleceğin nihai ince ayar algoritması, öğretim verimliliği (yüksek bilgi yoğunluğu) ile RL'nin nesnellik (tarafsız güncellemeler) özelliğini birleştiren yeni bir mekanizmayı aynı yolda eğitim çerçevesi içinde bulmak zorunda kalacaktır.