Nous Research'in TST Eğitim Yöntemi, Önceki Çalışmaya Benzerliği Üzerine Tartışmalara Neden Oldu

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Nous Research, 14 Mayıs'ta (UTC+8) Token Stacking Training (TST) yöntemini tanıtarak yeni bir token lanzmanı duyurdu ve aynı hesaplama yükü altında ön-eğitim süresini 2 ila 3 kat azalttığını iddia etti. Yöntem, erken eğitim sırasında bitişik tokenları yığınlar halinde birleştirir ve tek tokenlar yerine token paketlerini tahmin eder. Eleştirmenler, TST'nin 2024 yılındaki 'Next Token Prediction'in Ötesinde' adlı makaleye benzerliğini hemen fark etti. Takım, bu örtüşmeyi "kötü şanslı eşzamanlı araştırma" olarak kabul etti ve uygun atıflar ekleyeceğini vaat etti. Yeni token listelemeleri genellikle eleştiri çeker ve bu durum da istisna değil.

ME Haberleri, 14 Mayıs (UTC+8) itibarıyla, Beating izleme sistemi tarafından raporlanan bilgiye göre, Nous Research, büyük model ön-eğitim için yeni bir yöntem olan Token Stack Training (TST)’i duyurdu. Bu yöntem, eğitim sürecinin başlangıcında bitişik token’ları paketleyip sıkıştırarak, aynı hesaplama miktarı altında ön-eğitim süresini 2 ila 3 kat kısaltmayı amaçlıyor. TST, iki aşamadan oluşuyor. Eğitim sürecinin ilk %20 ila %40’ında, model token’ları tek tek okumak yerine, bitişik token’ları bir araya getirip ortalama değerini alarak girdi olarak kullanıyor ve çıktıda, bir sonraki pakette hangi token’ların yer alacağını (iç sıralama dahil değil) tahmin ediyor. Ardından, model normal bir sonraki token tahmini yöntemine geri dönüyor. Alt yapıda herhangi bir değişiklik yapılmadığından, üretilen modelin çıkarım aşamasındaki davranışı tamamen standart modellerle aynı kalıyor. Bu yöntem, en fazla 10 milyar parametreli MoE modeller üzerinde başarıyla test edildi. Bu yaklaşımın temel fikri, “veriyle hesaplama kazanmak”tır; yani daha hızlı veri tüketimiyle hesaplama süresini kısaltmayı hedefler. Gelecekte kaliteli metin verileri tükenirse, bu veri tüketim hızı avantajı dezavantaja dönüşebilir. Ayrıca, makalenin yayınlanmasından birkaç saat sonra, okuyucular TST’nin mekanizmasının 2024 yılında yayınlanan eski bir çalışma olan “Beyond Next Token Prediction” ile büyük benzerlikler taşıdığını belirtti. Yazar ekibi daha sonra Hugging Face üzerinde bunun “kötü şanslı bir paralel araştırma (convergent research)” olduğunu kabul ederek, makaleyi güncelleyip alıntıları tamamlayacaklarını söz verdi. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.