Tsinghua mezunu Wang Guan'ın HRM-Text'i, 1/900 token ve 1/432 hesaplama ile SOTA'ya ulaşıyor

Geleneksel büyük dil modellerinin ön eğitim paradigmalarını kırıyor, Tsinghua Üniversitesi'nin 2000'li doğumlı mezunu Wang Guan ekibi yeni eserini sunuyor:

Onlar, standart Transformer'ı yerine katmanlı döngüsel modeli (HRM) kullanarak Scaling'in ötesine geçen verimli ön-eğitim HRM-Text'i önerdiler.

Tsinghua

Makale bağlantısı: https://arxiv.org/abs/2605.20613

HRM-Text, standart baseline model'den yaklaşık 100-900 kat daha az eğitim token'ı ve 96-432 kat daha az hesaplanan hesaplama gücü kullanarak, 2B ila 7B parametreli açık kaynak modellerle kıyaslanabilir performans sağlıyor.

Aynı zamanda, 1B parametre ve 40B tekrarsız token kullanılarak yaklaşık 1500 dolarlık bir eğitim maliyetiyle HRM-Text, ana referans testlerinde şu sonuçları elde etti: MMLU 60,7%, ARC-C 81,9%, DROP 82,2%, GSM8K 84,5%, MATH 56,2%.

Tsinghua

Şekil | Ön eğitim verimliliği.

Bu temelde, yapısal öncüller ve hedefe yönelik eğitim hedeflerinin, ön-eğitim engelini önemli ölçüde düşürebileceğini açıkça belirttiler. Bu eğitim yöntemi, temel modelleri sıfırdan eğitmeyi mümkün kılar.

HRM-Text nasıl tasarlandı?

Büyük dil modellerinin (LLM) ön eğitim süreci, giderek yeterli hesaplama gücü ve veri kaynaklarına sahip az sayıda kuruma bağımlı hale gelmektedir. Rekabetçi bir temel model eğitmek, genellikle trilyonlarca token, binlerce GPU ve hatta on milyonlarca dolarlık hesaplama yatırımı gerektirir.

Ancak mevcut eğitim modu verimli değil; büyük miktarda hesaplama gücü, ipuçları, biçim doldurma ve web gürültüsü gibi ilgisiz token'lara harcanıyor ve bu da büyük bir eğitim hesaplama gücünün doğrudan çıkarıma hizmet etmemesine neden oluyor.

Bu çalışmada, araştırma ekibi, HRM-Text'in ön eğitiminin daha verimli hale gelmesi için mimariyi ve eğitim hedefini yeniden tasarladı.

Mimari: İki zaman ölçeği kullanan katmanlı döngüsel model, hesaplamayı yavaş H modülü ve hızlı L modülü olarak böler. Standart Transformer, her bir token için yalnızca bir kez ileri yayılım yapar; HRM ise aynı token üzerinde çoklu döngüsel güncellemeler gerçekleştirir. H ve L modülleri, döngüsel çekirdek parametrelerinin her biri %50'sini oluşturur ve toplam hesaplama miktarı, aynı parametre seti üzerinde dört kez döngüsel açılım yapmaya denk gelir; parametre sayısını artırmadan hesaplama derinliğini artırır.

Hedef: Standart tam metin otoregresif ön eğitim yerine, doğrudan talimat-cevap çiftleri üzerinde eğitim yapmak, yalnızca cevap kısmında kayıp hesaplamak ve PrefixLM maskelemesiyle talimat kısmının çift yönlü dikkatini, cevap kısmının nedeni-temelli maskelemeyle üretmesini sağlamak.

Tsinghua

Şekil | HRM-Text mimarisi.

Özyinelemeli eğitimin kararlılığını artırmak için araştırma ekibi MagicNorm ve Warmup Deep Credit Assignment’ı tanıttı.

MagicNorm, truncated BPTT altında ileri ve geri hesaplama derinliklerinin asimetrisinden yararlanarak, modül içinde PreNorm kullanır ve modül çıkışında ek bir normalizasyon ekleyerek derin tekrarlı eğitimlerin kararlılığını artırır.

Warmup Deep Credit Assignment, eğitimin başlangıcında yalnızca son 2 yinelemeli adıma gradyan geri yayılır, ardından son 5 adıma kadar lineer olarak genişletilir. Bu eğitim mekanizması, modelin daha kısa kredi yollarında kararlı bir şekilde yakınsamasını sağlar ve ardından daha uzun bağımlılıklar yavaşça dahil edilir.

Etkisi nasıl?

Deneysel sonuçlar, HRM-Text'in mimari verimlilik, eğitim hedefi ve genel performans açısından açıkça üstünlük sağladığını göstermektedir.

Sabit hesaplama gücü altında, döngüsel mimari daha etkili mi?

FLOPs hizalama koşulları altında, HRM 1B, çoğu benchmark'ta Transformer 1B, Transformer 3B, Looplu Transformer 1B ve RINS 1B'yi aşıyor; TRM ile karşılaştırıldığında ise HRM'nin eğitiminin daha kararlı olduğu görülüyor.

Tsinghua

Şekil | Transformer modelinin performansı ve kararlılığı ile karşılaştırma. HRM, tüm ölçeklerde kararlı bir eğitim dinamikleri korurken, Transformer modeli 1 milyar parametre ölçeğinde ciddi bir kararsızlık yaşadı. Ayrıca 0,6B ölçeğinde, HRM, çoğu temel testte rekabetçi performans elde etmek için Transformer modelinden yalnızca 2 kat daha az hesaplama gücü kullandı.

2. Görev tamamlama hedefi ve PrefixLM yardımcı mı?

Ablasyon deneyleri, FLOPs hizalanmış koşullarda, 1B Transformer'ın MMLU skorunun standart otoregresif yapıda 40,55'ten, görev tamamlama hedefinin eklenmesiyle 47,72'ye, PrefixLM'nin eklenmesiyle 53,15'e ve HRM mimarisine geçişle 60,73'e yükseldiğini göstermektedir.

Tsinghua

Şekil | Farklı model mimarileri ve eğitim hedefleri arasındaki performans karşılaştırması

3. HRM-Metni, günümüzün açık modelleriyle karşılaştırıldığında verimliliği nasıl?

HRM-Text 1B, MMLU, ARC-C, DROP, GSM8K ve MATH üzerinde sırasıyla 60,7, 81,9, 82,2, 84,5 ve 56,2 puan elde etti. Daha büyük eğitim bütçelerine sahip açık kaynak modellerle karşılaştırıldığında, yalnızca 40 milyar benzersiz token ve 1 milyar parametre kullanarak 2 milyar ile 7 milyar arasında yer alan açık kaynak modellerin performans aralığına girdi; gerekli token sayısı en fazla 900 kat az, hesaplama maliyeti en fazla 432 kat az.

Tsinghua

Şekil | HRM-Text 1B, aynı dönemdeki tüm açık kaynaklı ve açık ağırlıklı modellerin değerlendirme sonuçları

4. Döngü yapısı daha büyük bir etkili derinlik mi getirdi?

Sonuçlar, standart Transformer ve döngüsel Transformer'ın daha yüzeysel katmanlarda istikrar kazandığını, HRM'nin ise daha derin katmanlarda hala daha belirgin bloklar arası temsil değişiklikleri, daha düşük kosinüs benzerliği ve daha yüksek logit lens KL değerleri koruduğunu göstermektedir.

Tsinghua

Şekil | Geçerli derinlik analizi.

Tsinghua

Şekil | Katmanlı Logit Lens KL Analizi.

Yetersizlik ve Gelecek Yönleri

HRM-Text, yoğun çıkarım görevlerinde güçlü performans gösterse de, bu yöntem hala sınırlamalara sahiptir ve gelecekteki araştırma yönlerini ortaya koymaktadır.

1. "Bilgi" ile "Mantık" ayrılması

Şu anda, daha geniş gerçek bilgi kapsaması hala model boyutu ve veri genişliği üzerinde daha çok bağımlıdır. HRM-Text yalnızca 40 milyar benzersiz token üzerinde eğitildi ve açıkça bilgiye dayalı kaynaklar, görev formatlama karışım verisinin sadece bir kısmını oluşturuyor. Gelecekte, araştırmacılar, kompakt çıkarım çekirdeğini dışsal gerçek veri depolarından ayrı olarak tasarlamalı, bilgi genişliğini seçkin bir corpus, arama destekli modüller veya öğrenilebilir bellek üzerine bırakmalıdır.

2. Uyumlu hesaplama süresi

HRM-Text'in döngüsel zamanlaması, daha büyük bir etkili seri derinliği sağlar, ancak bu aynı zamanda modelin çıkarım sırasında sabit sayıda özyinelemeli adım gerçekleştirmesini gerektirir. Gelecekte, basit örneklerin hesaplamayı daha erken durdurmasına ve tam döngü bütçesini zor örnekler için saklamak suretiyle çıkarım maliyetini azaltmak amacıyla uygun hesaplama süresi mekanizmaları eklemek değerli bir araştırma yönü olacaktır.

3. Mevcut ölçekli doğrulama kapsamı hala sınırlıdır

Mevcut ölçeklendirme deneyi, yalnızca 3 milyar parametreli Transformer kontrol grubunu ve 1 milyar parametreli HRM-Text'i kapsamaktadır. Araştırma ekibi, daha büyük model ölçeklerinde benzer verimlilik avantajlarının korunup korunmayacağını, ilerleyen çalışmalarla daha fazla doğrulanması gerektiğini belirtmiştir.

4. PrefixLM ve çıkarım çerçevesi

Şu anda PrefixLM, pratik dağıtımında bazı mühendislik uygulama sınırlamaları ile karşılaşıyor. vLLM gibi standart metin üretme çıkarım çerçevelerinde çalışabilse de, bu çerçevelerin prefill aşamasında özelleştirilmiş dikkat maskelerini desteklemesini gerektirir. Çok aşamalı diyalog senaryolarına genişletilmesi durumunda, kullanıcı parçaları içinde çift yönlü görünürlüğü koruyarak yardımcı tarafın üretimi neden-sonuç kısıtlamalarını sürdürmesini sağlayan bir KV-cache mekanizmasının daha fazla tasarlanması gerekir.

Daha fazla teknik ayrıntı için orijinal makaleye bakın.

Bu yazı WeChat hesabından "Akademik Başlık" (ID: SciTouTiao) tarafından paylaşılmıştır, yazar: Xia Qiansi