HRM-Text milik alumni Tsinghua, Wang Guan, mencapai SOTA dengan 1/900 token dan 1/432 komputasi

Menghancurkan paradigma pelatihan awal model besar tradisional, tim Wang Guan, alumni generasi 2000 dari Tsinghua, kembali merilis karya baru:

Mereka menggunakan hierarchical recurrent model (HRM) untuk menggantikan Transformer standar, dan mengusulkan HRM-Text, sebuah pre-training yang efisien yang melampaui Scaling.

Tsinghua

Tautan makalah: https://arxiv.org/abs/2605.20613

HRM-Text tetap mencapai kinerja yang sebanding dengan model open-source berparameter 2B hingga 7B, dengan hanya menggunakan sekitar 100-900 kali lebih sedikit token pelatihan dan 96-432 kali lebih sedikit perkiraan komputasi dibandingkan model baseline standar.

Sementara itu, dengan 1B parameter, 40B token non-berulang, dan biaya pelatihan sekitar 1500 dolar AS, HRM-Text mencapai hasil berikut pada uji coba standar utama: MMLU 60,7%, ARC-C 81,9%, DROP 82,2%, GSM8K 84,5%, MATH 56,2%.

Tsinghua

Gambar | Efisiensi pra-pelatihan.

Berdasarkan ini, mereka secara jelas menyatakan: prior struktural dan tujuan pelatihan yang terfokus dapat secara signifikan menurunkan ambang batas pelatihan awal. Skema pelatihan ini membuat pelatihan model dasar dari nol menjadi可行.

Bagaimana HRM-Text dirancang?

Pelatihan awal model bahasa besar (LLM) semakin bergantung pada sejumlah kecil lembaga yang memiliki sumber daya komputasi dan data yang cukup. Pelatihan model dasar yang kompetitif sering memerlukan triliunan token, ribuan GPU, bahkan investasi komputasi hingga jutaan dolar.

Namun, mode pelatihan saat ini tidak efisien, karena sejumlah besar komputasi terbuang pada token yang tidak relevan seperti prompt, pengisian format, dan noise web, sehingga sebagian besar daya pelatihan tidak secara langsung mendukung inferensi.

Dalam pekerjaan ini, tim peneliti mendesain ulang arsitektur dan tujuan pelatihan agar pelatihan awal HRM-Text menjadi lebih efisien.

Arsitektur: Menggunakan model siklik hierarkis dengan dua skala waktu, membagi perhitungan menjadi modul H yang lambat dan modul L yang cepat. Transformer standar melakukan satu kali forward pass untuk setiap token, sedangkan HRM melakukan beberapa pembaruan rekursif pada token yang sama. Modul H dan L masing-masing hanya menyumbang separuh dari parameter inti rekursif, dengan total beban komputasi sekitar setara dengan empat kali ekspansi rekursif pada satu set parameter yang sama, meningkatkan kedalaman komputasi tanpa menambah jumlah parameter.

Tujuan pelatihan: Tidak lagi menggunakan pre-training autoregresif penuh standar, tetapi langsung melatih pada pasangan instruksi-jawaban, hanya menghitung kerugian pada bagian jawaban, serta menggabungkan masking PrefixLM agar bagian instruksi memiliki perhatian dua arah dan bagian jawaban dihasilkan dengan masking kausal.

Tsinghua

Gambar | Arsitektur HRM-Text.

Untuk meningkatkan stabilitas pelatihan rekursif, tim peneliti memperkenalkan MagicNorm dan Warmup Deep Credit Assignment.

MagicNorm adalah strategi normalisasi hibrida yang memanfaatkan ketidakseimbangan kedalaman komputasi maju dan mundur di bawah Truncated BPTT, menerapkan PreNorm di dalam modul serta menambahkan normalisasi tambahan di出口 modul untuk meningkatkan stabilitas pelatihan rekursif mendalam.

Warmup Deep Credit Assignment hanya mengirimkan gradien kembali melalui 2 langkah rekursif terakhir pada awal pelatihan, lalu secara linier diperluas hingga 5 langkah terakhir. Mekanisme pelatihan ini memungkinkan model untuk konvergen secara stabil melalui jalur kredit yang lebih pendek, sebelum secara bertahap memperkenalkan ketergantungan yang lebih panjang.

How effective is it?

Hasil eksperimen menunjukkan bahwa HRM-Text menunjukkan keunggulan signifikan dalam efisiensi arsitektur, tujuan pelatihan, dan kinerja keseluruhan.

1. Dalam daya komputasi pelatihan tetap, apakah arsitektur siklik lebih efektif?

Hasil menunjukkan bahwa, dalam kondisi selaras FLOPs, HRM 1B unggul dibanding Transformer 1B, Transformer 3B, Looped Transformer 1B, dan RINS 1B pada sebagian besar benchmark; perbandingan dengan TRM juga menunjukkan bahwa pelatihan HRM lebih stabil.

Tsinghua

Grafik | Perbandingan kinerja dan stabilitas dengan model Transformer. HRM mempertahankan dinamika pelatihan yang stabil di semua skala, sementara model Transformer mengalami ketidakstabilan serius pada skala 1 miliar parameter. Selain itu, pada skala 0,6B, HRM hanya memerlukan dua kali lebih sedikit komputasi dibandingkan model Transformer untuk mencapai kinerja yang kompetitif di sebagian besar benchmark.

2. Apakah target penyelesaian tugas dan PrefixLM membantu

Eksperimen ablasi menunjukkan bahwa, dalam kondisi selaras FLOPs, MMLU Transformer 1B meningkat dari 40,55 pada pendekatan autoregresif standar, menjadi 47,72 setelah memperkenalkan tujuan penyelesaian tugas, 53,15 setelah menambahkan PrefixLM, dan 60,73 setelah mengganti arsitektur menjadi HRM.

Tsinghua

Gambar | Perbandingan kinerja antara berbagai arsitektur model dan tujuan pelatihan

3. Seberapa efisien HRM-Text dibandingkan dengan model terbuka kontemporer?

HRM-Text 1B mencapai 60,7; 81,9; 82,2; 84,5; dan 56,2 pada MMLU, ARC-C, DROP, GSM8K, dan MATH. Dibandingkan dengan model terbuka lainnya yang memiliki anggaran pelatihan jauh lebih besar, ia hanya menggunakan 40 miliar token unik dan 1 miliar parameter untuk memasuki rentang kinerja model open-source 2B hingga 7B; jumlah token yang dibutuhkan untuk pelatihan paling banyak 900 kali lebih sedikit, dan biaya komputasi paling banyak 432 kali lebih rendah.

Tsinghua

Grafik | Hasil evaluasi HRM-Text 1B dibandingkan dengan model open-source dan model dengan bobot terbuka lainnya pada periode yang sama

4. Apakah struktur siklik membawa kedalaman efektif yang lebih besar?

Hasil menunjukkan bahwa Transformer standar dan Looped Transformer cenderung stabil pada lapisan yang lebih dangkal, sementara HRM tetap mempertahankan perubahan representasi antar blok yang lebih jelas, kesamaan kosinus yang lebih rendah, dan nilai KL logit lens yang lebih tinggi pada lapisan yang lebih dalam.

Tsinghua

Gambar | Analisis kedalaman efektif.

Tsinghua

Gambar | Analisis KL Logit Lens bertingkat.

Kekurangan dan Arah Masa Depan

Meskipun HRM-Text menunjukkan kinerja kuat pada tugas-tugas yang padat inferensi, metode ini masih memiliki keterbatasan dan mengusulkan arah penelitian masa depan.

1. Menuju dekoupling antara "pengetahuan" dan "penalaran"

Saat ini, cakupan pengetahuan fakta yang lebih luas masih sangat bergantung pada ukuran model dan cakupan data. HRM-Text hanya dilatih pada 40 miliar token unik, dan sumber pengetahuan eksplisit hanya merupakan sebagian dari data campuran yang diformat untuk tugas. Di masa depan, peneliti perlu merancang inti inferensi yang ringkas secara terpisah dari penyimpanan fakta eksternal, menyerahkan cakupan pengetahuan kepada korpus terpilih, modul penguatan pencarian, atau memori yang dapat dipelajari.

2. Waktu komputasi adaptif

Jadwal siklik HRM-Text membawa kedalaman serial efektif yang lebih besar, tetapi ini juga berarti model harus menjalankan sejumlah langkah rekursif tetap selama inferensi. Di masa depan, arah yang layak dieksplorasi adalah memperkenalkan mekanisme waktu komputasi adaptif, sehingga sampel sederhana dapat menghentikan komputasi lebih awal dan menyisihkan anggaran siklik penuh untuk sampel sulit, mengurangi biaya inferensi.

3. Lingkup verifikasi skala besar saat ini masih terbatas

Eksperimen scaling saat ini hanya mencakup kelompok kontrol Transformer dengan 3 miliar parameter dan HRM-Text dengan 1 miliar parameter. Tim peneliti menyatakan bahwa apakah keunggulan efisiensi serupa dapat dipertahankan pada skala model yang lebih besar masih perlu diverifikasi melalui pekerjaan lanjutan.

4. PrefixLM dan kerangka kerja inferensi

Saat ini, PrefixLM masih menghadapi beberapa batasan teknis dalam penerapan nyata. Meskipun dapat berjalan pada kerangka kerja inferensi generasi teks standar seperti vLLM, hal ini memerlukan dukungan dari kerangka kerja terhadap mask perhatian khusus pada tahap prefill. Jika diperluas ke skenario percakapan multi-putaran, diperlukan desain lebih lanjut terhadap mekanisme KV-cache, yang menjamin visibilitas berarah ganda di dalam fragmen pengguna, sekaligus memastikan proses generasi sisi asisten tetap mengikuti batasan kausal.

Untuk detail teknis lebih lanjut, lihat makalah aslinya.

Artikel ini berasal dari akun WeChat "Academic Headline" (ID: SciTouTiao), penulis: Xia Qiansi