Alumni Tsinghua, Wang Guan, mencapai SOTA dengan HRM-Text menggunakan 1/900 token dan 1/432 komputasi

Menghancurkan paradigma latihan pra-Model Besar tradisional, pasukan Wang Guan, alumni generasi 00 dari Tsinghua, mengeluarkan karya terbaru:

Mereka menggunakan model kitaran bertingkat (HRM) untuk menggantikan Transformer standard, dan mengusulkan HRM-Text, satu model pra-latihan yang cekap yang melampaui Scaling.

Tsinghua

Pautan kertas: https://arxiv.org/abs/2605.20613

HRM-Text masih mencapai prestasi yang sebanding dengan model sumber terbuka berparameter 2B hingga 7B, dengan hanya menggunakan kira-kira 100-900 kali lebih sedikit token latihan dan 96-432 kali lebih sedikit anggaran pengiraan berbanding model baseline standard.

Sementara itu, dengan 1B parameter, 40B token tidak berulang, dan kos latihan sekitar USD1500, HRM-Text mencapai prestasi berikut dalam ujian piawai utama: MMLU 60.7%, ARC-C 81.9%, DROP 82.2%, GSM8K 84.5%, MATH 56.2%.

Tsinghua

Rajah｜Kecekapan pra-pelatihan.

Di atas dasar ini, mereka secara jelas menyatakan: prior struktur dan objektif latihan yang terfokus boleh mengurangkan rintangan pra-pelatihan secara ketara. Skema latihan ini membolehkan pelatihan model asas dari awal menjadi mungkin.

Bagaimana HRM-Text direka?

Latihan pra-percubaan model bahasa besar (LLM) semakin bergantung kepada sedikit institusi yang memiliki sumber daya komputasi dan data yang mencukupi. Melatih model dasar yang kompetitif sering memerlukan triliunan token, ribuan GPU, dan bahkan investasi komputasi hingga jutaan dolar.

Namun, modus latihan semasa ini tidak cekap, dengan sejumlah besar pengiraan terbuang pada token yang tidak berkaitan seperti petunjuk, pengisian format, dan gangguan laman web, menyebabkan sebahagian besar kuasa pengiraan latihan tidak secara langsung menyokong inferens.

Dalam kerja ini, pasukan penyelidik telah merekabentuk semula arsitektur dan objektif latihan untuk membuat latihan pra-HRM-Text menjadi lebih cekap.

Arsitektur: Menggunakan model berlapis berputar dengan dua skala masa, memisahkan pengiraan menjadi modul H yang perlahan dan modul L yang pantas. Transformer biasa melakukan satu kali penyebaran maju setiap token, manakala HRM menjalani beberapa kemas kini berulang pada token yang sama. Modul H dan L masing-masing hanya menyumbang separuh daripada parameter inti berulang, dengan jumlah pengiraan keseluruhan kira-kira setara dengan empat kali pembukaan berulang pada set parameter yang sama, meningkatkan kedalaman pengiraan tanpa menambah jumlah parameter.

Matlamat latihan: Tidak lagi menggunakan pra-latihan autoregresif penuh teks standard, tetapi terus melatih pada pasangan arahan-jawapan, hanya mengira kerugian pada bahagian jawapan, serta menggabungkan topeng PrefixLM untuk membolehkan bahagian arahan mengambil perhatian dwi-arah, dan bahagian jawapan dijana mengikut topeng sebab-akibat.

Tsinghua

Rajah | Struktur HRM-Text.

Untuk meningkatkan kestabilan latihan berulang, pasukan penyelidik memperkenalkan MagicNorm dan Warmup Deep Credit Assignment.

MagicNorm ialah strategi normalisasi hibrida yang memanfaatkan ketidaksimetrian kedalaman pengiraan maju dan undur semula di bawah truncated backpropagation through time (Truncated BPTT), dengan menggunakan PreNorm di dalam modul dan menambahkan normalisasi tambahan di luar modul untuk meningkatkan kestabilan latihan berulang mendalam.

Warmup Deep Credit Assignment hanya menghantar gradien semula ke 2 langkah berulang terakhir pada awal latihan, kemudian mengembang secara linear hingga 5 langkah terakhir. Mekanisme latihan ini membolehkan model menumpu dengan stabil melalui laluan kredit yang lebih pendek, sebelum secara beransur-ansur memperkenalkan hubungan yang lebih panjang.

How effective is it?

Keputusan eksperimen menunjukkan bahawa HRM-Text menunjukkan kelebihan yang jelas dalam kecekapan arkaitek, objektif latihan, dan prestasi keseluruhan.

1. Dalam kekuatan pengiraan tetap, adakah arsitektur berputar lebih berkesan?

Hasil menunjukkan bahawa HRM 1B mengungguli Transformer 1B, Transformer 3B, Looped Transformer 1B, dan RINS 1B pada kebanyakan piawai di bawah syarat sejajaran FLOPs; perbandingan dengan TRM juga menunjukkan bahawa latihan HRM lebih stabil.

Tsinghua

Grafik | Perbandingan prestasi dan kestabilan dengan model Transformer. HRM mengekalkan dinamik latihan yang stabil pada semua skala, manakala model Transformer mengalami ketidakstabilan serius pada skala 1 miliar parameter. Selain itu, pada skala 0.6B, HRM hanya memerlukan separuh daripada jumlah pengiraan yang diperlukan oleh model Transformer untuk mencapai prestasi yang kompetitif pada kebanyakan piawai.

2. Adakah target penyelesaian tugas dan PrefixLM membantu

Eksperimen ablasi menunjukkan, dalam keadaan selaras FLOPs, MMLU Transformer 1B meningkat dari 40.55 pada pendekatan autoregresif standard, kepada 47.72 setelah memperkenalkan objektif penyelesaian tugas, 53.15 setelah menambahkan PrefixLM, dan 60.73 setelah menggantikan dengan arsitektur HRM.

Tsinghua

Rajah | Perbandingan prestasi antara pelbagai arsitektur model dan objektif latihan

3. Seberapa efisien HRM-Text berbanding model terbuka semasa?

HRM-Text 1B mencapai 60.7, 81.9, 82.2, 84.5 dan 56.2 masing-masing pada MMLU, ARC-C, DROP, GSM8K dan MATH. Berbanding model terbuka lain yang mempunyai anggaran latihan lebih besar, ia hanya menggunakan 40 miliar token unik dan 1B parameter untuk memasuki julat prestasi model sumber terbuka 2B hingga 7B; jumlah token yang diperlukan untuk latihan paling banyak 900 kali lebih sedikit, dan beban komputasi paling banyak 432 kali lebih rendah.

Tsinghua

Rajah | Hasil penilaian HRM-Text 1B berbanding model open-source dan model dengan bobot terbuka lain pada masa yang sama

4. Adakah struktur perulangan membawa kedalaman berkesan yang lebih besar

Hasil menunjukkan bahawa Transformer standard dan Looped Transformer cenderung stabil pada lapisan yang lebih cetek, manakala HRM masih mengekalkan perubahan representasi antara blok yang lebih jelas, kesamaan kosinus yang lebih rendah, dan nilai KL logit lens yang lebih tinggi pada lapisan yang lebih dalam.

Tsinghua

Rajah | Analisis Kedalaman Berkesan.

Tsinghua

Rajah | Analisis KL Logit Lens bertingkat.

Kekurangan dan Arah Masa Depan

Walaupun HRM-Text menunjukkan prestasi yang kuat dalam tugas-tugas yang padat penalaran, kaedah ini masih mempunyai kekangan dan mengusulkan arah penyelidikan masa depan.

1. Menuju pemisahan "pengetahuan" dan "penalaran"

Sekarang, cakupan pengetahuan fakta yang lebih luas masih bergantung lebih banyak kepada saiz model dan keluasan data. HRM-Text hanya dilatih pada 40 miliar token unik, dan sumber pengetahuan eksplisit hanya merupakan sebahagian daripada data campuran berformat tugas. Di masa depan, penyelidik perlu merekabentuk inti penalaran yang ringkas secara berasingan daripada penyimpanan fakta luaran, serahkan keluasan pengetahuan kepada korpus terpilih, modul peningkatan carian, atau ingatan yang boleh dipelajari.

2. Masa Pengiraan Adaptif

Jadual berputar HRM-Text membawa kedalaman siri yang lebih besar, tetapi ini juga bermakna model perlu melaksanakan jumlah langkah rekursif yang tetap semasa inferens. Di masa depan, satu arah yang patut dieksplorasi ialah memperkenalkan mekanisme masa pengiraan adaptif, membolehkan sampel mudah berhenti pengiraan lebih awal dan mengekalkan bajet berputar penuh untuk sampel sukar, mengurangkan kos inferens.

3. Lingkungan pengesahan berskala besar yang sedia ada masih terhad

Eksperimen penskalaan semasa hanya merangkumi kumpulan kawalan Transformer dengan 3B parameter dan HRM-Text dengan 1B parameter. Pasukan penyelidik menyatakan bahawa kelebihan kecekapan yang serupa pada skala model yang lebih besar masih perlu diverifikasi dalam kerja seterusnya.

4. PrefixLM dan kerangka kerja inferens

Sekarang, PrefixLM masih menghadapi beberapa hadapan kejuruteraan dalam pelaksanaan sebenar. Walaupun ia boleh berjalan pada rangka kerja inferens penghasilan teks piawai seperti vLLM, ia memerlukan rangka kerja tersebut menyokong topeng perhatian tersuai pada peringkat prefill. Jika ia diperluaskan kepada skenario perbualan berbilang putaran, mekanisme KV-cache perlu direka lagi, memastikan kebolehterlihatan dwi arah di dalam bahagian pengguna, sambil terus mematuhi hadiran sebab-akibat semasa penghasilan oleh pembantu.

Untuk butiran teknikal lanjut, rujuk kertas asal.

Artikel ini berasal daripada akaun微信公众号 "Academic Headline" (ID: SciTouTiao), penulis: Xia Qiansi