Ang HRM-Text ni Wang Guan, isang alumni ng Tsinghua, ay nakamit ang SOTA gamit ang 1/900 na token at 1/432 na compute

Lumalabas sa tradisyonal na paraan ng pre-training ng malalaking modelo, ang team ni Wang Guan, isang 00s alumnong ng Tsinghua:

Ginamit nila ang hierarchical recurrent model (HRM) upang palitan ang standard na Transformer, at ipinakilala ang epektibong pre-training na HRM-Text na hihigit sa Scaling.

Tsinghua

Link ng papel: https://arxiv.org/abs/2605.20613

Sa paggamit lamang ng humigit-kumulang 100-900 beses na mas kaunting training token at 96-432 beses na mas kaunting hinuhulaang computation kaysa sa standard baseline model, nakamit ng HRM-Text ang isang performance na kasing-lakas ng mga open-source model na may 2B hanggang 7B parameters.

Samantala, gamit ang 1B na parameter, 40B na non-repeating token, at isang training cost na halos $1,500, nakamit ng HRM-Text ang mga sumusunod na resulta sa mga pangunahing benchmark: MMLU 60.7%, ARC-C 81.9%, DROP 82.2%, GSM8K 84.5%, MATH 56.2%.

Tsinghua

Litratong nagpapakita ng epekto ng pre-training.

Sa batayang ito, sinasabi nila nang malinaw: ang struktural na priyoridad at ang may layuning tuntunin sa pagtuturo ay maaaring makabawas nang malaki sa hadlang sa pre-training. Ang scheme ng pagtuturo na ito ay maaaring gawing posible ang pagtatapos ng base model mula sa sero.

Paano isinagawa ang HRM-Text?

Ang pre-training ng malalaking language models (LLM) ay nagsisigla na sa ilang kaunting institusyon na may sapat na computing power at mga yunit ng data. Ang pag-train ng isang kompetitibong base model ay kadalasang nangangailangan ng ilang trilyon na token, libo-libong GPU, at kahit milyon-milyon dolyar na pag-invest sa computing power.

Gayunpaman, ang kasalukuyang training mode ay hindi epektibo, dahil ang malaking bahagi ng computing power ay ginagastos sa mga prompt, pagpapuno ng format, at iba pang di-kaugnay na token tulad ng web noise, na nagiging sanhi na ang malaking bahagi ng training compute ay hindi diretso na naglilingkod sa inference.

Sa paggawa na ito, inayos ng team ng pananaliksik ang arkitektura at layunin sa pagtuturo upang gawing mas epektibo ang pre-training ng HRM-Text.

Arsitektura: Gumagamit ng hierarchical recurrent model na may dalawang panahon, na naghihiwalay sa pagkalkula sa mabagal na H module at mabilis na L module. Sa standard na Transformer, bawat token ay binibigyan ng isang forward pass lamang, habang ang HRM ay nagpapaluluto ng maraming recursive update sa parehong token. Ang H at L modules ay mayroon lamang kalahati ng total na recursive parameter, at ang kabuuang computation ay katumbas ng apat na recursive expansion sa parehong set ng parameter, na nagpapataas ng computation depth nang hindi nagdaragdag ng dami ng parameter.

Layunin sa pagtuturo: Huwag na gamitin ang standard na pre-training na autoregressive sa buong teksto, kundi direktang itrain sa mga pares ng utos-sagot, kalkulahin lamang ang loss sa bahagi ng sagot, at gamitin ang PrefixLM masking upang payagan ang bahagi ng utos na magkaroon ng bidirectional attention, habang ang bahagi ng sagot ay bumubuo ayon sa causal masking.

Tsinghua

Litratong nagpapakita ng HRM-Text architecture.

Upang mapabuti ang katatagan ng recursive training, ang team ng mga siyentipiko ay ipinakilala ang MagicNorm at Warmup Deep Credit Assignment.

Ang MagicNorm ay isang hybrid normalization strategy na nagpapahalaga sa asimetrinya sa depth ng forward at backward computation sa ilalim ng Truncated BPTT, na gumagamit ng PreNorm sa loob ng module at idinadagdag ang karagdagang normalization sa labas ng module upang mapabuti ang katatagan ng pagtratrabaho sa malalim na rekursibong pagtuturo.

Ang Warmup Deep Credit Assignment ay nagpapadala ng gradient lamang sa huling 2 na recursive step sa simula ng pagtuturo, at pagkatapos ay linyar na ipinapalawig hanggang sa huling 5 na step. Ang mekanismo ng pagtuturong ito ay nagpapahintulot sa modelo na mag-converge nang matatag sa mas maikling path ng credit, at pagkatapos ay paulit-ulit na isasama ang mas mahabang mga pagkakaugnay.

Paano ang epekto?

Ang mga resulta ng eksperimento ay nagpapakita na ang HRM-Text ay may malinaw na kahusayan sa efisyensiya ng arkitektura, layunin sa pagtuturo, at pangkabuuang performance.

1. Sa fixed training compute power, mas epektibo ba ang cyclic architecture?

Ang mga resulta ay nagpapakita na sa ilalim ng kondisyon na aligned na ang FLOPs, mas mahusay ang HRM 1B kaysa sa Transformer 1B, Transformer 3B, Looped Transformer 1B, at RINS 1B sa karamihan ng mga benchmark; ang pagkukumpara sa TRM ay nagpapatunay din na mas matatag ang pag-train ng HRM.

Tsinghua

Larawan｜Pagkukumpara sa performance at stability ng Transformer model. Ang HRM ay nanatiling stable sa lahat ng sukat, habang ang Transformer model ay nagkakaroon ng malubhang instability sa sukat ng 1 bilyon na parameter. Bukod dito, sa sukat ng 0.6B, ang HRM ay kailangan ng mas maliit na 2 beses na computing power kaysa sa Transformer model upang makamit ang kompetitibong performance sa karamihan ng benchmark.

2. Nakatutulong ba ang mga layunin sa pagkumpleto ng gawain at ang PrefixLM?

Ang mga eksperimento sa ablation ay nagpapakita na, sa ilalim ng kondisyon na FLOPs na aligned, ang MMLU ng 1B Transformer ay tumataas mula sa 40.55 sa standard autoregressive, patungo sa 47.72 pagkatapos idagdag ang layunin ng pagkumpleto ng gawain, 53.15 pagkatapos idagdag ang PrefixLM, at 60.73 pagkatapos palitan ang arkitektura sa HRM.

Tsinghua

Litrato | Pagkukumpara ng performance sa pagitan ng iba't ibang arkitektura ng modelo at layunin sa pagtuturo

3. Paano ang efisiyensiya ng HRM-Text kumpara sa mga kasalukuyang open model?

Nakamit ng HRM-Text 1B ang mga marka na 60.7, 81.9, 82.2, 84.5, at 56.2 sa MMLU, ARC-C, DROP, GSM8K, at MATH. Sa paggamit ng 40 bilyong unique token at 1B na parameter lamang, nakapasok ito sa performance range ng 2B hanggang 7B open-source models, kahit na mas malaki ang training budget ng karaniwang mga open model; nangangailangan ito ng pinakamaraming 900 beses na mas kaunting token at 432 beses na mas kaunting computational cost.

Tsinghua

Larawan | Mga resulta ng pagsusuri ng HRM-Text 1B kumpara sa iba pang bukas na modelo at bukas na timbang sa parehong panahon

4. Nagdala ba ang loop structure ng mas malaking effective depth?

Ang mga resulta ay nagpapakita na ang standard Transformer at Looped Transformer ay nagiging stable sa mas mababaw na mga layer, habang ang HRM ay nananatiling may mas malinaw na pagbabago sa pagitan ng blocks, mas mababang cosine similarity, at mas mataas na logit lens KL value sa mas malalim na mga layer.

Tsinghua

Larawan | Pagsusuri ng epektibong depth.

Tsinghua

Larawan｜KL Analysis ng Logit Lens sa Bawat Linya.

Kakulangan at direksyon sa hinaharap

Bagaman ipinakita ng HRM-Text ang malakas na pagganap sa mga task na may malaking pag-iisip, mayroon pa ring mga limitasyon ang paraan na ito at itinakda ang mga direksyon para sa hinaharap na pag-aaral.

1. Pagkakawala ng ugnayan sa pagitan ng "kaalaman" at "pangangatwiran"

Sa kasalukuyan, ang mas malawak na sakop ng pangkalahatang kaalaman ay patuloy na nakasalalay sa laki ng modelo at kalawakan ng data. Ang HRM-Text ay tinuruan lamang sa 40 bilyong natatanging token, at ang mga eksplisitong pinagkukunan ng kaalaman ay kumakatawan lamang sa bahagi ng mixed dataset na may pormat ng gawain. Sa hinaharap, kailangan ng mga siyentipiko na disenyo ang isang kompakto at pang-unawa na core nang hiwalay mula sa panlabas na pag-iimbak ng kaalaman, at ipagkaloob ang kalawakan ng kaalaman sa mga piniling corpus, retrieval-augmented modules, o learnable memory.

2. Adaptive Computing Time

Ang siklikong Jadwal ng HRM-Text ay nagdudulot ng mas malaking epektibong serial depth, ngunit nangangahulugan ito na ang modelo ay kailangang pagsagutan ang isang fixed bilang ng recursive steps habang inference. Sa hinaharap, isang magandang direksyon na dapat pag-aralan ay ang pagpapakilala ng mekanismo ng adaptive computation time, upang ang mga simpleng sample ay maaaring huminto nang maaga sa computation, at manatili ang buong budget ng siklikong proseso para sa mga mahirap na sample, upang bawasan ang gastos sa inference.

3. Ang sakop ng pagpapatotoo sa kasalukuyan ay limitado pa rin

Ang kasalukuyang eksperimento sa scaling ay nakakapalibot lamang sa Transformer control group na may 3B na parameter at HRM-Text na may 1B na parameter. Sinabi ng team ng mga researcher na kung maaari pa ring panatilihin ang katulad na pangunahing efficiency sa mas malaking laki ng model, kailangan pang patunayan sa mga susunod na pag-aaral.

4. PrefixLM at ang framework ng pagdededebate

Sa kasalukuyan, ang PrefixLM ay nagtataglay pa rin ng ilang mga limitasyon sa pagpapatupad. Bagaman ito ay maaaring mag-run sa mga standard na framework para sa text generation inference tulad ng vLLM, kailangan ng framework na suportahan ang custom attention mask sa prefill phase. Kung itatapos ito sa mga skenaryo ng multi-turn conversation, kailangan pa ng karagdagang disenyo para sa KV-cache mechanism, upang matiyak na ang loob ng user segment ay mananatiling bidirectional na nakikita, samantalang ang proseso ng pagbuo sa gilid ng assistant ay patuloy na sumusunod sa causal constraint.

Para sa karagdagang teknikal na detalye, tingnan ang orihinal na papel.

Ang artikulong ito ay galing sa WeChat official account na “Academic Headline” (ID: SciTouTiao), may-akda: Xia Qiansi