Ibinabahagi ni Sapient ang 1B-parameter HRM-Text model na may 1,300x mas mababang gastos sa pagtuturo

Mensahe ng AIMPACT, Mayo 19 (UTC+8), ayon sa pagmamasid ng Beating, ang Sapient Intelligence ay nag-open source ng 1 bilyon parameter (1B) na pangunahing modelo sa paggawa ng teksto na HRM-Text. Ito ay isang purong pre-trained na modelo batay sa arkitekturang Hierarchical Reasoning Model (HRM). Ipinababa nito ang pagkakagastos sa compute sa pre-training ng base model ng 130 hanggang 600 beses sa pamamagitan ng pagpapakilala ng latent space reasoning sa ilalim ng arkitektura. Sa partikular, natapos ng HRM-Text ang pre-training gamit lamang ang 40 bilyon (40B) na structured Token, na halos isang libo na bahagi ng dami ng data ng karaniwang modelo sa parehong antas. Ayon sa pagsusuri ng opisyal, maaaring matapos ang 1B na bersyon mula sa zero gamit ang dalawang server na may 8 H100 GPUs sa loob ng halos 46 na oras, na may gastos sa compute na humigit-kumulang $1,472; samantalang ang 0.6B na bersyon ay kailangan lamang ng 50 oras sa isang node, na may hardware cost na humigit-kumulang $800. Ang buong engineering framework, kabilang ang data extraction, sequence packing, at PyTorch distributed training, ay ipinakalabas din nang sabay-sabay. Ang suporta sa napakababang gastos ay nakabatay sa natatanging Dual-timescale recurrent design. Ang modelo ay may dalawang set ng Transformer modules—mabilis (mababang antas) at mabagal (taas na antas)—na nag-iiterate nang luwalhati sa parehong batch ng input at nagpapalitan ng impormasyon sa pamamagitan ng pagdaragdag ng estado. Ang disenyo na ito ay nagpapahintulot sa modelo na dinamikong palawakin ang computation depth sa pamamagitan ng pagdami ng bilang ng mga iterasyon habang nananatiling fixed ang kabuuang bilang ng physical parameters. Ang malaking pagbaba sa hadlang sa pre-training ay nagbibigay muli ng pagkakataon para sa maraming teorya ng modelo na dati’y iniiwan dahil sa mataas na compute cost. Mahalagang tandaan na ang inilabas lamang ay ang mga pre-trained weights na hindi pa aligned; ang modelo ay kaya lang magawa ang prefix continuation task at hindi direktang gamitin bilang isang assistant sa tanong-tugon. (Pinagmulan: BlockBeats)