Ibinabahagi ni Sapient ang 1B-parameter HRM-Text model na may 1,300x mas mababang gastos sa pagtuturo

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ipinahayag ng Sapient Intelligence ang on-chain news noong Mayo 19 (UTC+8), na nagbubukas ng HRM-Text, isang text model na may 1B parameter at hierarchical reasoning architecture. Gumagamit ang model ng latent space reasoning upang bawasan ang mga gastos sa pre-training ng 130 hanggang 600 beses. Ipinagtrabaho ito sa 40B structured tokens, isang maliit na bahagi ng data na ginamit ng mga katulad na model. Ang bersyon na 1B ay maaaring itrain sa 46 oras para sa $1,472 gamit ang dalawang 8-GPU H100 servers. Ang bersyon na 0.6B ay nagkakahalaga ng $800. Ang buong engineering framework, kabilang ang data extraction at PyTorch training, ay kinauukulan din. Ang inflation data at training efficiency ay mga pangunahing highlight sa paglabas na ito.

Mensahe ng AIMPACT, Mayo 19 (UTC+8), ayon sa pagmamasid ng Beating, ang Sapient Intelligence ay nag-open source ng 1 bilyon parameter (1B) na pangunahing modelo sa paggawa ng teksto na HRM-Text. Ito ay isang purong pre-trained na modelo batay sa arkitekturang Hierarchical Reasoning Model (HRM). Ipinababa nito ang pagkakagastos sa compute sa pre-training ng base model ng 130 hanggang 600 beses sa pamamagitan ng pagpapakilala ng latent space reasoning sa ilalim ng arkitektura. Sa partikular, natapos ng HRM-Text ang pre-training gamit lamang ang 40 bilyon (40B) na structured Token, na halos isang libo na bahagi ng dami ng data ng karaniwang modelo sa parehong antas. Ayon sa pagsusuri ng opisyal, maaaring matapos ang 1B na bersyon mula sa zero gamit ang dalawang server na may 8 H100 GPUs sa loob ng halos 46 na oras, na may gastos sa compute na humigit-kumulang $1,472; samantalang ang 0.6B na bersyon ay kailangan lamang ng 50 oras sa isang node, na may hardware cost na humigit-kumulang $800. Ang buong engineering framework, kabilang ang data extraction, sequence packing, at PyTorch distributed training, ay ipinakalabas din nang sabay-sabay. Ang suporta sa napakababang gastos ay nakabatay sa natatanging Dual-timescale recurrent design. Ang modelo ay may dalawang set ng Transformer modules—mabilis (mababang antas) at mabagal (taas na antas)—na nag-iiterate nang luwalhati sa parehong batch ng input at nagpapalitan ng impormasyon sa pamamagitan ng pagdaragdag ng estado. Ang disenyo na ito ay nagpapahintulot sa modelo na dinamikong palawakin ang computation depth sa pamamagitan ng pagdami ng bilang ng mga iterasyon habang nananatiling fixed ang kabuuang bilang ng physical parameters. Ang malaking pagbaba sa hadlang sa pre-training ay nagbibigay muli ng pagkakataon para sa maraming teorya ng modelo na dati’y iniiwan dahil sa mataas na compute cost. Mahalagang tandaan na ang inilabas lamang ay ang mga pre-trained weights na hindi pa aligned; ang modelo ay kaya lang magawa ang prefix continuation task at hindi direktang gamitin bilang isang assistant sa tanong-tugon. (Pinagmulan: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.