Ang TST Training Method ng Nous Research ay nagdulot ng kontrobersiya dahil sa pagkakatulad nito sa nakaraang gawa

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ipinakilala ng Nous Research ang isang bagong paglulunsad ng token noong Mayo 14 (UTC+8) kasama ang kanilang Token Stacking Training (TST) method, na nag-claim na nakakabawas ng 2 hanggang 3 beses ang pre-training time sa parehong computational load. Ang paraan ay nag-a-stack ng mga kapitbahay na token sa maagang pagtuturo at nagpapalaya ng mga token package kaysa sa magkakahiwalay na token. Agad na napansin ng mga kritiko ang pagkakatulad ng TST sa papel noong 2024 na 'Beyond Next Token Prediction.' Tinanggap ng team ang pagkakasalungat bilang 'unfortunate convergent research' at siniguro na magdadagdag sila ng tamang mga sanggunian. Madalas na binabale-wala ang mga bagong paglulunsad ng token, at ang kaso na ito ay hindi naman nakakalimot.

Balita ni ME, noong Mayo 14 (UTC+8), ayon sa pagmamasid ng Beating, ang Nous Research ay naglabas ng bagong paraan sa pre-training ng malalaking modelo na tinatawag na Token Stacking Training (TST). Ang paraang ito, sa pamamagitan ng pagpapakita at pagsasama ng magkakapitad na mga token sa unang bahagi ng pagtuturo, ay nakakapagpabilis ng pre-training ng 2 hanggang 3 beses sa parehong dami ng computing power. Ang TST ay binubuo ng dalawang yugto. Sa unang 20% hanggang 40% ng pagtuturo, hindi na binabasa ng modelo ang bawat token nang hiwalay, kundi pinapakita ang mga magkakapitad na token bilang isang "bundle" na kinukumpleto sa pamamagitan ng average, at sa output, itinutukoy nito kung anong mga token ang kasama sa susunod na bundle (nang hindi isinasaalang-alang ang loob na order). Pagkatapos, bumabalik ang modelo sa karaniwang paghula ng susunod na token. Dahil hindi binago ang ilalim na arkitektura, ang output na modelo ay ganap na katulad ng karaniwang modelo sa pagpapatakbo. Ang paraan ay napatunayan sa mga MoE model na may hanggang 10 bilyon na parameter. Ang esensya ng paraang ito ay "magbili ng data para sa computing power"—nagpapabilis ng pagkakasunod-sunod ng data upang mapabilis ang oras ng computing. Kung sa hinaharap ay mawawala ang mataas na kalidad na teksto, maaaring maging kahinaan ang katangiang ito sa pagpapabilis ng pagkakasunod-sunod ng data. Bukod dito, ilang oras pagkatapos ma-publish ang papel, may reader na nagturo na ang mekanismo ng TST ay napakalaking katulad sa isang lumang akda noong 2024 na pinamagatang “Beyond Next Token Prediction.” Pagkatapos ay tinanggap ng team ng may-akda sa Hugging Face na ito ay “hindi inaasahang convergent research,” at sinumpaan nilang i-update ang papel upang idagdag ang tamang pagbanggit. (Pinagmulan: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.