Inilabas ng Nous Research ang Lighthouse Attention, nakamit ang 17x pagtaas ng bilis sa B200

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ipinahayag ng on-chain news outlet na MetaEra noong Mayo 16 (UTC+8) na ang Nous Research ay nag-open source ng kanilang Lighthouse Attention mechanism para sa long-context pre-training. Ang paraan ay nagdadala ng 17x mas mabilis na computation sa isang B200 GPU para sa 512K-length na teksto at 1.4–1.7x na bilis sa pag-train sa 98K-length. Gumagamit ito ng isang dalawang-hakbang na proseso upang maiwasan ang low-level coding o karagdagang training objectives. Sa mga pagsubok, ang isang 530M-parameter na modelong itinuturo sa 50B tokens ay tumugma o lumampas sa tradisyonal na mga paraan habang binabawasan ang oras sa pag-train. Ipinapakita ng mga platform ng crypto news ang mga pagpapabuti sa efficiency para sa mga developer at researcher.

Mensahe ni AIMPACT, Ika-16 ng Mayo (UTC+8), ayon sa pagmamasid ng Beating, ang Nous Research ay nag-open source ng mekanismo ng pre-training na may mahabang konteksto na Lighthouse Attention. Sa pagtratamento ng teksto na may haba na 512K sa isang B200 GPU, mas mabilis ang solusyong ito ng halos 17 beses kumpara sa tradisyonal na mekanismo, at nakamit nito ang pagpapabilis ng 1.4 hanggang 1.7 beses sa end-to-end training sa haba na 98K. Ang tradisyonal na mekanismo ng attention ay kailangang kalkulahin ang lahat ng pares ng mga salita, at ang pagtaas ng haba ng teksto ay nagdudulot ng pagtaas na nasa square law. Ang Lighthouse Attention ay gumagamit ng ideya na una ay mag-gross screening, tapos mag-precise calculation. Una itong mabilis na binabasa ang kompresyon ng teksto sa iba’t ibang antas, pinapili ang mga pangunahing segment gamit ang scoring, at pinagsasama upang mabuo ang maikling teksto, na sinasaliksik nang direkta ng umiiral na epektibong operator na FlashAttention. Dahil sa paghihiwalay ng logic sa pagpili sa labas ng kernel, ang mga developer ay nakakaiwas sa pagkakasulat ng maliit na code at hindi kailangang dagdagan ang karagdagang target sa training. Ang mga dating solusyong gumagamit ng katulad na ideya ay madalas ay may mga negatibong epekto, kung saan ang modelo ay madaling nawawala sa kakayahang basahin nang detalyado nang buong teksto pagkatapos magsanay sa paglalaro. Upang maiwasan ang trap na ito, ang koponan ng pag-aaral ay pinapagana ang modelo sa accelerated mode para sa karamihan ng proseso, at nagbabalik lamang sa tradisyonal na buong attention computation para sa maikling panahon sa dulo ng training. Sa pagsusuri sa isang modelo na may 530 milyong parameter at 50 bilyong token ng training data, ang modelo na ito ay hindi lamang nagbawas nang malaki sa oras, kundi pati na rin ang kanyang huling performans ay naging pantay o higit pa kaysa sa baseline version na sinanay nang buo gamit ang tradisyonal na paraan. (Pinagmulan: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.