Inilabas ng Nous Research ang Lighthouse Attention, nakamit ang 17x pagtaas ng bilis sa B200

Mensahe ni AIMPACT, Ika-16 ng Mayo (UTC+8), ayon sa pagmamasid ng Beating, ang Nous Research ay nag-open source ng mekanismo ng pre-training na may mahabang konteksto na Lighthouse Attention. Sa pagtratamento ng teksto na may haba na 512K sa isang B200 GPU, mas mabilis ang solusyong ito ng halos 17 beses kumpara sa tradisyonal na mekanismo, at nakamit nito ang pagpapabilis ng 1.4 hanggang 1.7 beses sa end-to-end training sa haba na 98K. Ang tradisyonal na mekanismo ng attention ay kailangang kalkulahin ang lahat ng pares ng mga salita, at ang pagtaas ng haba ng teksto ay nagdudulot ng pagtaas na nasa square law. Ang Lighthouse Attention ay gumagamit ng ideya na una ay mag-gross screening, tapos mag-precise calculation. Una itong mabilis na binabasa ang kompresyon ng teksto sa iba’t ibang antas, pinapili ang mga pangunahing segment gamit ang scoring, at pinagsasama upang mabuo ang maikling teksto, na sinasaliksik nang direkta ng umiiral na epektibong operator na FlashAttention. Dahil sa paghihiwalay ng logic sa pagpili sa labas ng kernel, ang mga developer ay nakakaiwas sa pagkakasulat ng maliit na code at hindi kailangang dagdagan ang karagdagang target sa training. Ang mga dating solusyong gumagamit ng katulad na ideya ay madalas ay may mga negatibong epekto, kung saan ang modelo ay madaling nawawala sa kakayahang basahin nang detalyado nang buong teksto pagkatapos magsanay sa paglalaro. Upang maiwasan ang trap na ito, ang koponan ng pag-aaral ay pinapagana ang modelo sa accelerated mode para sa karamihan ng proseso, at nagbabalik lamang sa tradisyonal na buong attention computation para sa maikling panahon sa dulo ng training. Sa pagsusuri sa isang modelo na may 530 milyong parameter at 50 bilyong token ng training data, ang modelo na ito ay hindi lamang nagbawas nang malaki sa oras, kundi pati na rin ang kanyang huling performans ay naging pantay o higit pa kaysa sa baseline version na sinanay nang buo gamit ang tradisyonal na paraan. (Pinagmulan: BlockBeats)