Nous Research membuka sumber Lighthouse Attention, mencapai peningkatan kelajuan 17x pada B200

Pesan AIMPACT, 16 Mei (UTC+8), menurut pemantauan Beating, Nous Research telah melepaskan mekanisme pra-pelatihan konteks panjang bernama Lighthouse Attention. Semasa memproses teks sepanjang 512K pada satu kad B200, solusi ini mempercepatkan kelajuan pengiraan sebanyak kira-kira 17 kali berbanding mekanisme tradisional, serta mencapai peningkatan 1.4 hingga 1.7 kali dalam kelajuan pelatihan end-to-end pada panjang 98K. Mekanisme perhatian tradisional memerlukan pengiraan hubungan pasangan antara semua perkataan; apabila teks menjadi panjang, penggunaan kuasa pengiraan akan meningkat secara kuadratik. Lighthouse Attention menggunakan pendekatan penyaringan kasar terlebih dahulu, kemudian pengiraan tepat. Ia terlebih dahulu melihat ringkasan teks yang dikompresikan pada pelbagai peringkat, menilai dan memilih potongan penting untuk membentuk teks pendek, kemudian menghantar secara langsung kepada operator pengiraan efisien yang sedia ada, FlashAttention. Kerana logik penyaringan sepenuhnya dipisahkan dari inti, pembangun tidak perlu menulis kod bawah tanah secara manual atau menambah objektif pelatihan tambahan. Solusi percepatan serupa sebelum ini sering membawa kesan sampingan, di mana model menjadi terbiasa membaca lompat-lompat dan mudah kehilangan kemampuan membaca secara teliti perkataan demi perkataan. Untuk mengelakkan jebakan ini, pasukan pembangun membiarkan model menjalankan sebahagian besar proses pelatihan dengan mod percepatan, hanya beralih semula secara singkat ke pengiraan perhatian penuh tradisional pada akhir pelatihan untuk penyesuaian. Dalam ujian praktikal terhadap model berskala 530 juta parameter dengan 50 miliar token data latihan, model yang dilatih dengan cara ini tidak hanya mengurangkan masa secara ketara, tetapi juga mencapai prestasi yang setara atau bahkan melampaui versi garis dasar yang dilatih sepenuhnya dengan cara tradisional. (Sumber: BlockBeats)