Nous Research membuka sumber Lighthouse Attention, mencapai peningkatan kecepatan 17x pada B200

Pesan AIMPACT, 16 Mei (UTC+8), menurut pemantauan Beating, Nous Research telah melepaskan mekanisme pelatihan awal konteks panjang bernama Lighthouse Attention. Saat memproses teks sepanjang 512K pada satu kartu grafis B200, solusi ini mempercepat kecepatan komputasi sekitar 17 kali dibandingkan mekanisme tradisional, serta mencapai percepatan pelatihan end-to-end sebesar 1,4 hingga 1,7 kali pada panjang teks 98K. Mekanisme perhatian tradisional memerlukan perhitungan hubungan pasangan demi pasangan antar semua kata; semakin panjang teksnya, konsumsi daya komputasi akan meningkat secara kuadratik. Lighthouse Attention mengadopsi pendekatan penyaringan kasar terlebih dahulu, baru kemudian perhitungan presisi. Ia terlebih dahulu secara cepat menelusuri ringkasan terkompresi teks pada berbagai tingkatan, memilih fragmen inti berdasarkan skor untuk membentuk teks pendek, lalu langsung menyerahkannya ke operator efisien yang sudah ada, yaitu FlashAttention. Karena logika penyaringan benar-benar dipisahkan dari inti sistem, pengembang tidak perlu lagi menulis kode tingkat bawah secara manual maupun menambahkan tujuan pelatihan tambahan. Solusi percepatan sebelumnya yang menggunakan pendekatan serupa sering kali memiliki efek samping: model menjadi terbiasa membaca melompat-lompat dan mudah kehilangan kemampuan membaca secara teliti kata demi kata. Untuk menghindari jebakan ini, tim pengembang membiarkan model menjalankan sebagian besar proses pelatihan dengan mode percepatan, lalu hanya sesaat di akhir pelatihan beralih kembali ke perhitungan perhatian penuh tradisional untuk penyesuaian singkat. Dalam pengujian nyata terhadap model berukuran 530 juta parameter yang dilatih dengan 50 miliar token data, model yang dilatih dengan cara ini tidak hanya secara signifikan memperpendek waktu pelatihan, tetapi juga mencapai kinerja yang setara bahkan melampaui versi baseline yang dilatih sepenuhnya dengan metode tradisional. (Sumber: BlockBeats)