Nous Research membuka sumber Lighthouse Attention, mencapai peningkatan kelajuan 17x pada B200

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Sumber berita atas rantai MetaEra melaporkan pada 16 Mei (UTC+8) bahawa Nous Research telah membuka sumber mekanisme Lighthouse Attention untuk pra-pelatihan konteks panjang. Kaedah ini memberikan pengiraan 17 kali lebih pantas pada satu GPU B200 untuk teks panjang 512K dan kelajuan pelatihan 1.4–1.7x pada panjang 98K. Ia menggunakan proses dua langkah untuk mengelakkan pengkodean peringkat rendah atau objektif pelatihan tambahan. Dalam ujian, model dengan 530 juta parameter yang dilatih pada 50 bilion token mencapai atau melampaui kaedah tradisional sambil mengurangkan masa pelatihan. Platform berita kripto menonjolkan peningkatan kecekapan ini untuk pembangun dan penyelidik.

Pesan AIMPACT, 16 Mei (UTC+8), menurut pemantauan Beating, Nous Research telah melepaskan mekanisme pra-pelatihan konteks panjang bernama Lighthouse Attention. Semasa memproses teks sepanjang 512K pada satu kad B200, solusi ini mempercepatkan kelajuan pengiraan sebanyak kira-kira 17 kali berbanding mekanisme tradisional, serta mencapai peningkatan 1.4 hingga 1.7 kali dalam kelajuan pelatihan end-to-end pada panjang 98K. Mekanisme perhatian tradisional memerlukan pengiraan hubungan pasangan antara semua perkataan; apabila teks menjadi panjang, penggunaan kuasa pengiraan akan meningkat secara kuadratik. Lighthouse Attention menggunakan pendekatan penyaringan kasar terlebih dahulu, kemudian pengiraan tepat. Ia terlebih dahulu melihat ringkasan teks yang dikompresikan pada pelbagai peringkat, menilai dan memilih potongan penting untuk membentuk teks pendek, kemudian menghantar secara langsung kepada operator pengiraan efisien yang sedia ada, FlashAttention. Kerana logik penyaringan sepenuhnya dipisahkan dari inti, pembangun tidak perlu menulis kod bawah tanah secara manual atau menambah objektif pelatihan tambahan. Solusi percepatan serupa sebelum ini sering membawa kesan sampingan, di mana model menjadi terbiasa membaca lompat-lompat dan mudah kehilangan kemampuan membaca secara teliti perkataan demi perkataan. Untuk mengelakkan jebakan ini, pasukan pembangun membiarkan model menjalankan sebahagian besar proses pelatihan dengan mod percepatan, hanya beralih semula secara singkat ke pengiraan perhatian penuh tradisional pada akhir pelatihan untuk penyesuaian. Dalam ujian praktikal terhadap model berskala 530 juta parameter dengan 50 miliar token data latihan, model yang dilatih dengan cara ini tidak hanya mengurangkan masa secara ketara, tetapi juga mencapai prestasi yang setara atau bahkan melampaui versi garis dasar yang dilatih sepenuhnya dengan cara tradisional. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.