Pesan AIMPACT, 16 Mei (UTC+8), menurut pemantauan Beating, Nous Research telah melepaskan mekanisme pelatihan awal konteks panjang bernama Lighthouse Attention. Saat memproses teks sepanjang 512K pada satu kartu grafis B200, solusi ini mempercepat kecepatan komputasi sekitar 17 kali dibandingkan mekanisme tradisional, serta mencapai percepatan pelatihan end-to-end sebesar 1,4 hingga 1,7 kali pada panjang teks 98K. Mekanisme perhatian tradisional memerlukan perhitungan hubungan pasangan demi pasangan antar semua kata; semakin panjang teksnya, konsumsi daya komputasi akan meningkat secara kuadratik. Lighthouse Attention mengadopsi pendekatan penyaringan kasar terlebih dahulu, baru kemudian perhitungan presisi. Ia terlebih dahulu secara cepat menelusuri ringkasan terkompresi teks pada berbagai tingkatan, memilih fragmen inti berdasarkan skor untuk membentuk teks pendek, lalu langsung menyerahkannya ke operator efisien yang sudah ada, yaitu FlashAttention. Karena logika penyaringan benar-benar dipisahkan dari inti sistem, pengembang tidak perlu lagi menulis kode tingkat bawah secara manual maupun menambahkan tujuan pelatihan tambahan. Solusi percepatan sebelumnya yang menggunakan pendekatan serupa sering kali memiliki efek samping: model menjadi terbiasa membaca melompat-lompat dan mudah kehilangan kemampuan membaca secara teliti kata demi kata. Untuk menghindari jebakan ini, tim pengembang membiarkan model menjalankan sebagian besar proses pelatihan dengan mode percepatan, lalu hanya sesaat di akhir pelatihan beralih kembali ke perhitungan perhatian penuh tradisional untuk penyesuaian singkat. Dalam pengujian nyata terhadap model berukuran 530 juta parameter yang dilatih dengan 50 miliar token data, model yang dilatih dengan cara ini tidak hanya secara signifikan memperpendek waktu pelatihan, tetapi juga mencapai kinerja yang setara bahkan melampaui versi baseline yang dilatih sepenuhnya dengan metode tradisional. (Sumber: BlockBeats)
Nous Research membuka sumber Lighthouse Attention, mencapai peningkatan kecepatan 17x pada B200
KuCoinFlashBagikan






Media berita on-chain MetaEra melaporkan pada 16 Mei (UTC+8) bahwa Nous Research telah melepaskan mekanisme Lighthouse Attention untuk pre-training konteks panjang secara open-source. Metode ini memberikan komputasi 17x lebih cepat pada satu GPU B200 untuk teks sepanjang 512K dan kecepatan pelatihan 1,4–1,7x pada panjang 98K. Metode ini menggunakan proses dua langkah untuk menghindari pemrograman tingkat rendah atau tujuan pelatihan tambahan. Dalam pengujian, model dengan 530 juta parameter yang dilatih pada 50 miliar token mencapai atau melampaui metode tradisional sambil mengurangi waktu pelatihan. Platform berita kripto menyoroti peningkatan efisiensi bagi pengembang dan peneliti.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.