Metode Pelatihan TST dari Nous Research Memicu Kontroversi karena Kemiripannya dengan Karya Sebelumnya

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Nous Research mengungkapkan berita peluncuran token baru dengan metode Token Stacking Training (TST) pada 14 Mei (UTC+8), mengklaim bahwa metode ini memangkas waktu pra-pelatihan hingga 2 hingga 3 kali lipat di bawah beban komputasi yang sama. Metode ini menyusun token-token yang berdekatan selama pelatihan awal dan memprediksi paket token alih-alih token tunggal. Para kritikus segera mencatat kemiripan TST dengan makalah tahun 2024 berjudul 'Beyond Next Token Prediction'. Tim tersebut mengakui tumpang tindih tersebut sebagai 'penelitian konvergen yang tidak diinginkan' dan berjanji akan menambahkan kutipan yang tepat. Peluncuran token baru sering menarik perhatian kritis, dan kasus ini tidak terkecuali.

Berita ME, 14 Mei (UTC+8), menurut pemantauan Beating, Nous Research meluncurkan skema baru pelatihan pra-pelatihan model besar bernama Token Stacking Training (TST). Skema ini memperpendek waktu pra-pelatihan hingga 2 hingga 3 kali lipat dengan jumlah komputasi yang sama, dengan cara mengompresi dan menggabungkan token yang berdekatan pada tahap awal pelatihan. TST terdiri dari dua tahap. Pada 20% hingga 40% pertama pelatihan, model tidak lagi membaca token satu per satu, melainkan menggabungkan token yang berdekatan, menghitung rata-ratanya, lalu memasukkannya sebagai input, sambil memprediksi di ujung output token-token apa saja yang akan muncul di paket berikutnya (tanpa memperhatikan urutan internal). Setelah itu, model kembali ke prediksi token berikutnya secara konvensional. Karena tidak mengubah arsitektur dasar, model yang dihasilkan memiliki perilaku inferensi yang identik dengan model biasa. Metode ini telah diverifikasi pada model MoE hingga 10 miliar parameter. Inti dari skema ini adalah "menukar data dengan daya komputasi", dengan mempercepat konsumsi korpus untuk menghemat waktu komputasi. Namun, jika pada masa depan teks berkualitas tinggi habis, sifatnya yang mempercepat konsumsi data bisa menjadi kelemahan. Selain itu, beberapa jam setelah publikasi makalah, seorang pembaca menunjukkan bahwa mekanisme TST sangat mirip dengan karya lama tahun 2024 berjudul "Beyond Next Token Prediction". Tim penulis kemudian mengakui di Hugging Face bahwa ini adalah "konvergensi penelitian yang tidak diinginkan (convergent research)" dan berjanji akan memperbarui makalah dengan menambahkan kutipan yang relevan. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.