Kaedah Latihan TST Nous Research memicu kontroversi berikutan persamaan dengan karya sebelumnya

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Nous Research mengumumkan berita pelancaran token baru dengan kaedah Token Stacking Training (TST) pada 14 Mei (UTC+8), dengan mengklaim ia mengurangkan masa pra-pelatihan sebanyak 2 hingga 3 kali ganda di bawah beban komputasi yang sama. Kaedah ini menggabungkan token bersebelahan semasa pelatihan awal dan meramal pakej token bukan token tunggal. Kritikus segera memperhatikan persamaan TST dengan kertas kerja 2024 'Beyond Next Token Prediction'. Pasukan tersebut mengakui tumpang tindih tersebut sebagai 'penyelidikan bersama yang tidak diingini' dan berjanji akan menambah rujukan yang sesuai. Pelancaran token baru sering menarik perhatian kritikal, dan kes ini tidak terkecuali.

Berita ME, 14 Mei (UTC+8), menurut pemantauan Beating, Nous Research telah melancarkan skema baharu untuk pra-pelatihan model besar bernama Token Stacking Training (TST). Skema ini mempercepatkan masa pra-pelatihan hingga 2 hingga 3 kali ganda dengan jumlah pengiraan yang sama, dengan menggabungkan dan memampatkan token bersebelahan pada peringkat awal pelatihan. TST terdiri daripada dua peringkat. Dalam 20% hingga 40% pertama pelatihan, model tidak lagi membaca token satu per satu, tetapi menggabungkan token bersebelahan, mengira puratanya, dan memasukkannya sebagai input, sambil meramal token mana yang akan muncul dalam paket seterusnya (tanpa mengambil kira urutan dalaman). Selepas itu, model kembali kepada ramalan token seterusnya biasa. Kerana tiada perubahan terhadap arsitektur asas, model yang dihasilkan mempunyai prestasi inferens yang sama dengan model biasa. Kaedah ini telah diuji berjaya pada model MoE sehingga 10 bilion parameter. Inti skema ini ialah "menukar data dengan kekuatan pengiraan", dengan mempercepatkan penggunaan korpus untuk mengurangkan masa pengiraan. Namun, jika teks berkualiti tinggi kelak habis, ciri mempercepatkan penggunaan data ini mungkin menjadi kelemahan. Selain itu, beberapa jam selepas penulisan makalah diterbitkan, pembaca menunjukkan bahawa mekanisme TST sangat serupa dengan karya lama tahun 2024 berjudul "Beyond Next Token Prediction". Tim pengarang kemudian mengakui di Hugging Face bahawa ini adalah "penyelidikan konvergen yang tidak diingini" dan berjanji untuk mengemas kini makalah dengan menyertakan rujukan yang sesuai. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.