ByteDance Membuka Sumber Cola DLM: Model Diffusi untuk Penghasilan Teks

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Pasukan Seed ByteDance membuka sumber Cola DLM, satu model diffusi untuk penghasilan teks, pada 16 Mei (UTC+8), berdasarkan MetaEra. Model ini menggabungkan Text VAE dan DiT bercas blok untuk menghasilkan teks dengan terlebih dahulu mengatur semantik peringkat tinggi. Versi sumber terbuka berskala 2B mengandungi 23 bilion parameter keseluruhan dan menunjukkan prestasi yang kuat pada lapan penilaian. Ia tetap menjadi titik semak penyelidikan, bukan model dialog, kerana ia tidak mempunyai penyesuaian arahan atau RLHF. Seiring dengan perkembangan likuiditi dan pasaran kripto, model-model seperti ini mungkin mempengaruhi usaha CFT (Menghalang Pembiayaan Keganasan) melalui penyaringan kandungan dan pengesanan penipuan yang lebih baik.

Berita ME, 16 Mei (UTC+8), menurut pemantauan Beating, pasukan Seed ByteDance telah melepaskan Cola DLM secara sumber terbuka. Ini adalah satu set model bahasa penyebaran laten berterusan yang cuba mengelakkan laluan tetap model bahasa besar yang menghasilkan teks secara token demi token dari kiri ke kanan, dengan mengganti proses penghasilan teks menjadi pengaturan semantik aras tinggi terlebih dahulu, kemudian kembali kepada teks spesifik. Inti Cola DLM ialah Text VAE + block-causal DiT. Text VAE terlebih dahulu memetakan teks diskret ke ruang laten berterusan, kemudian block-causal DiT mempelajari prior laten melalui Flow Matching, dan akhirnya dekoder bersyarat mengembalikan pemboleh ubah laten kepada teks. Proses penyebaran menangani representasi semantik laten, bukan secara langsung menghapuskan bunyi pada aras token. Versi sumber terbuka ini merupakan model tahap 2B, iaitu sekitar 2.3 bilion parameter keseluruhan, dengan DiT utama sebanyak 1.8 bilion parameter dan VAE sebanyak 500 juta parameter. Dalam lapan ujian—LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, dan Story Cloze—makalah tersebut menyatakan bahawa ia telah mencapai prestasi scaling yang bersaing dengan baseline AR/LLaDA pada skala yang sama di bawah protokol ujian generatif seragam, serta mencapai skor purata akhir tertinggi. Namun, ia masih merupakan checkpoint penyelidikan dan bukan model perbualan yang boleh digunakan terus. Pihak rasmi menjelaskan bahawa model ini tidak melalui penyesuaian arahan atau RLHF, dan tujuan utamanya adalah untuk menyelidik bagaimana penyebaran laten berterusan boleh digunakan untuk penghasilan teks. Makalah tersebut juga menunjukkan eksperimen awal dalam ekspansi ke model seragam teks-gambar, tetapi repositori sumber terbuka ini hanya mengandungi saluran teks. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.