ByteDance Membuka Sumber Cola DLM: Model Diffusi untuk Generasi Teks

Berita ME, 16 Mei (UTC+8), menurut pemantauan Beating, tim Seed ByteDance telah melepaskan Cola DLM sebagai sumber terbuka. Ini adalah serangkaian model bahasa difusi laten berkelanjutan yang berusaha menghindari jalur tetap generasi token dari kiri ke kanan pada model bahasa besar, dengan mengubah proses generasi teks menjadi mengatur semantik tingkat tinggi terlebih dahulu, lalu kembali ke teks spesifik. Inti Cola DLM adalah Text VAE + block-causal DiT. Text VAE terlebih dahulu memetakan teks diskret ke ruang laten berkelanjutan, lalu block-causal DiT mempelajari prior laten melalui Flow Matching, dan akhirnya decoder bersyarat merekonstruksi variabel laten menjadi teks. Proses difusi menangani representasi semantik laten, bukan denoising berulang pada level token. Versi sumber terbuka kali ini merupakan model tingkat 2B, dengan total sekitar 2,3 miliar parameter, di mana DiT inti memiliki 1,8 miliar parameter dan VAE tambahan memiliki 500 juta parameter. Dalam delapan evaluasi—LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, dan Story Cloze—makalah menyatakan bahwa model ini telah menunjukkan kinerja scaling yang kompetitif dengan baseline AR/LLaDA seukuran di bawah protokol evaluasi generatif terpadu, serta mencapai skor rata-rata tertinggi. Namun, saat ini masih merupakan checkpoint penelitian, bukan model percakapan siap pakai. Pihak resmi menyatakan bahwa model ini belum menjalani fine-tuning instruksi atau RLHF, dan tujuan utamanya adalah penelitian tentang bagaimana difusi laten berkelanjutan dapat digunakan untuk generasi teks. Makalah juga menunjukkan eksperimen awal dalam ekstensi ke pemodelan terpadu teks-gambar, tetapi repositori sumber terbuka kali ini hanya mencakup pipeline teks. (Sumber: BlockBeats)