ByteDance Membuka Sumber Cola DLM: Model Diffusi untuk Generasi Teks

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Tim Seed dari ByteDance melepaskan Cola DLM, sebuah model difusi untuk generasi teks, pada 16 Mei (UTC+8), berdasarkan MetaEra. Model ini menggabungkan Text VAE dan block-causal DiT untuk menghasilkan teks dengan terlebih dahulu mengatur semantik tingkat tinggi. Versi open-source berskala 2B mengandung total 23 miliar parameter dan menunjukkan kinerja kuat pada delapan benchmark. Model ini tetap menjadi titik periksa penelitian, bukan model dialog, karena tidak memiliki fine-tuning instruksi atau RLHF. Seiring likuiditas dan pasar kripto terus berkembang, model semacam ini dapat memengaruhi upaya CFT (Mengatasi Pendanaan Terorisme) melalui penyaringan konten dan deteksi penipuan yang lebih baik.

Berita ME, 16 Mei (UTC+8), menurut pemantauan Beating, tim Seed ByteDance telah melepaskan Cola DLM sebagai sumber terbuka. Ini adalah serangkaian model bahasa difusi laten berkelanjutan yang berusaha menghindari jalur tetap generasi token dari kiri ke kanan pada model bahasa besar, dengan mengubah proses generasi teks menjadi mengatur semantik tingkat tinggi terlebih dahulu, lalu kembali ke teks spesifik. Inti Cola DLM adalah Text VAE + block-causal DiT. Text VAE terlebih dahulu memetakan teks diskret ke ruang laten berkelanjutan, lalu block-causal DiT mempelajari prior laten melalui Flow Matching, dan akhirnya decoder bersyarat merekonstruksi variabel laten menjadi teks. Proses difusi menangani representasi semantik laten, bukan denoising berulang pada level token. Versi sumber terbuka kali ini merupakan model tingkat 2B, dengan total sekitar 2,3 miliar parameter, di mana DiT inti memiliki 1,8 miliar parameter dan VAE tambahan memiliki 500 juta parameter. Dalam delapan evaluasi—LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, dan Story Cloze—makalah menyatakan bahwa model ini telah menunjukkan kinerja scaling yang kompetitif dengan baseline AR/LLaDA seukuran di bawah protokol evaluasi generatif terpadu, serta mencapai skor rata-rata tertinggi. Namun, saat ini masih merupakan checkpoint penelitian, bukan model percakapan siap pakai. Pihak resmi menyatakan bahwa model ini belum menjalani fine-tuning instruksi atau RLHF, dan tujuan utamanya adalah penelitian tentang bagaimana difusi laten berkelanjutan dapat digunakan untuk generasi teks. Makalah juga menunjukkan eksperimen awal dalam ekstensi ke pemodelan terpadu teks-gambar, tetapi repositori sumber terbuka kali ini hanya mencakup pipeline teks. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.