Ibinahagi ng ByteDance ang Cola DLM: Isang Diffusion Model para sa Text Generation

Ayon sa ME News, noong Mayo 16 (UTC+8), ayon sa pagmamasid ng Beating, ang Seed team ng ByteDance ay nag-open source ang Cola DLM. Ito ay isang serye ng tuloy-tuloy na latent diffusion language model na nagsusubok na iwasan ang fixed path ng tradisyonal na malalaking language model na bumubuo ng token mula kaliwa patungo sa kanan, at nagpapalit ng text generation sa pamamagitan ng pag-organisa muna ng mataas na antas na semantika bago bumalik sa mga partikular na salita. Ang pangunahing bahagi ng Cola DLM ay ang Text VAE + block-causal DiT. Ang Text VAE ay una nang mapapalitan ang diskretong teksto sa tuloy-tuloy na latent space, at ang block-causal DiT ay natututunan ang latent prior sa pamamagitan ng Flow Matching, at huling inire-convert ang latent variables patungo sa teksto sa pamamagitan ng conditional decoder. Ang diffusion process ay nagtratrabaho sa latent semantic representation, hindi direktang sa token level na paulit-ulit na denoising. Ang kasalukuyang open source version ay isang 2B-class model, na may kabuuang 2.3 bilyon na parameter, kung saan ang pangunahing DiT ay may 1.8 bilyon na parameter, at may karagdagang 500 milyon na parameter sa VAE. Sa 8 pagsusuri—LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, at Story Cloze—ayon sa papel, ito ay may kakayahang kumpete sa scaling performance ng parehong laki sa AR/LLaDA baseline sa ilalim ng isang unified generative evaluation protocol, at nakamit ang pinakamataas na average score. Gayunpaman, ito ay kasalukuyang isang research checkpoint at hindi isang direktang gamitin na chat model. Ayon sa opisyal, ang model ay hindi pa pinagsanay sa instruction tuning o RLHF, at ang pangunahing layunin nito ay pag-aaral kung paano gamitin ang tuloy-tuloy na latent diffusion sa text generation. Ipinakita rin ng papel ang mga maagap na eksperimento tungkol sa pagpapalawig patungo sa unified text-image modeling, ngunit ang open source repository ay naglalaman lamang ng text pipeline. (Pinagmulan: BlockBeats)