Ibinahagi ng ByteDance ang Cola DLM: Isang Diffusion Model para sa Text Generation

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Buksan ng Seed team ng ByteDance ang Cola DLM, isang diffusion model para sa text generation, noong May 16 (UTC+8), batay sa MetaEra. Ang model na ito ay nagpapagsama ng Text VAE at block-causal DiT upang mag-generate ng teksto sa pamamagitan ng pag-organisa muna ng mataas-anteng semantika. Ang 2B-scale na open-source na bersyon ay naglalaman ng 23 bilyong kabuuang parameter at nagpapakita ng malakas na performance sa walong benchmarks. Ito ay nananatiling isang research checkpoint, hindi isang dialogue model, dahil kulang ito sa instruction fine-tuning o RLHF. Habang patuloy na umuunlad ang liquidity at crypto markets, maaaring maapektuhan ng ganitong mga model ang mga pagsisikap sa CFT (Countering the Financing of Terrorism) sa pamamagitan ng mas mapag-isipang content screening at fraud detection.

Ayon sa ME News, noong Mayo 16 (UTC+8), ayon sa pagmamasid ng Beating, ang Seed team ng ByteDance ay nag-open source ang Cola DLM. Ito ay isang serye ng tuloy-tuloy na latent diffusion language model na nagsusubok na iwasan ang fixed path ng tradisyonal na malalaking language model na bumubuo ng token mula kaliwa patungo sa kanan, at nagpapalit ng text generation sa pamamagitan ng pag-organisa muna ng mataas na antas na semantika bago bumalik sa mga partikular na salita. Ang pangunahing bahagi ng Cola DLM ay ang Text VAE + block-causal DiT. Ang Text VAE ay una nang mapapalitan ang diskretong teksto sa tuloy-tuloy na latent space, at ang block-causal DiT ay natututunan ang latent prior sa pamamagitan ng Flow Matching, at huling inire-convert ang latent variables patungo sa teksto sa pamamagitan ng conditional decoder. Ang diffusion process ay nagtratrabaho sa latent semantic representation, hindi direktang sa token level na paulit-ulit na denoising. Ang kasalukuyang open source version ay isang 2B-class model, na may kabuuang 2.3 bilyon na parameter, kung saan ang pangunahing DiT ay may 1.8 bilyon na parameter, at may karagdagang 500 milyon na parameter sa VAE. Sa 8 pagsusuri—LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, at Story Cloze—ayon sa papel, ito ay may kakayahang kumpete sa scaling performance ng parehong laki sa AR/LLaDA baseline sa ilalim ng isang unified generative evaluation protocol, at nakamit ang pinakamataas na average score. Gayunpaman, ito ay kasalukuyang isang research checkpoint at hindi isang direktang gamitin na chat model. Ayon sa opisyal, ang model ay hindi pa pinagsanay sa instruction tuning o RLHF, at ang pangunahing layunin nito ay pag-aaral kung paano gamitin ang tuloy-tuloy na latent diffusion sa text generation. Ipinakita rin ng papel ang mga maagap na eksperimento tungkol sa pagpapalawig patungo sa unified text-image modeling, ngunit ang open source repository ay naglalaman lamang ng text pipeline. (Pinagmulan: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.