字節跳動開源 Cola DLM：一種用於文本生成的擴散模型

KuCoinFlash

發佈時間： 16/05/2026 02:22:20

精華摘要

ByteDance 的 Seed 團隊於 5 月 16 日（UTC+8）基於 MetaEra 開源了 Cola DLM，這是一種用於文本生成的擴散模型。該模型結合了 Text VAE 和 block-causal DiT，先組織高層語義，再生成文本。2B 規模的開源版本共包含 230 億個參數，在八個基準測試中表現出色。它仍屬於研究檢查點，而非對話模型，因其缺乏指令微調或 RLHF。隨著流動性與加密貨幣市場持續演變，此類模型可能透過提升內容篩選與詐騙偵測，影響反恐融資（CFT）工作。

ME News 消息，5 月 16 日（UTC+8），據動察 Beating 監測，字節跳動 Seed 團隊開源 Cola DLM。這是一套連續潛在擴散語言模型，試圖繞過大語言模型按 token 從左到右逐個生成的固定路徑，將文本生成改為先組織高層語義、再落回具體文字。Cola DLM 的核心是 Text VAE + block-causal DiT。Text VAE 先把離散文本映射到連續潛在空間，block-causal DiT 再通過 Flow Matching 學習潛在先驗，最後由條件解碼器把潛在變量還原成文本。擴散過程處理的是潛在語義表示，而非直接在 token 層面反覆去噪。本次開源版本屬於 2B 級模型，具體為約 23 億總參數，其中核心 DiT 為 18 億參數，另含 5 億參數 VAE。在 LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Cloze 等 8 項評測中，論文稱其在統一生成式評測協議下已具備與同規模 AR / LLaDA 基線競爭的 scaling 表現，並在最終平均分上達到最好結果。不過目前仍是研究型 checkpoint，不是直接可用的對話模型。官方說明該模型沒有經過指令微調和 RLHF，主要用途是研究連續潛在擴散如何用於文本生成。論文還展示了向文本圖像統一建模擴展的初步實驗，但本次開源倉庫只包含文本管線。（來源：BlockBeats）

來源:顯示原文

免責聲明：本頁面資訊可能來自第三方，不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用，不構成任何形式的陳述或保證，也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏，或因使用該資訊而導致的任何結果不承擔任何責任。虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息，請參閱我們的使用條款和風險披露。