ByteDance、テキスト生成のためのディフュージョンモデル「Cola DLM」をオープンソース化

KuCoinFlash

公開時期： 2026/05/16 2:22:20

概要

ByteDanceのSeedチームは、5月16日（UTC+8）にMetaEraを基にしたテキスト生成用拡散モデル「Cola DLM」をオープンソース化しました。このモデルは、Text VAEとブロック因果DiTを組み合わせ、高レベルの意味構造をまず整理してテキストを生成します。20億規模のオープンソース版は合計230億パラメータを含み、8つのベンチマークで優れた性能を発揮しています。ただし、指示ファインチューニングやRLHFが欠如しているため、これは対話モデルではなく、あくまで研究用チェックポイントです。流動性と暗号資産市場が継続して進化する中、このようなモデルは、コンテンツスクリーニングや不正検出の向上を通じて、CFT（テロ資金供与対策）の取り組みに影響を与える可能性があります。

MEニュース：5月16日（UTC+8）、Beating監視によると、字節跳動SeedチームがCola DLMをオープンソース化しました。これは、大規模言語モデルがトークンを左から右へ逐次生成する固定パスを回避し、テキスト生成をまず高次語義を構成し、その後具体的な文字に落とし込む方式に変更しようとする連続潜在拡散言語モデルです。Cola DLMの核心はText VAE + block-causal DiTです。Text VAEはまず離散的なテキストを連続潜在空間にマッピングし、block-causal DiTはFlow Matchingを通じて潜在事前分布を学習し、最後に条件付きデコーダーが潜在変数をテキストに再構成します。拡散プロセスはトークンレベルでの反復的なノイズ除去ではなく、潜在的語義表現を処理します。今回のオープンソース版は2Bクラスのモデルで、総パラメータ数は約23億で、核心となるDiTが18億パラメータ、VAEが5億パラメータです。LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Clozeの8つのベンチマークで、論文は統一された生成評価プロトコル下で同規模のAR/LLaDAベースラインと競合可能なスケーリング性能を有し、最終平均スコアでは最良の結果を達成したと述べています。ただし、現在は研究用チェックポイントであり、直接利用可能な対話モデルではありません。公式によると、このモデルはインストラクションファインチューニングやRLHFを経ておらず、主な用途は連続潜在拡散がテキスト生成にどのように適用できるかを研究することです。論文ではテキストと画像の統一モデリングへの拡張に関する初期実験も示されていますが、今回のオープンソースリポジトリにはテキストパイプラインのみが含まれています。（出典：BlockBeats）

出典:原文を表示

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。