ByteDance open-source Cola DLM : un modèle de diffusion pour la génération de texte

KuCoinFlash

Date de parution : 16/05/2026 02:22:20

Résumé

L'équipe Seed de ByteDance a open-sourcé Cola DLM, un modèle de diffusion pour la génération de texte, le 16 mai (UTC+8), basé sur MetaEra. Le modèle combine un Text VAE et un DiT bloc-causal pour générer du texte en organisant d'abord les sémantiques de haut niveau. La version open-source à l'échelle de 2 milliards contient 23 milliards de paramètres au total et affiche de bonnes performances sur huit benchmarks. Il reste un point de contrôle de recherche, et non un modèle de dialogue, car il ne dispose pas d'un fine-tuning par instruction ni de RLHF. Alors que la liquidité et les marchés cryptos continuent d'évoluer, de tels modèles pourraient influencer les efforts de lutte contre le financement du terrorisme (CFT) grâce à une détection améliorée des contenus et des fraudes.

Selon les nouvelles de ME, le 16 mai (UTC+8), selon le suivi de Beating, l'équipe Seed de ByteDance a open-sourcé Cola DLM. Il s'agit d'un modèle de langage à diffusion latente continue qui cherche à contourner le chemin fixe des grands modèles de langage consistant à générer les tokens un par un de gauche à droite, en remplaçant la génération de texte par une approche en deux étapes : d'abord organiser la sémantique de haut niveau, puis revenir aux mots concrets. Le cœur de Cola DLM repose sur Text VAE + block-causal DiT. Text VAE mappe d'abord le texte discret dans un espace latent continu, puis block-causal DiT apprend la priori latente via Flow Matching, avant que le décodeur conditionnel ne reconstruise le texte à partir des variables latentes. Le processus de diffusion opère sur des représentations sémantiques latentes, et non sur un bruitage répété au niveau des tokens. La version open-sourcée actuelle est un modèle de taille 2B, soit environ 2,3 milliards de paramètres au total, dont 1,8 milliard pour le DiT central et 500 millions pour le VAE. Sur huit évaluations — LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD et Story Cloze — l'article affirme que, dans un protocole d'évaluation générative unifié, il atteint des performances d'échelle comparables aux modèles AR/LLaDA de même taille, et obtient les meilleurs scores moyens finaux. Toutefois, il s'agit actuellement uniquement d'un checkpoint de recherche et non d'un modèle de dialogue directement utilisable. L'équipe officielle précise que ce modèle n'a pas été fine-tuné sur des instructions ni soumis à RLHF ; son usage principal est la recherche sur l'application de la diffusion latente continue à la génération de texte. L'article présente également des expériences préliminaires sur l'extension vers une modélisation unifiée texte-image, mais le dépôt open-sourcé actuel ne contient que la pipeline textuelle. (Source : BlockBeats)

Source:Afficher l'original

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.