ByteDance libera Cola DLM: un modelo de difusión para generación de texto

Noticias de ME, 16 de mayo (UTC+8): según el monitoreo de Beating, el equipo Seed de ByteDance ha lanzado como código abierto Cola DLM. Se trata de un modelo de lenguaje de difusión latente continua que busca evitar la ruta fija de generación token por token de izquierda a derecha en los grandes modelos de lenguaje, transformando la generación de texto en un proceso que primero organiza la semántica de alto nivel y luego se concreta en palabras específicas. El núcleo de Cola DLM es Text VAE + block-causal DiT. Text VAE primero mapea el texto discreto a un espacio latente continuo, y luego block-causal DiT aprende la prior latente mediante Flow Matching, finalmente, un decodificador condicional reconstruye el texto a partir de las variables latentes. El proceso de difusión opera sobre representaciones semánticas latentes, no sobre el nivel de tokens mediante desruido repetitivo. La versión de código abierto actual corresponde a un modelo de escala 2B, con aproximadamente 2.3 mil millones de parámetros totales, de los cuales 1.8 mil millones corresponden al DiT central y 500 millones al VAE. En ocho evaluaciones —LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD y Story Cloze— el artículo afirma que, bajo un protocolo unificado de evaluación generativa, ya logra un rendimiento de escalado competitivo frente a modelos AR/LLaDA de igual escala, obteniendo el mejor puntaje promedio final. Sin embargo, actualmente sigue siendo un checkpoint de investigación y no un modelo de conversación directamente utilizable. El equipo oficial indica que este modelo no ha sido fine-tuneado con instrucciones ni sometido a RLHF; su propósito principal es investigar cómo la difusión latente continua puede aplicarse a la generación de texto. El artículo también presenta experimentos preliminares sobre la extensión hacia una modelación unificada texto-imagen, pero el repositorio de código abierto actual solo incluye la tubería de texto. (Fuente: BlockBeats)