ByteDance abre o código do Cola DLM: Um modelo de difusão para geração de texto

Notícia da ME, 16 de maio (UTC+8): De acordo com o monitoramento da Beating, a equipe Seed da ByteDance lançou o Cola DLM como código aberto. Trata-se de um modelo de linguagem de difusão latente contínua que busca contornar o caminho fixo de geração sequencial de tokens de esquerda para direita nos grandes modelos de linguagem, transformando a geração de texto em um processo que primeiro organiza a semântica de alto nível e depois retorna às palavras específicas. O núcleo do Cola DLM consiste em Text VAE + block-causal DiT. O Text VAE mapeia primeiro o texto discreto para um espaço latente contínuo, e o block-causal DiT aprende a priori latente por meio do Flow Matching, finalmente reconstruindo o texto por meio de um decodificador condicional. O processo de difusão opera sobre representações semânticas latentes, e não realiza desruído repetidamente no nível dos tokens. A versão de código aberto atual é um modelo de escala 2B, com aproximadamente 2,3 bilhões de parâmetros totais, dos quais 1,8 bilhão pertencem ao DiT central e 500 milhões ao VAE. Em oito avaliações — LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD e Story Cloze — o artigo afirma que, sob um protocolo unificado de avaliação gerativa, o modelo já apresenta desempenho de escala competitivo em relação a baselines AR/LLaDA de mesma escala, alcançando o melhor resultado médio final. No entanto, trata-se atualmente apenas de um checkpoint de pesquisa e não é um modelo de diálogo diretamente utilizável. A equipe oficial esclarece que o modelo não passou por fine-tuning por instruções nem por RLHF; seu principal propósito é pesquisar como a difusão latente contínua pode ser aplicada à geração de texto. O artigo também apresenta experimentos preliminares na extensão para modelagem unificada texto-imagem, mas o repositório de código aberto atual contém apenas a tubulação de texto. (Fonte: BlockBeats)