ByteDance abre o código do Cola DLM: Um modelo de difusão para geração de texto

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A equipe Seed da ByteDance lançou o Cola DLM, um modelo de difusão para geração de texto, em 16 de maio (UTC+8), baseado no MetaEra. O modelo combina um Text VAE e um DiT bloqueado-causal para gerar texto, primeiro organizando semânticas de alto nível. A versão de código aberto de escala 2B contém 23 bilhões de parâmetros totais e apresenta desempenho robusto em oito benchmarks. Ele permanece como um ponto de verificação de pesquisa, não sendo um modelo de diálogo, pois não possui fine-tuning por instruções nem RLHF. À medida que a liquidez e os mercados de criptomoedas continuam a evoluir, tais modelos podem influenciar esforços de CFT (Combate ao Financiamento do Terrorismo) por meio da melhoria na triagem de conteúdo e detecção de fraudes.

Notícia da ME, 16 de maio (UTC+8): De acordo com o monitoramento da Beating, a equipe Seed da ByteDance lançou o Cola DLM como código aberto. Trata-se de um modelo de linguagem de difusão latente contínua que busca contornar o caminho fixo de geração sequencial de tokens de esquerda para direita nos grandes modelos de linguagem, transformando a geração de texto em um processo que primeiro organiza a semântica de alto nível e depois retorna às palavras específicas. O núcleo do Cola DLM consiste em Text VAE + block-causal DiT. O Text VAE mapeia primeiro o texto discreto para um espaço latente contínuo, e o block-causal DiT aprende a priori latente por meio do Flow Matching, finalmente reconstruindo o texto por meio de um decodificador condicional. O processo de difusão opera sobre representações semânticas latentes, e não realiza desruído repetidamente no nível dos tokens. A versão de código aberto atual é um modelo de escala 2B, com aproximadamente 2,3 bilhões de parâmetros totais, dos quais 1,8 bilhão pertencem ao DiT central e 500 milhões ao VAE. Em oito avaliações — LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD e Story Cloze — o artigo afirma que, sob um protocolo unificado de avaliação gerativa, o modelo já apresenta desempenho de escala competitivo em relação a baselines AR/LLaDA de mesma escala, alcançando o melhor resultado médio final. No entanto, trata-se atualmente apenas de um checkpoint de pesquisa e não é um modelo de diálogo diretamente utilizável. A equipe oficial esclarece que o modelo não passou por fine-tuning por instruções nem por RLHF; seu principal propósito é pesquisar como a difusão latente contínua pode ser aplicada à geração de texto. O artigo também apresenta experimentos preliminares na extensão para modelagem unificada texto-imagem, mas o repositório de código aberto atual contém apenas a tubulação de texto. (Fonte: BlockBeats)

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.