ByteDance відкрила код Cola DLM: модель дифузії для генерації тексту

KuCoinFlash

Час випуску: 16.05.2026, 02:22:20

Поділитися

Короткий зміст

Команда Seed компанії ByteDance відкрила код Cola DLM — дифузійної моделі для генерації тексту — 16 травня (UTC+8), на основі MetaEra. Модель поєднує Text VAE та блоково-кавзальний DiT для генерації тексту, спочатку організовуючи високорівневу семантику. Версія з відкритим кодом розміром 2B містить 23 мільярди загальних параметрів і демонструє високу продуктивність на восьми тестах. Це залишається дослідницькою точкою перевірки, а не діалоговою моделлю, оскільки вона не має інструкційної доналаштовування чи RLHF. Поки ліквідність та криптовалютні ринки продовжують розвиватися, такі моделі можуть впливати на зусилля щодо протидії фінансуванню тероризму (CFT) завдяки покращеному скринінгу контенту та виявленню шахрайства.

ME News: 16 травня (UTC+8), за даними моніторингу Beating, команда Seed ByteDance відкрила код Cola DLM — це безперервна потенційна дифузійна мова, що намагається обійти фіксований шлях традиційних великих мовних моделей, які генерують текст по токенам зліва направо, замінивши його на процес, де спочатку формується високорівнева семантика, а потім вона деталізується до конкретних слів. Основою Cola DLM є Text VAE + block-causal DiT. Text VAE спочатку перетворює дискретний текст у безперервний потенційний простір, а block-causal DiT за допомогою Flow Matching вивчає потенційний пріор, після чого умовний декодер відновлює потенційні змінні у текст. Процес дифузії працює з потенційними семантичними представленнями, а не з безпосереднім шумоподавленням на рівні токенів. Ця версія з відкритим кодом належить до моделі розміру 2B, а саме має близько 2,3 мільярда загальних параметрів, з яких 1,8 мільярда — це основний DiT, а 500 мільйонів — VAE. У восьми тестах — LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze — автори статті стверджують, що модель демонструє масштабовану продуктивність, що конкурує з AR/LLaDA-базовими моделями того ж розміру за єдиною генеративною протоколом оцінки, і досягає найвищого середнього балу. Проте наразі це дослідницький чекпоїнт, а не готова до використання діалогова модель. Офіційно зазначено, що модель не проходила інструкційну донастройку чи RLHF; її основне призначення — дослідження застосування безперервної потенційної дифузії для генерації тексту. У статті також наведено попередні експерименти з розширенням до єдиної моделі текст-зображення, але у цьому відкритому репозиторії міститься лише текстовий конвеєр. (Джерело: BlockBeats)

Джерело:Показати оригінал

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.