ByteDance mở nguồn Cola DLM: Một mô hình khuếch tán để tạo văn bản

KuCoinFlash

Thời gian phát hành: 02:22:20 16/05/2026

Chia sẻ

Tóm tắt

Đội Seed của ByteDance đã mở nguồn Cola DLM, một mô hình khuếch tán để sinh văn bản, vào ngày 16 tháng 5 (UTC+8), dựa trên MetaEra. Mô hình này kết hợp Text VAE và block-causal DiT để sinh văn bản bằng cách tổ chức trước các ngữ nghĩa cấp cao. Phiên bản mở nguồn quy mô 2B chứa tổng cộng 23 tỷ tham số và cho hiệu suất mạnh mẽ trên tám bộ dữ liệu đánh giá. Đây vẫn là một điểm kiểm tra nghiên cứu, không phải mô hình đối thoại, do thiếu tinh chỉnh theo hướng dẫn hoặc RLHF. Khi thanh khoản và thị trường tiền mã hóa tiếp tục phát triển, các mô hình như vậy có thể ảnh hưởng đến các nỗ lực CFT (Chống tài trợ cho khủng bố) thông qua việc cải thiện việc quét nội dung và phát hiện gian lận.

Theo tin tức từ ME News, vào ngày 16 tháng 5 (UTC+8), theo giám sát của Beating, đội ngũ Seed của ByteDance đã mở nguồn Cola DLM. Đây là một mô hình ngôn ngữ khuếch tán tiềm ẩn liên tục, nhằm vượt qua đường dẫn cố định của các mô hình ngôn ngữ lớn trong việc sinh văn bản theo từng token từ trái sang phải, thay vào đó chuyển đổi quá trình sinh văn bản thành việc tổ chức ngữ nghĩa cấp cao trước, sau đó mới cụ thể hóa thành văn bản. Hạt nhân của Cola DLM là Text VAE + block-causal DiT. Text VAE đầu tiên ánh xạ văn bản rời rạc vào không gian tiềm ẩn liên tục, sau đó block-causal DiT học prior tiềm ẩn thông qua Flow Matching, và cuối cùng, bộ giải mã điều kiện phục hồi biến tiềm ẩn thành văn bản. Quá trình khuếch tán xử lý biểu diễn ngữ nghĩa tiềm ẩn, chứ không trực tiếp loại nhiễu ở cấp độ token. Phiên bản mở nguồn lần này là mô hình cấp 2B, cụ thể với khoảng 2,3 tỷ tham số tổng thể, trong đó DiT cốt lõi chiếm 1,8 tỷ tham số và VAE bổ sung 500 triệu tham số. Trong 8 bài kiểm tra bao gồm LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD và Story Cloze, bài báo cho biết mô hình này đã đạt được hiệu suất scaling cạnh tranh với các mô hình AR/LLaDA cùng quy mô trong giao thức đánh giá sinh thống nhất, đồng thời đạt điểm trung bình cuối cùng cao nhất. Tuy nhiên, hiện tại đây vẫn chỉ là checkpoint nghiên cứu, chưa phải mô hình hội thoại sẵn sàng sử dụng. Nhà phát hành cho biết mô hình này chưa được tinh chỉnh theo chỉ lệnh hay RLHF, mục đích chính là nghiên cứu cách sử dụng khuếch tán tiềm ẩn liên tục trong sinh văn bản. Bài báo cũng trình bày các thí nghiệm ban đầu về mở rộng sang mô hình thống nhất văn bản-hình ảnh, nhưng kho lưu trữ mở nguồn lần này chỉ bao gồm đường ống văn bản. (Nguồn: BlockBeats)

Nguồn:Hiển thị bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.