ByteDance ने Cola DLM: टेक्स्ट जनरेशन के लिए एक डिफ्यूजन मॉडल को ओपन सोर्स किया है

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
23 मई (UTC+8) को, ByteDance की सीड टीम ने MetaEra के आधार पर Cola DLM, एक टेक्स्ट जनरेशन के लिए डिफ्यूजन मॉडल को ओपन-सोर्स किया। यह मॉडल एक टेक्स्ट VAE और ब्लॉक-कॉजल DiT को मिलाकर उच्च-स्तरीय सेमैंटिक्स को पहले संगठित करके टेक्स्ट उत्पन्न करता है। 2B स्केल का ओपन-सोर्स संस्करण 23 अरब कुल पैरामीटर्स शामिल है और आठ बेंचमार्क पर मजबूत प्रदर्शन दिखाता है। यह एक अनुसंधान चेकपॉइंट है, एक डायलॉग मॉडल नहीं, क्योंकि इसमें निर्देश सूक्ष्म-समायोजन या RLHF की कमी है। जैसे-जैसे तरलता और क्रिप्टो बाजार विकसित होते जा रहे हैं, ऐसे मॉडल CFT (आतंकवाद के वित्तपोषण का विरोध) प्रयासों को सुधारित सामग्री स्क्रीनिंग और धोखाधड़ी पता लगाने के माध्यम से प्रभावित कर सकते हैं।

ME News के अनुसार, 16 मई (UTC+8) को, Beating द्वारा निगरानी के अनुसार, ByteDance Seed टीम ने Cola DLM को ओपन सोर्स किया है। यह एक निरंतर लेटेंट डिफ्यूजन भाषा मॉडल है, जो बड़े भाषा मॉडल्स के द्वारा बाएँ से दाएँ टोकन के आधार पर अनुक्रमिक उत्पादन के स्थिर पथ को बायपास करने का प्रयास करता है और पाठ उत्पादन को उच्च स्तरीय अर्थ के संगठन से शुरू करके, फिर विशिष्ट शब्दों में वापस आने के रूप में बदलता है। Cola DLM का केंद्र Text VAE + block-causal DiT है। Text VAE पहले असतत पाठ को निरंतर लेटेंट स्पेस में मैप करता है, फिर block-causal DiT Flow Matching के माध्यम से लेटेंट प्रायर को सीखता है, और अंततः सशर्त डिकोडर लेटेंट वेरिएबल्स को पाठ में पुनः प्राप्त करता है। डिफ्यूजन प्रक्रिया सीधे टोकन स्तर पर शोर हटाने के बजाय, लेटेंट सेमेंटिक प्रतिनिधित्व को संभालती है। इस संस्करण को 2B स्तर का मॉडल माना गया है, जिसमें कुल लगभग 23 अरब पैरामीटर हैं, जिनमें से मुख्य DiT 18 अरब पैरामीटर हैं और VAE में 5 अरब पैरामीटर हैं। LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze जैसे 8 परीक्षणों में, पेपर के अनुसार, समान स्केल पर AR / LLaDA बेसलाइन के साथ प्रतिस्पर्धा करने की क्षमता है, और अंतिम औसत स्कोर पर सर्वश्रेष्ठ परिणाम प्राप्त किया है। हालाँकि, यह अभी एक शोध-आधारित checkpoint है, सीधे उपयोग के लिए डायलॉग मॉडल नहीं। आधिकारिक विवरण के अनुसार, इस मॉडल को निर्देश-सूक्ष्म-अनुकूलन (instruction fine-tuning) और RLHF से प्रशिक्षित नहीं किया गया है, और मुख्य उद्देश्य पाठ उत्पादन में निरंतर लेटेंट डिफ्यूजन का अध्ययन है। पेपर में पाठ-चित्र समन्वयित मॉडलिंग में विस्तार के प्रारंभिक प्रयोगों को भी प्रदर्शित किया गया है, हालाँकि, इस संस्करण में केवल पाठ पाइपलाइन ही समाहित है। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।