त्सिंगहुआ स्नातक वांग गुआन का HRM-Text 1/900 टोकन और 1/432 कंप्यूट के साथ SOTA प्राप्त करता है

पारंपरिक बड़े मॉडल प्री-ट्रेनिंग पैटर्न को तोड़ते हुए, त्सिंहुआ विश्वविद्यालय के 00 के दशक के स्नातक वांग गुआन की टीम ने नया कार्य जारी किया है:

उन्होंने मानक Transformer के स्थान पर हाइरार्किकल रिकर्सिव मॉडल (HRM) का उपयोग करते हुए, स्केलिंग के आगे बढ़ने वाला दक्ष प्री-ट्रेन्ड HRM-Text प्रस्तुत किया।

Tsinghua

कागजात का लिंक: https://arxiv.org/abs/2605.20613

HRM-Text ने मानक baseline मॉडल की तुलना में लगभग 100-900 गुना कम ट्रेनिंग टोकन और 96-432 गुना कम अनुमानित गणना के साथ 2B से 7B पैरामीटर ओपन-सोर्स मॉडल्स के समान प्रदर्शन प्राप्त किया।

इसी समय, 1B पैरामीटर, 40B गैर-दोहराए गए टोकन और लगभग 1500 डॉलर की प्रशिक्षण लागत के साथ, HRM-Text ने प्रमुख बेंचमार्क पर निम्नलिखित परिणाम प्राप्त किए: MMLU 60.7%, ARC-C 81.9%, DROP 82.2%, GSM8K 84.5%, MATH 56.2%।

Tsinghua

चित्र｜प्री-ट्रेनिंग की दक्षता।

इसके आधार पर, उन्होंने स्पष्ट रूप से बताया: संरचनात्मक पूर्वधारणा और लक्षित प्रशिक्षण लक्ष्य, प्री-ट्रेनिंग की बाधाओं को काफी कम कर सकते हैं। यह प्रशिक्षण योजना शून्य से आधार मॉडल को प्रशिक्षित करने को संभव बना सकती है।

HRM-Text कैसे डिज़ाइन किया गया है?

बड़े भाषा मॉडल (LLM) की प्री-ट्रेनिंग, अब अधिक और अधिक कुछ ही ऐसे संस्थानों पर निर्भर करने लगी है जिनके पास पर्याप्त कैलकुलेशन और डेटा संसाधन हैं। एक प्रतिस्पर्धी आधार मॉडल को ट्रेन करने के लिए अक्सर लाखों करोड़ टोकन, हजारों GPU, और यहां तक कि करोड़ों डॉलर के कैलकुलेशन निवेश की आवश्यकता होती है।

हालाँकि, वर्तमान प्रशिक्षण मॉडल कुशल नहीं है, और बड़ी मात्रा में गणना प्रॉम्प्ट, फॉर्मैट भरने और वेबसाइट शोर जैसे असंबंधिटोकन पर खर्च हो रही है, जिससे बहुत सारी प्रशिक्षण कैलकुलेशन क्षमता सीधे निष्कर्षण के लिए सेवा नहीं कर रही है।

इस कार्य में, अनुसंधान टीम ने आर्किटेक्चर और प्रशिक्षण लक्ष्य को पुनः डिज़ाइन किया ताकि HRM-Text का प्री-ट्रेनिंग अपेक्षाकृत अधिक कुशल हो।

आर्किटेक्चर: एक द्वि-समय स्केल हाइरार्किकल रिकर्सिव मॉडल का उपयोग करता है, जो गणना को धीमे H मॉड्यूल और तेज L मॉड्यूल में विभाजित करता है। मानक Transformer प्रत्येक टोकन पर केवल एक बार फॉरवर्ड पास करता है, जबकि HRM एक ही टोकन पर कई चक्रों में रिकर्सिव अपडेट करता है। H और L मॉड्यूल प्रत्येक रिकर्सिव कोर पैरामीटर की मात्रा का आधा हिस्सा लेते हैं, और कुल गणना लगभग एक ही सेट के पैरामीटर पर 4 बार रिकर्सिव एक्सपैंशन के समान होती है, बिना पैरामीटर की संख्या बढ़ाए।

लक्ष्य: मानक पूर्ण पाठ स्वयं-पुनर्जनन प्री-ट्रेनिंग का उपयोग न करके, निर्देश-उत्तर युग्मों पर प्रशिक्षण दें, केवल उत्तर भाग के लिए हानि की गणना करें, और PrefixLM मास्क के साथ संयोजित करें ताकि निर्देश भाग के लिए द्विदिशीय ध्यान हो और उत्तर भाग का जनन कारणात्मक मास्किंग के साथ हो।

Tsinghua

चित्र | HRM-Text आर्किटेक्चर।

पुनरावृत्ति प्रशिक्षण की स्थिरता में सुधार के लिए, अनुसंधान टीम ने मैजिकनॉर्म और वॉर्मअप डीप क्रेडिट असाइनमेंट को शामिल किया।

MagicNorm एक मिश्रित नॉर्मलाइजेशन स्ट्रैटेजी है, जो ट्रंकेटेड बैकप्रोपगेशन (Truncated BPTT) के तहत फॉरवर्ड और बैकवर्ड कॉम्प्यूटेशन की गहराई के असममिति का उपयोग करती है, जिसमें मॉड्यूल के अंदर PreNorm का उपयोग किया जाता है और मॉड्यूल के आउटपुट पर अतिरिक्त नॉर्मलाइजेशन जोड़ा जाता है, ताकि गहरे रिकर्सिव ट्रेनिंग की स्थिरता में सुधार हो सके।

वर्मअप डीप क्रेडिट असाइनमेंट तब शुरू होता है जब प्रशिक्षण के प्रारंभिक चरणों में केवल अंतिम 2 रिकर्सिव स्टेप्स पर ग्रेडिएंट बैकप्रोपगेट होते हैं, और फिर रैखिक रूप से अंतिम 5 स्टेप्स तक विस्तारित होते हैं। यह प्रशिक्षण तंत्र मॉडल को छोटी क्रेडिट पथ पर स्थिर अभिसरण की अनुमति देता है, और फिर क्रमिक रूप से अधिक लंबी निर्भरताओं को शामिल करता है।

How effective is it?

परीक्षण परिणाम दर्शाते हैं कि HRM-Text आर्किटेक्चर की दक्षता, प्रशिक्षण लक्ष्य और समग्र प्रदर्शन में स्पष्ट लाभ प्रदर्शित करता है।

1. निर्धारित ट्रेनिंग कैपेसिटी के तहत, साइक्लिक आर्किटेक्चर अधिक प्रभावी है क्या?

परिणाम दर्शाते हैं कि FLOPs के समानीकरण की स्थिति में, HRM 1B अधिकांश बेंचमार्क पर Transformer 1B, Transformer 3B, Looped Transformer 1B और RINS 1B से बेहतर प्रदर्शन करता है; TRM के साथ तुलना से यह भी पता चलता है कि HRM का प्रशिक्षण अधिक स्थिर है।

Tsinghua

चित्र｜Transformer मॉडल के प्रदर्शन और स्थिरता की तुलना। HRM सभी आकारों में स्थिर प्रशिक्षण गतिशीलता बनाए रखता है, जबकि Transformer मॉडल 10 अरब पैरामीटर स्केल पर गंभीर अस्थिरता का सामना करता है। इसके अलावा, 0.6B स्केल पर, HRM को अधिकांश बेंचमार्क पर प्रतिस्पर्धी प्रदर्शन प्राप्त करने के लिए Transformer मॉडल की तुलना में केवल 2 गुना कम गणना की आवश्यकता होती है।

2. क्या कार्य पूरा करने का लक्ष्य और PrefixLM मददगार हैं

एबलेशन अध्ययन दर्शाते हैं कि FLOPs के समानीकरण की स्थिति में, 1B Transformer का MMLU मान मानक स्वयं-प्रगतिशील दृष्टिकोण से 40.55 से बढ़कर कार्य पूरा करने के लक्ष्य को शामिल करने पर 47.72, PrefixLM जोड़ने पर 53.15, और HRM आर्किटेक्चर में बदलने पर 60.73 हो गया।

Tsinghua

चित्र｜विभिन्न मॉडल आर्किटेक्चर और प्रशिक्षण लक्ष्यों के बीच प्रदर्शन की तुलना

3. HRM-Text की दक्षता आधुनिक खुले मॉडल की तुलना में कैसी है

HRM-Text 1B ने MMLU, ARC-C, DROP, GSM8K और MATH पर क्रमशः 60.7, 81.9, 82.2, 84.5 और 56.2 के स्कोर प्राप्त किए। इसने केवल 400 अरब अद्वितीय टोकन और 1 बिलियन पैरामीटर के साथ, अधिक ट्रेनिंग बजट वाले खुले मॉडल्स की तुलना में 2B से 7B ओपन सोर्स मॉडल्स के प्रदर्शन वर्ग में प्रवेश किया; इसके लिए आवश्यक टोकन्स की संख्या अधिकतम 900 गुना कम थी और कैलकुलेशन की लागत अधिकतम 432 गुना कम थी।

Tsinghua

चित्र | HRM-Text 1B और समान समय अवधि के सभी ओपन सोर्स मॉडल और ओपन वेट मॉडल की तुलनात्मक जांच परिणाम

4. क्या चक्रीय संरचना ने अधिक प्रभावी गहराई लाई है?

परिणाम दर्शाते हैं कि मानक Transformer और Looped Transformer गहराई कम में ही स्थिर हो जाते हैं, जबकि HRM गहराई में भी अधिक स्पष्ट ब्लॉक-बीच प्रतिनिधित्व परिवर्तन, कम कोसाइन समानता और अधिक logit lens KL मान बनाए रखता है।

Tsinghua

चित्र | प्रभावी गहराई विश्लेषण।

Tsinghua

चित्र｜स्तरबद्ध Logit Lens KL विश्लेषण।

कमियाँ और भविष्य की दिशा

हालांकि HRM-Text ने निष्कर्ष आधारित कार्यों पर मजबूत प्रदर्शन दिखाया है, लेकिन इस विधि में सीमाएँ भी मौजूद हैं और भविष्य के अनुसंधान की दिशा निर्धारित करती हैं।

1. "ज्ञान" और "तर्क" के अलगाव की ओर

वर्तमान में, अधिक व्यापक तथ्यात्मक ज्ञान कवरेज अभी भी मॉडल के आकार और डेटा की विविधता पर अधिक निर्भर करता है। HRM-Text केवल 400 अरब अद्वितीय टोकन पर प्रशिक्षित है, और स्पष्ट रूप से ज्ञान-आधारित स्रोत केवल कार्य-फॉर्मेटेड मिश्रित डेटा का एक हिस्सा हैं। भविष्य में, शोधकर्ताओं को संकुचित निष्कर्षण कोर को बाहरी तथ्यात्मक संग्रह से अलग डिज़ाइन करने की आवश्यकता होगी, जहाँ ज्ञान की विविधता को चयनित कॉर्पस, रिट्रीवल-एन्हांस्ड मॉड्यूल या सीखने योग्य स्मृति पर सौंपा जाए।

2. अनुकूलनयोग्य गणना समय

HRM-Text का साइक्लिक स्केड्यूलिंग बड़ी प्रभावी सीरियल डेप्थ लाता है, लेकिन इसका अर्थ है कि मॉडल को इन्फरेंस के दौरान निश्चित संख्या में रिकर्सिव स्टेप्स निष्पादित करने की आवश्यकता होती है। भविष्य में, एक रोचक दिशा अनुकूलनीय कॉम्प्यूटेशन टाइम मैकेनिज्म को शामिल करना होगा, जिससे सरल नमूने गणना को जल्दी रोक सकें और पूर्ण साइक्लिक बजट को कठिन नमूनों के लिए बनाए रखा जा सके, जिससे इन्फरेंस लागत कम हो।

3. वर्तमान में स्केलिंग प्रमाणीकरण की सीमा सीमित है

वर्तमान स्केलिंग प्रयोग केवल 3B पैरामीटर वाले Transformer कंट्रोल ग्रुप और 1B पैरामीटर वाले HRM-Text तक सीमित हैं। अनुसंधान टीम का कहना है कि बड़े मॉडल स्केल पर भी क्या इसी तरह की दक्षता का लाभ बना रहेगा, इसकी पुष्टि भविष्य के कार्यों द्वारा की जानी है।

4. PrefixLM और इन्फरेंस फ्रेमवर्क

वर्तमान में, PrefixLM को वास्तविक डिप्लॉयमेंट में कुछ इंजीनियरिंग लागू करने की सीमाएँ हैं। हालाँकि इसे vLLM जैसे मानक टेक्स्ट जनरेशन इन्फरेंस फ्रेमवर्क पर चलाया जा सकता है, लेकिन इसके लिए फ्रेमवर्क को prefill चरण में कस्टम अटेंशन मास्क का समर्थन करना होगा। यदि इसे मल्टी-राउंड डायलॉग सीनेरियो में विस्तारित किया जाता है, तो KV-cache मैकेनिज्म को और डिज़ाइन करने की आवश्यकता होगी, ताकि उपयोगकर्ता अंश के भीतर द्विदिशीय दृश्यता बनी रहे और सहायक के उत्पादन प्रक्रिया को कारणात्मक प्रतिबंधों का पालन करते हुए जारी रखा जा सके।

अधिक तकनीकी विवरण के लिए, मूल पेपर देखें।

यह लेख वेचेन ग्रुप "एकेडमिक टूटल" (ID: SciTouTiao) से आया है, लेखक: शियान क्वान्सी