Nous Research ने Lighthouse Attention को ओपन सोर्स किया, B200 पर 17x स्पीड बूस्ट प्राप्त किया

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
ऑन-चेन समाचार पत्रिका मेटाएरा ने 16 मई (UTC+8) को रिपोर्ट किया कि नूस रिसर्च ने लंबे संदर्भ प्री-ट्रेनिंग के लिए अपना लाइटहाउस अटेंशन मैकेनिज्म ओपन-सोर्स कर दिया है। यह विधि 512K लंबाई के टेक्स्ट के लिए एकल B200 GPU पर 17x तेज़ गणना और 98K लंबाई पर 1.4–1.7x प्रशिक्षण गति प्रदान करती है। यह निम्न-स्तरीय कोडिंग या अतिरिक्त प्रशिक्षण उद्देश्यों से बचने के लिए एक दो-चरणीय प्रक्रिया का उपयोग करती है। परीक्षणों में, 50B टोकन पर प्रशिक्षित 530M पैरामीटर मॉडल ने पारंपरिक विधियों को मिलाया या उनसे बेहतर प्रदर्शन किया, जबकि प्रशिक्षण समय में कमी हुई। क्रिप्टो समाचार प्लेटफॉर्म विकासकर्ताओं और शोधकर्ताओं के लिए कुशलता में वृद्धि पर जोर दे रहे हैं।

AIMPACT संदेश, 16 मई (UTC+8), Beating द्वारा मॉनिटर किए जाने पर, Nous Research ने लंबे संदर्भ प्री-ट्रेनिंग मैकेनिज्म Lighthouse Attention को ओपन सोर्स किया है। एकल B200 GPU पर 512K लंबाई के टेक्स्ट को प्रोसेस करते समय, इस समाधान की गणना गति पारंपरिक मैकेनिज्म की तुलना में लगभग 17 गुना तेज है, और 98K लंबाई पर 1.4 से 1.7 गुना तक एंड-टू-एंड ट्रेनिंग स्पीड बढ़ाई गई है। पारंपरिक ध्यान मैकेनिज्म को सभी शब्दों के द्वि-संबंधों की गणना करने की आवश्यकता होती है, और जैसे-जैसे टेक्स्ट लंबा होता है, कैलकुलेशन की आवश्यकता वर्गाकार रूप से बढ़ जाती है। Lighthouse Attention एक पहले सामान्य छांटने के बाद सटीक गणना करने के दृष्टिकोण का उपयोग करता है। यह पहले टेक्स्ट के संपीड़ित सारांश को विभिन्न स्तरों पर तेजी से ब्राउज़ करता है, स्कोरिंग के माध्यम से महत्वपूर्ण अंशों को चुनता है, और उन्हें एक छोटे टेक्स्ट में संयोजित करता है, जिसे फिर सीधे FlashAttention जैसे पहले से मौजूद हाइ-परफॉरमेंस ऑपरेटर्स पर प्रस्तुत किया जाता है। चूंकि छांटने की तर्क प्रक्रिया पूरी तरह से कोर से बाहर होती है, डेवलपर्स को नीचे के स्तर पर कोड लिखने की आवश्यकता नहीं होती है, और अतिरिक्त प्रशिक्षण लक्ष्यों की भी आवश्यकता नहीं होती है। पिछले समय में, समान दृष्टिकोण का उपयोग करने वाले स्पीडअप समाधानों में प्रायः साइड-इफेक्ट होते हैं, क्योंकि मॉडल को स्किप-रीडिंग की आदत हो जाती है, और मूल पाठ-दर-पाठ पढ़ने की क्षमता को खोने का खतरा होता है। इस फ़िद में से बचने के लिए, रिसर्च टीम ने मॉडल को पहले स्पीडअप मोड में अधिकांश प्रगति पूरी करने के बाद, प्रशिक्षण के अंत में कुछ समय के लिए केवल पारंपरिक पूर्ण-ध्यान की गणना में स्विच करने का प्रयास किया। 530 मिलियन पैरामीटर मॉडल पर, 500 मिलियन Token प्रशिक्षण डेटा के साथ, प्रयोग में, ऐसे प्रशिक्षित मॉडल में समय में काफी कमी हुई, और परिणामस्वरूप प्रदर्शन पूरी तरह से पारंपरिक प्रशिक्षण के साथ प्रशिक्षित मूल संस्करण के समान, या उससे बेहतर हुआ। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।