Nous Research ने Lighthouse Attention को ओपन सोर्स किया, B200 पर 17x स्पीड बूस्ट प्राप्त किया

AIMPACT संदेश, 16 मई (UTC+8), Beating द्वारा मॉनिटर किए जाने पर, Nous Research ने लंबे संदर्भ प्री-ट्रेनिंग मैकेनिज्म Lighthouse Attention को ओपन सोर्स किया है। एकल B200 GPU पर 512K लंबाई के टेक्स्ट को प्रोसेस करते समय, इस समाधान की गणना गति पारंपरिक मैकेनिज्म की तुलना में लगभग 17 गुना तेज है, और 98K लंबाई पर 1.4 से 1.7 गुना तक एंड-टू-एंड ट्रेनिंग स्पीड बढ़ाई गई है। पारंपरिक ध्यान मैकेनिज्म को सभी शब्दों के द्वि-संबंधों की गणना करने की आवश्यकता होती है, और जैसे-जैसे टेक्स्ट लंबा होता है, कैलकुलेशन की आवश्यकता वर्गाकार रूप से बढ़ जाती है। Lighthouse Attention एक पहले सामान्य छांटने के बाद सटीक गणना करने के दृष्टिकोण का उपयोग करता है। यह पहले टेक्स्ट के संपीड़ित सारांश को विभिन्न स्तरों पर तेजी से ब्राउज़ करता है, स्कोरिंग के माध्यम से महत्वपूर्ण अंशों को चुनता है, और उन्हें एक छोटे टेक्स्ट में संयोजित करता है, जिसे फिर सीधे FlashAttention जैसे पहले से मौजूद हाइ-परफॉरमेंस ऑपरेटर्स पर प्रस्तुत किया जाता है। चूंकि छांटने की तर्क प्रक्रिया पूरी तरह से कोर से बाहर होती है, डेवलपर्स को नीचे के स्तर पर कोड लिखने की आवश्यकता नहीं होती है, और अतिरिक्त प्रशिक्षण लक्ष्यों की भी आवश्यकता नहीं होती है। पिछले समय में, समान दृष्टिकोण का उपयोग करने वाले स्पीडअप समाधानों में प्रायः साइड-इफेक्ट होते हैं, क्योंकि मॉडल को स्किप-रीडिंग की आदत हो जाती है, और मूल पाठ-दर-पाठ पढ़ने की क्षमता को खोने का खतरा होता है। इस फ़िद में से बचने के लिए, रिसर्च टीम ने मॉडल को पहले स्पीडअप मोड में अधिकांश प्रगति पूरी करने के बाद, प्रशिक्षण के अंत में कुछ समय के लिए केवल पारंपरिक पूर्ण-ध्यान की गणना में स्विच करने का प्रयास किया। 530 मिलियन पैरामीटर मॉडल पर, 500 मिलियन Token प्रशिक्षण डेटा के साथ, प्रयोग में, ऐसे प्रशिक्षित मॉडल में समय में काफी कमी हुई, और परिणामस्वरूप प्रदर्शन पूरी तरह से पारंपरिक प्रशिक्षण के साथ प्रशिक्षित मूल संस्करण के समान, या उससे बेहतर हुआ। (स्रोत: BlockBeats)