सैपिएंट ने 1 बिलियन पैरामीटर HRM-टेक्स्ट मॉडल को 1,300x कम ट्रेनिंग लागत के साथ ओपन सोर्स किया

AIMPACT संदेश, 19 मई (UTC+8), Beating द्वारा मॉनिटर किए जाने पर, Sapient Intelligence ने 10 अरब पैरामीटर (1B) के टेक्स्ट जनरेशन बेस मॉडल HRM-Text को ओपन सोर्स किया है। यह एक हाइरार्किकल रीजनिंग मॉडल (HRM) आर्किटेक्चर पर आधारित शुद्ध प्री-ट्रेन्ड मॉडल है। इसने आर्किटेक्चर के निचले स्तर पर लेटेंट स्पेस रीजनिंग को शामिल करके बेस मॉडल प्री-ट्रेनिंग के लिए कैलकुलेशन की खपत को 130 से 600 गुना तक कम कर दिया है। विशेष रूप से, HRM-Text ने केवल 40 अरब (40B) स्ट्रक्चर्ड टोकन का उपयोग करके प्री-ट्रेनिंग पूरी की, जो समान श्रेणी के सामान्य मॉडल की तुलना में लगभग हजारवाँ हिस्सा है। आधिकारिक परीक्षणों के अनुसार, दो 8-कार्ड H100 सर्वर्स का उपयोग करके, 1B संस्करण को शून्य से लगभग 46 घंटे में प्रशिक्षित किया जा सकता है, जिसकी कैलकुलेशन लागत लगभग 1472 डॉलर है; जबकि 0.6B संस्करण के लिए केवल एकल नोड पर 50 घंटे की आवश्यकता होती है, और हार्डवेयर लागत लगभग 800 डॉलर है। पूरा इंजीनियरिंग फ्रेमवर्क, जिसमें डेटा एक्सट्रैक्शन, सीक्वेंस पैकिंग और PyTorch डिस्ट्रीब्यूटेड ट्रेनिंग शामिल है, सभी समानांतर रूप से ओपन सोर्स किया गया है। अत्यधिक लागत कम करने का समर्थन अद्वितीय डुअल-टाइमस्केल रिकरेंट (Dual-timescale recurrent) डिज़ाइन पर है। मॉडल में दो सेट हैं—तेज (निचला) और धीमा (उच्च) Transformer मॉड्यूल। ये दोनों मॉड्यूल समान इनपुट पर प्रत्यावर्ती रूप से काम करते हैं, और स्टेट्स को जोड़कर सूचना का आदान-प्रदान करते हैं। इस डिज़ाइन के कारण, मॉडल प्राकृतिक पैरामीटर की संख्या स्थिर होने पर, पुनरावृत्ति की संख्या बढ़ाकर कैलकुलेशन की गहराई को सक्रिय रूप से विस्तारित कर सकता है। प्री-ट्रेनिंग की सीमा में हुई अचानक कमी, पहले कई मॉडल सिद्धांतों को, जो कैलकुलेशन की महंगाई के कारण समय से पहले ही समाप्त हो चुके थे, कम लागत पर पुनः प्रमाणित करने का मौका प्रदान करती है। महत्वपूर्ण है कि संचयित मॉडल में संशोधन (alignment) की प्रक्रिया पूरी नहीं हुई है, मॉडल केवल प्रीफिक्स-कंटिन्यूएशन (prefix continuation) कार्यों को ही संभाल सकता है,और सीधे प्रश्न-उत्तर सहायक के रूप में प्रयोग नहीं किया जा सकता। (स्रोत: BlockBeats)