AIMPACT संदेश, 19 मई (UTC+8), Beating द्वारा मॉनिटर किए जाने पर, Sapient Intelligence ने 10 अरब पैरामीटर (1B) के टेक्स्ट जनरेशन बेस मॉडल HRM-Text को ओपन सोर्स किया है। यह एक हाइरार्किकल रीजनिंग मॉडल (HRM) आर्किटेक्चर पर आधारित शुद्ध प्री-ट्रेन्ड मॉडल है। इसने आर्किटेक्चर के निचले स्तर पर लेटेंट स्पेस रीजनिंग को शामिल करके बेस मॉडल प्री-ट्रेनिंग के लिए कैलकुलेशन की खपत को 130 से 600 गुना तक कम कर दिया है। विशेष रूप से, HRM-Text ने केवल 40 अरब (40B) स्ट्रक्चर्ड टोकन का उपयोग करके प्री-ट्रेनिंग पूरी की, जो समान श्रेणी के सामान्य मॉडल की तुलना में लगभग हजारवाँ हिस्सा है। आधिकारिक परीक्षणों के अनुसार, दो 8-कार्ड H100 सर्वर्स का उपयोग करके, 1B संस्करण को शून्य से लगभग 46 घंटे में प्रशिक्षित किया जा सकता है, जिसकी कैलकुलेशन लागत लगभग 1472 डॉलर है; जबकि 0.6B संस्करण के लिए केवल एकल नोड पर 50 घंटे की आवश्यकता होती है, और हार्डवेयर लागत लगभग 800 डॉलर है। पूरा इंजीनियरिंग फ्रेमवर्क, जिसमें डेटा एक्सट्रैक्शन, सीक्वेंस पैकिंग और PyTorch डिस्ट्रीब्यूटेड ट्रेनिंग शामिल है, सभी समानांतर रूप से ओपन सोर्स किया गया है। अत्यधिक लागत कम करने का समर्थन अद्वितीय डुअल-टाइमस्केल रिकरेंट (Dual-timescale recurrent) डिज़ाइन पर है। मॉडल में दो सेट हैं—तेज (निचला) और धीमा (उच्च) Transformer मॉड्यूल। ये दोनों मॉड्यूल समान इनपुट पर प्रत्यावर्ती रूप से काम करते हैं, और स्टेट्स को जोड़कर सूचना का आदान-प्रदान करते हैं। इस डिज़ाइन के कारण, मॉडल प्राकृतिक पैरामीटर की संख्या स्थिर होने पर, पुनरावृत्ति की संख्या बढ़ाकर कैलकुलेशन की गहराई को सक्रिय रूप से विस्तारित कर सकता है। प्री-ट्रेनिंग की सीमा में हुई अचानक कमी, पहले कई मॉडल सिद्धांतों को, जो कैलकुलेशन की महंगाई के कारण समय से पहले ही समाप्त हो चुके थे, कम लागत पर पुनः प्रमाणित करने का मौका प्रदान करती है। महत्वपूर्ण है कि संचयित मॉडल में संशोधन (alignment) की प्रक्रिया पूरी नहीं हुई है, मॉडल केवल प्रीफिक्स-कंटिन्यूएशन (prefix continuation) कार्यों को ही संभाल सकता है,और सीधे प्रश्न-उत्तर सहायक के रूप में प्रयोग नहीं किया जा सकता। (स्रोत: BlockBeats)
सैपिएंट ने 1 बिलियन पैरामीटर HRM-टेक्स्ट मॉडल को 1,300x कम ट्रेनिंग लागत के साथ ओपन सोर्स किया
KuCoinFlashसाझा करें






20 मई (UTC+8) को सैपिएंट इंटेलिजेंस ने ऑन-चेन समाचार जारी किया, जिसमें HRM-Text, एक 1 बिलियन पैरामीटर टेक्स्ट मॉडल को ओपन-सोर्स किया गया, जिसमें हाइरार्किकल रीजनिंग आर्किटेक्चर है। यह मॉडल प्री-ट्रेनिंग लागत को 130 से 600 गुना कम करने के लिए लेटेंट स्पेस रीजनिंग का उपयोग करता है। इसे 40 बिलियन स्ट्रक्चर्ड टोकन्स पर प्रशिक्षित किया गया है, जो समान मॉडलों द्वारा उपयोग किए जाने वाले डेटा का एक छोटा हिस्सा है। 1B संस्करण को दो 8-GPU H100 सर्वर्स का उपयोग करके 46 घंटे में $1,472 में प्रशिक्षित किया जा सकता है। 0.6B संस्करण की लागत $800 है। डेटा निकालने और PyTorch प्रशिक्षण सहित पूरा इंजीनियरिंग फ्रेमवर्क भी ओपन-सोर्स किया गया है। इस रिलीज में मुख्य बिंदुओं में से एक मुद्रास्फीति डेटा और प्रशिक्षण की कुशलता है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।