सैपिएंट ने 1 बिलियन पैरामीटर HRM-टेक्स्ट मॉडल को 1,300x कम ट्रेनिंग लागत के साथ ओपन सोर्स किया

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
20 मई (UTC+8) को सैपिएंट इंटेलिजेंस ने ऑन-चेन समाचार जारी किया, जिसमें HRM-Text, एक 1 बिलियन पैरामीटर टेक्स्ट मॉडल को ओपन-सोर्स किया गया, जिसमें हाइरार्किकल रीजनिंग आर्किटेक्चर है। यह मॉडल प्री-ट्रेनिंग लागत को 130 से 600 गुना कम करने के लिए लेटेंट स्पेस रीजनिंग का उपयोग करता है। इसे 40 बिलियन स्ट्रक्चर्ड टोकन्स पर प्रशिक्षित किया गया है, जो समान मॉडलों द्वारा उपयोग किए जाने वाले डेटा का एक छोटा हिस्सा है। 1B संस्करण को दो 8-GPU H100 सर्वर्स का उपयोग करके 46 घंटे में $1,472 में प्रशिक्षित किया जा सकता है। 0.6B संस्करण की लागत $800 है। डेटा निकालने और PyTorch प्रशिक्षण सहित पूरा इंजीनियरिंग फ्रेमवर्क भी ओपन-सोर्स किया गया है। इस रिलीज में मुख्य बिंदुओं में से एक मुद्रास्फीति डेटा और प्रशिक्षण की कुशलता है।

AIMPACT संदेश, 19 मई (UTC+8), Beating द्वारा मॉनिटर किए जाने पर, Sapient Intelligence ने 10 अरब पैरामीटर (1B) के टेक्स्ट जनरेशन बेस मॉडल HRM-Text को ओपन सोर्स किया है। यह एक हाइरार्किकल रीजनिंग मॉडल (HRM) आर्किटेक्चर पर आधारित शुद्ध प्री-ट्रेन्ड मॉडल है। इसने आर्किटेक्चर के निचले स्तर पर लेटेंट स्पेस रीजनिंग को शामिल करके बेस मॉडल प्री-ट्रेनिंग के लिए कैलकुलेशन की खपत को 130 से 600 गुना तक कम कर दिया है। विशेष रूप से, HRM-Text ने केवल 40 अरब (40B) स्ट्रक्चर्ड टोकन का उपयोग करके प्री-ट्रेनिंग पूरी की, जो समान श्रेणी के सामान्य मॉडल की तुलना में लगभग हजारवाँ हिस्सा है। आधिकारिक परीक्षणों के अनुसार, दो 8-कार्ड H100 सर्वर्स का उपयोग करके, 1B संस्करण को शून्य से लगभग 46 घंटे में प्रशिक्षित किया जा सकता है, जिसकी कैलकुलेशन लागत लगभग 1472 डॉलर है; जबकि 0.6B संस्करण के लिए केवल एकल नोड पर 50 घंटे की आवश्यकता होती है, और हार्डवेयर लागत लगभग 800 डॉलर है। पूरा इंजीनियरिंग फ्रेमवर्क, जिसमें डेटा एक्सट्रैक्शन, सीक्वेंस पैकिंग और PyTorch डिस्ट्रीब्यूटेड ट्रेनिंग शामिल है, सभी समानांतर रूप से ओपन सोर्स किया गया है। अत्यधिक लागत कम करने का समर्थन अद्वितीय डुअल-टाइमस्केल रिकरेंट (Dual-timescale recurrent) डिज़ाइन पर है। मॉडल में दो सेट हैं—तेज (निचला) और धीमा (उच्च) Transformer मॉड्यूल। ये दोनों मॉड्यूल समान इनपुट पर प्रत्यावर्ती रूप से काम करते हैं, और स्टेट्स को जोड़कर सूचना का आदान-प्रदान करते हैं। इस डिज़ाइन के कारण, मॉडल प्राकृतिक पैरामीटर की संख्या स्थिर होने पर, पुनरावृत्ति की संख्या बढ़ाकर कैलकुलेशन की गहराई को सक्रिय रूप से विस्तारित कर सकता है। प्री-ट्रेनिंग की सीमा में हुई अचानक कमी, पहले कई मॉडल सिद्धांतों को, जो कैलकुलेशन की महंगाई के कारण समय से पहले ही समाप्त हो चुके थे, कम लागत पर पुनः प्रमाणित करने का मौका प्रदान करती है। महत्वपूर्ण है कि संचयित मॉडल में संशोधन (alignment) की प्रक्रिया पूरी नहीं हुई है, मॉडल केवल प्रीफिक्स-कंटिन्यूएशन (prefix continuation) कार्यों को ही संभाल सकता है,और सीधे प्रश्न-उत्तर सहायक के रूप में प्रयोग नहीं किया जा सकता। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।