MIT का MeMo फ्रेमवर्क LLM प्रदर्शन को 26% बढ़ाता है

iconCryptoBriefing
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
MIT के शोधकर्ता, सिंगापुर और A*STAR की टीमों के साथ, MeMo फ्रेमवर्क का अनावरण किया, जो पुनः प्रशिक्षण के बिना LLM के प्रदर्शन को 26.73% तक बढ़ाता है। यह प्रणाली एक छोटे मॉडल का उपयोग करके ज्ञान को संग्रहीत और प्राप्त करती है, जिससे मुख्य LLM अपरिवर्तित रहता है। यह ऑन-चेन समाचार अपडेट BrowseComp-Plus और NarrativeQA जैसे डेटासेट्स पर लाभों को उजागर करता है, और ओपन और क्लोज्ड-सोर्स मॉडल्स के साथ संगति रखता है। यह विधि भयानक भूल को रोकती है और ब्लॉकचेन और DeFi जैसे क्रिप्टो समाचार क्षेत्रों को लाभ पहुंचा सकती है, जहां AI एजेंट्स को पुनः प्रशिक्षण के बिना अपडेटेड ज्ञान की आवश्यकता होती है।

एक बड़े भाषा मॉडल को इसके प्रशिक्षण के बाद कुछ नया सिखाना, दयालुता से कहें तो, एक बड़ी परेशानी है। आप या तो पूरे मॉडल को पुनः प्रशिक्षित करते हैं (महंगा), या दस्तावेज़ों को इसकी संदर्भ खिड़की में भर देते हैं (सीमित), या फिर ऐसे प्राप्ति प्रणालियों को जोड़ देते हैं जो जटिल प्रश्नों पर अक्सर फंस जाती हैं। MIT CSAIL, सिंगापुर के राष्ट्रीय विश्वविद्यालय और A*STAR के शोधकर्ताओं ने अभी हाल ही में एक ऐसा ढांचा प्रकाशित किया है जो इन तीनों समस्याओं से बचता है।

इस फ्रेमवर्क का नाम MeMo है, जो Memory as a Model के लिए संक्षिप्त है। इसका विस्तार से वर्णन 20 मई, 2026 को जारी एक पेपर (arXiv:2605.15156) में किया गया था, और मूल विचार सरल और शानदार है: एक मौजूदा LLM में नए ज्ञान को बलपूर्वक डालने के बजाय, एक अलग, छोटे मॉडल को प्रशिक्षित करें जिसका केवल काम चीजों को याद रखना हो। मुख्य LLM अपरिवर्तित रहता है। जब इसे उत्तरों की आवश्यकता होती है, तो यह केवल मेमोरी मॉडल से प्रश्न पूछता है।

MeMo वास्तव में कैसे काम करता है

तकनीकी रूप से, MeMo नए क्षेत्र के ज्ञान पर मेमोरी मॉडल को प्रशिक्षित करने के लिए एक पांच-चरणीय प्रतिबिंब QA संश्लेषण पाइपलाइन का उपयोग करता है। निष्कर्षण समय, फ्रॉजन एग्जीक्यूटिव LLM, जैसे Qwen2.5 या Gemini-3-Flash, एक संरचित बहु-चक्रीय प्रोटोकॉल के माध्यम से मेमोरी मॉडल को क्वेरी करता है। मेमोरी मॉडल केवल टेक्स्ट चंक्स को पुनः प्राप्त करने के बजाय सूचना को आंतरिक कर लेता है, जो इसे पारंपरिक रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) सेटअप्स से अलग करता है।

यह आर्किटेक्चर विनाशकारी भूल को रोकता है, जिसमें नए डेटा पर न्यूरल नेटवर्क को अपडेट करने से पहले सीखी गई क्षमताएँ खो जाती हैं। इसका अर्थ यह भी है कि जब नयी जानकारी आती है, तो आपको बड़े, महंगे एग्जीक्यूटिव मॉडल को फिर से ट्यून करने की आवश्यकता नहीं होती। आप केवल छोटे मेमोरी मॉडल को अपडेट करते हैं।

विज्ञापन

BrowseComp-Plus, NarrativeQA और MuSiQue सहित डेटासेट्स पर किए गए बेंचमार्क्स ने दर्शाया कि शोधकर्ताओं ने एग्जीक्यूटिव मॉडल्स को Gemini-3-Flash पर स्विच करने पर, मेमोरी कंपोनेंट को पुनः प्रशिक्षित किए बिना, अधिकतम 26.73% का प्रदर्शन सुधार प्राप्त किया। मेमोरी मॉडल, एक बार प्रशिक्षित होने के बाद, एक यूनिवर्सल एडाप्टर की तरह विभिन्न एग्जीक्यूटिव LLMs के साथ काम करता था।

यह प्लग-एंड-प्ले संगति खुले और बंद स्रोत दोनों प्रकार के LLMs तक विस्तारित है। आप एक बार मेमोरी मॉडल को प्रशिक्षित कर सकते हैं और इसे अपने संगठन के पसंदीदा किसी भी अग्रणी मॉडल के साथ डिप्लॉय कर सकते हैं, या बेहतर मॉडल उपलब्ध होने पर एग्जीक्यूटिव मॉडल्स को बदल सकते हैं। ज्ञान परत स्वतंत्र रूप से बनी रहती है।

RAG की तुलना में इसकी कमजोरियाँ अच्छी तरह से दस्तावेज़ीकृत हैं। यह प्राप्त दस्तावेज़ों में शोर के प्रति संवेदनशील है, बहु-दस्तावेज़ी तर्क के साथ कठिनाई का सामना करता है, और ऐसे प्रश्नों के लिए खराब हो जाता है जिनमें कई स्रोतों से जानकारी को संश्लेषित करने की आवश्यकता होती है। MeMo का दृष्टिकोण, जिसमें ज्ञान को मॉडल वजन में कोडित किया जाता है और कच्चा पाठ प्राप्त नहीं किया जाता, ऐसे परिदृश्यों का अधिक मजबूती से समाधान करता है।

इसका क्रिप्टो एआई इंफ्रास्ट्रक्चर के लिए क्यों महत्वपूर्ण है

MeMo शोध में कोई ब्लॉकचेन टोकन या क्रिप्टो-विशिष्ट परियोजनाएँ नहीं बताई गई हैं। आइए इसे शुरुआत में ही स्पष्ट कर दें।

ऑन-चेन विश्लेषण सबसे स्पष्ट उपयोग के मामलों में से एक है। डीफाई प्रोटोकॉल को निगरानी करने वाले, वॉलेट गतिविधि को ट्रैक करने वाले या संदिग्ध लेनदेन को चिह्नित करने वाले एआई एजेंट्स को नए कॉन्ट्रैक्ट्स, गवर्नेंस प्रस्तावों और बाजार की स्थितियों के बारे में लगातार अपडेटेड ज्ञान की आवश्यकता होती है। एक मेमो-शैली की आर्किटेक्चर एक डीफाई विश्लेषण एजेंट को अपने मेमोरी मॉडल में एक स्थायी, अपडेट करने योग्य ज्ञान संग्रह बनाए रखने की अनुमति दे सकती है, जबकि यह किसी भी सबसे आगे के एलएलएम के माध्यम से निष्पादन करता है जो सर्वोत्तम तर्क क्षमता प्रदान करता है। जब कोई प्रोटोकॉल अपने पैरामीटर्स को बदलता है, तो आप मेमोरी मॉडल को अपडेट करते हैं। एग्जीक्यूटिव को अछूता रखा जाता है।

ऑपरेशनल लागत का पहलू महत्वपूर्ण है। बड़े मॉडल्स को पुनः प्रशिक्षित करना AI-मूल क्रिप्टो एप्लिकेशन्स के लिए सबसे बड़े खर्चों में से एक है, और यह एक ऐसी आवर्ती लागत है जो आधारभूत डेटा के बदलाव की आवृत्ति के साथ बढ़ती है। एक ऐसा फ्रेमवर्क जो प्रदर्शन को बनाए रखते हुए या सुधारते हुए पुनः प्रशिक्षण को समाप्त कर दे, जटिल AI एजेंट्स को चलाने की लागत को महत्वपूर्ण रूप से कम कर सकता है।

निवेशकों को क्या देखना चाहिए

RAG को LLMs को अपडेट रखने के लिए डिफ़ॉल्ट दृष्टिकोण के रूप में इस्तेमाल किया जाता रहा है, और इसके चारों ओर वेक्टर डेटाबेस, एम्बेडिंग मॉडल्स और रिट्रीवल पाइपलाइन्स का एक पूरा परितंत्र विकसित किया गया है। यदि MeMo का दृष्टिकोण स्केल पर अधिक प्रभावी साबित होता है, तो इस बुनियादी ढांचे में से कुछ कम आवश्यक हो जाएगा।

एक जोखिम जिसका उल्लेख किया जाना चाहिए: MeMo के परीक्षण शैक्षणिक डेटासेट पर किए गए थे। क्रिप्टो बाजारों जैसे शोर और विरोधी परिवेश में वास्तविक दुनिया का प्रदर्शन अलग हो सकता है।

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।