MIT-এর MeMo ফ্রেমওয়ার্ক LLM-এর পারফরম্যান্স 26% বাড়ায়

iconCryptoBriefing
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
এমআইটি গবেষকরা, সিঙ্গাপুর এবং A*STAR-এর দলের সাথে মিলে, মেমো ফ্রেমওয়ার্ক প্রকাশ করেছে, যা পুনর্প্রশিক্ষণ ছাড়াই এলএলএম-এর কর্মক্ষমতা ২৬.৭৩% বাড়িয়েছে। এই সিস্টেমটি একটি ছোট মডেল ব্যবহার করে জ্ঞান সংরক্ষণ এবং পুনরুদ্ধার করে, যাতে মূল এলএলএম অপরিবর্তিত থাকে। এই অন-চেইন সংবাদ আপডেটটি BrowseComp-Plus এবং NarrativeQA-এর মতো ডেটাসেটগুলিতে অর্জিত উন্নতির উল্লেখ করে, যা ওপেন এবং ক্লোজড-সোর্স মডেলগুলির সাথে সামঞ্জস্যপূর্ণ। এই পদ্ধতিটি ভয়ঙ্কর ভুলের সমস্যা এড়ায় এবং ব্লকচেইন এবং DeFi-এর মতো ক্রিপ্টো সংবাদ খাতগুলিতে উপকারী হতে পারে, যেখানে এআই এজেন্টগুলিকে পুনর্প্রশিক্ষণ ছাড়াই আপডেটেড জ্ঞানের প্রয়োজন।

একটি বড় ভাষা মডেলকে এটি প্রশিক্ষণের পরে কিছু নতুন জিনিস শেখানো, উদারভাবে বললে, একটি কষ্ট। আপনি বা তো সম্পূর্ণটিকে পুনরায় প্রশিক্ষণ দেন (মহাকাশী), বা দলিলগুলি এর প্রসঙ্গ উইন্ডোতে ঢোকান (সীমিত), অথবা এমন রিট্রিভাল সিস্টেমগুলি যোগ করেন যা প্রায়শই জটিল প্রশ্নগুলিতে আটকে যায়। MIT CSAIL, সিঙ্গাপুরের জাতীয় বিশ্ববিদ্যালয় এবং A*STAR-এর গবেষকরা এই তিনটি সমস্যার সমাধানের জন্য একটি ফ্রেমওয়ার্ক প্রকাশ করেছেন।

এই ফ্রেমওয়ার্কটির নাম MeMo, যার পূর্ণরূপ Memory as a Model। এটি ২০২৬ সালের ২০ মে প্রকাশিত একটি পেপারে (arXiv:2605.15156) বিস্তারিতভাবে বর্ণনা করা হয়েছে, এবং এর মূল ধারণাটি সুন্দরভাবে সরল: একটি বিদ্যমান LLM-এ নতুন জ্ঞান জোর করে ঢোকানোর পরিবর্তে, একটি আলাদা, ছোট মডেল ট্রেন করুন, যার একমাত্র কাজ হলো জিনিসগুলোকে মনে রাখা। প্রধান LLM-টি ফ্রিজড থাকে। এটি শুধুমাত্র উত্তরের প্রয়োজনে মেমোরি মডেলকে প্রশ্ন করে।

MeMo কিভাবে কাজ করে

প্রযুক্তিগতভাবে, MeMo নতুন ডোমেইন জ্ঞানের উপর মেমোরি মডেল প্রশিক্ষণের জন্য একটি পাঁচ-ধাপবিশিষ্ট প্রতিফলন QA সংশ্লেষণ পাইপলাইন ব্যবহার করে। উপসংহারের সময়, Qwen2.5 বা Gemini-3-Flash এর মতো ফ্রোজেন এক্সিকিউটিভ LLM একটি সংগঠিত বহু-পর্যায়ের প্রোটোকলের মাধ্যমে মেমোরি মডেলকে জিজ্ঞাসা করে। মেমোরি মডেলটি শুধুমাত্র টেক্সট চাঙ্কগুলি খুঁজে পাওয়ার পরিবর্তে তথ্যগুলিকে অন্তর্ভুক্ত করে, যা এটিকে ঐতিহ্যবাহী রিট্রিভাল-অগমেন্টেড জেনারেশন (RAG) সেটআপগুলির থেকে পৃথক করে।

এই আর্কিটেকচার ক্যাটাস্ট্রোফিক ফরগেটিং এড়ায়, যেখানে নতুন ডেটাতে একটি নিউরাল নেটওয়ার্ককে আপডেট করলে এটি আগের শেখা ক্ষমতা হারিয়ে ফেলে। এর মানে হলো যখনই নতুন তথ্য আসবে, আপনাকে বড়, মহং এক্সিকিউটিভ মডেলকে আবার টিউন করার দরকার হবে না। আপনি শুধুমাত্র ছোট Memory মডেলটি আপডেট করবেন।

বিজ্ঞাপন

BrowseComp-Plus, NarrativeQA এবং MuSiQue সহ ডেটাসেটগুলিতে পরীক্ষা করে দেখা গেছে যে গবেষকদের যখন এক্সিকিউটিভ মডেলগুলি Gemini-3-Flash-এ স্যুইচ করা হয়েছিল, তখন মেমরি উপাদানটি পুনর্প্রশিক্ষণ ছাড়াই পারফরম্যান্সে 26.73% পর্যন্ত উন্নতি দেখা গেছে। মেমরি মডেলটি, একবার প্রশিক্ষিত হলে, একটি ইউনিভার্সাল অ্যাডাপ্টারের মতো বিভিন্ন এক্সিকিউটিভ LLM-এর সাথে কাজ করেছিল।

এই প্লাগ-অ্যান্ড-প্লে সামঞ্জস্যতা উন্মুক্ত এবং বন্ধ সোর্স LLM উভয়ের জন্যই প্রযোজ্য। আপনি একবার একটি মেমোরি মডেল ট্রেন করতে পারেন এবং আপনার সংস্থার পছন্দমতো যেকোনো ফ্রন্টিয়ার মডেলের সাথে ডিপ্লয় করতে পারেন, অথবা যখন ভালো মডেলগুলি উপলব্ধ হবে, তখন একিউটিভ মডেলগুলি পরিবর্তন করতে পারেন। জ্ঞানের স্তরটি স্বাধীনভাবে টিকে থাকে।

তুলনায়, আরএজির ভালভাবে নথিভুক্ত দুর্বলতা রয়েছে। এটি প্রাপ্ত দলিলগুলিতে শব্দের প্রতি সংবেদনশীল, একাধিক দলিলের যুক্তির সাথে সমস্যায় ভোগে, এবং অনেকগুলি উৎসের মধ্যে তথ্য সংশ্লেষণের প্রয়োজন হলে এটি দুর্বল হয়ে পড়ে। মেমোর পদ্ধতি, যা কাজের জন্য মডেলের ওজনে জ্ঞান এনকোড করে, এই পরিস্থিতিগুলির সাথে আরও দৃঢ়ভাবে মোকাবিলা করে।

ক্রিপ্টো এআই ইনফ্রাস্ট্রাকচারের জন্য এটি কেন গুরুত্বপূর্ণ

MeMo গবেষণায় কোনো ব্লকচেইন টোকেন বা ক্রিপ্টো-নির্দিষ্ট প্রকল্পের উল্লেখ নেই। এটা আমরা শুরুতেই পরিষ্কার করে রাখি।

অন-চেইন বিশ্লেষণ হল সবচেয়ে স্পষ্ট ব্যবহারের মধ্যে একটি। ডিফি প্রোটোকলগুলি মনিটর করে, ওয়ালেট কার্যকলাপ ট্র্যাক করে বা সন্দেহজনক লেনদেনগুলি চিহ্নিত করে এমন এআই এজেন্টগুলির জন্য নতুন কনট্রাক্ট, গভর্ন্যান্স প্রস্তাব এবং মার্কেটের অবস্থার সর্বদা আপডেটেড জ্ঞানের প্রয়োজন। একটি মেমো-স্টাইল আর্কিটেকচার একটি ডিফি বিশ্লেষণ এজেন্টকে তার মেমোরি মডেলে একটি স্থায়ী, আপডেটযোগ্য জ্ঞান সংগ্রহ রাখতে দিতে পারে, যখন এটি যেকোনো ফ্রন্টিয়ার LLM-এর মাধ্যমে উপযুক্ততম যুক্তির ক্ষমতা ব্যবহার করে। যখন একটি প্রোটোকল তার প্যারামিটারগুলি পরিবর্তন করে, তখন আপনি মেমোরি মডেলটি আপডেট করেন। একজিকিউটিভটি অপরিবর্তিত থাকে।

অপারেশনাল খরচের দিকটি গুরুত্বপূর্ণ। বড় মডেলগুলি পুনরায় প্রশিক্ষণ দেওয়া হল এআই-নেটিভ ক্রিপ্টো অ্যাপ্লিকেশনের জন্য সবচেয়ে বড় খরচগুলির মধ্যে একটি, এবং এটি একটি পুনরাবৃত্তিমূলক খরচ যা ভিত্তিভূমির ডেটা কতটা প্রায়শই পরিবর্তিত হয় তার সাথে বাড়ে। পুনরায় প্রশিক্ষণকে বাদ দিয়েও পারফরম্যান্সকে বজায় রাখা বা উন্নত করতে পারে এমন একটি ফ্রেমওয়ার্ক জটিল এআই এজেন্টগুলি চালানোর খরচকে উল্লেখযোগ্যভাবে কমিয়ে দিতে পারে।

যা বিনিয়োগকারীদের দেখতে হবে

আরএজি এলএলএমগুলিকে আপ-টু-ডেট রাখার জন্য ডিফল্ট পদ্ধতি হয়ে উঠেছে, এবং এর চারপাশে ভেক্টর ডাটাবেস, এমবেডিং মডেল এবং রিট্রিভাল পাইপলাইনের একটি সম্পূর্ণ বাস্তুতন্ত্র গড়ে উঠেছে। যদি মেমোর পদ্ধতি স্কেলে বেশি কার্যকরী প্রমাণিত হয়, তবে এই অনেক অবকাঠামো কমই প্রয়োজনীয় হয়ে পড়বে।

একটি ঝুঁকি উল্লেখযোগ্য: মেমোর বেঞ্চমার্কগুলি শিক্ষাগত ডেটাসেটগুলিতে পরিচালিত হয়েছিল। ক্রিপ্টো বাজারের মতো শব্দযুক্ত, বিরোধী পরিবেশে বাস্তব-জগতের কর্মক্ষমতা ভিন্ন হতে পারে।

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।