ریمپ لیبز نے نیا متعدد ایجنٹ میموری شیئرنگ حل پیش کیا، ٹوکن کے استعمال میں تکرار 65 فیصد تک کمی

ME نیوز کے مطابق، 11 اپریل (UTC+8) کو، AI بنیادی ڈھانچہ کمپنی Ramp Labs نے اپنی تحقیقی رپورٹ "Latent Briefing" جاری کی، جس میں بڑے ماڈلز کے KV کیش کو براہ راست دبایا جاتا ہے تاکہ متعدد ذہین نظاموں کے درمیان موثر طریقے سے یادداشت کا تبادلہ ہو سکے، جس سے ٹوکن کی استعمال میں کافی کمی آتی ہے بغیر کسی درستگی کے نقصان کے۔ مقبول متعدد ذہین ساختوں میں، منظم (Orchestrator) کام کو تقسیم کرتا ہے اور مزدور (Worker) ماڈلز کو دہراتا ہے، جبکہ استدلال کا سلسلہ لمبا ہوتا جاتا ہے، تو ٹوکن کی استعمال میں اس طرح کا اضافہ ہوتا ہے جو اس طرح کے تھری ہوتا ہے۔ Latent Briefing کا مرکزی خیال یہ ہے: توجہ کے نظام کا استعمال کرتے ہوئے متن میں حقیقی طور پر اہم حصوں کو پہچاننا، اور زیادہ تر غیر ضروری معلومات کو ظاہری سطح پر حذف کرنا، جس کے بجائے سست LLM خلاصہ یا بے ثبات RAG ریٹریول پر انحصار نہیں کیا جاتا۔ LongBench v2 بنچ مارک ٹیسٹ میں، یہ طریقہ بہت اچھا نتیجہ دے رہا ہے: مزدور ماڈل کے ٹوکن استعمال میں 65 فیصد کمی، درمیانی لمبائی والے دستاویزات (32k سے 100k) میں ٹوکن بچت کا درمیانی عدد 49 فیصد، اور بنیادی سطح کے مقابلے میں مجموعی درستگی میں تقریباً 3 فیصد اضافہ، جبکہ ہر دباؤ کے لیے اضافی وقت صرف تقریباً 1.7 سیکنڈ ہے، جو اصل الگورتھم کے مقابلے میں تقریباً 20 گنا تیز ہے۔ تجربات میں Claude Sonnet 4 کو منظم اور Qwen3-14B کو مزدور ماڈل کے طور پر استعمال کیا گیا، جس میں اکادمک تحقیق، قانونی دستاویزات، ناول اور حکومتی رپورٹس سمیت مختلف قسم کے دستاویزات شامل تھے۔ تحقیق میں یہ بھی پایا گیا کہ بہترین دباؤ حد مختلف کاموں کی مشکل اور دستاویزات کی لمبائی کے لحاظ سے مختلف ہوتی ہے—مشکل کاموں کے لیے جرات والا دباؤ مناسب ہوتا ہے تاکہ غیر ضروری استدلال کے شور کو فلٹر کیا جا سکے، جبکہ لمبے دستاویزات کے لیے ہلکا دباؤ زیادہ مناسب ہوتا ہے تاکہ بکھرے ہوئے اہم معلومات برقرار رکھے جا سکیں۔ (ذرائع: BlockBeats)