ریمپ لیبز نے نیا متعدد ایجنٹ میموری شیئرنگ حل پیش کیا، ٹوکن کے استعمال میں تکرار 65 فیصد تک کمی

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
ریمپ لیبز، ایک AI انفراسٹرکچر فرم، نے ٹوکن استعمال کو تقریباً 65% تک کم کرنے کے لیے 'لیٹنٹ بریفنگ' نامی ایک نئی متعدد ایجینٹ میموری شیئرنگ حل پیش کیا ہے۔ یہ طریقہ بڑے ماڈل کے KV کیشز کو دباتا ہے، جس سے درستگی کے بغیر کارکردگی میں بہتری آتی ہے۔ لانگ بینچ v2 ٹیسٹس میں، ٹوکن کا استعمال 65% کم ہوا، جبکہ درمیانی لمبائی کے متن کے لیے درمیانی بچت 49% رہی۔ درستگی میں 3 فیصد کا اضافہ ہوا، اور دباؤ صرف 1.7 سیکنڈ میں ہوا — جو 20 گنا تیز ہے۔ یہ نظام کلوڈ سونٹ 4 کو آرکسٹریٹر کے طور پر اور Qwen3-14B کو ورکر ماڈل کے طور پر استعمال کرتا ہے۔ یہ حل MiCA کے مطابقت کے ساتھ ملتا ہے اور عملی شفافیت کو بڑھانے کے ذریعے CFT کے ابتدائی تجاویز کو سپورٹ کرتا ہے۔

ME نیوز کے مطابق، 11 اپریل (UTC+8) کو، AI بنیادی ڈھانچہ کمپنی Ramp Labs نے اپنی تحقیقی رپورٹ "Latent Briefing" جاری کی، جس میں بڑے ماڈلز کے KV کیش کو براہ راست دبایا جاتا ہے تاکہ متعدد ذہین نظاموں کے درمیان موثر طریقے سے یادداشت کا تبادلہ ہو سکے، جس سے ٹوکن کی استعمال میں کافی کمی آتی ہے بغیر کسی درستگی کے نقصان کے۔ مقبول متعدد ذہین ساختوں میں، منظم (Orchestrator) کام کو تقسیم کرتا ہے اور مزدور (Worker) ماڈلز کو دہراتا ہے، جبکہ استدلال کا سلسلہ لمبا ہوتا جاتا ہے، تو ٹوکن کی استعمال میں اس طرح کا اضافہ ہوتا ہے جو اس طرح کے تھری ہوتا ہے۔ Latent Briefing کا مرکزی خیال یہ ہے: توجہ کے نظام کا استعمال کرتے ہوئے متن میں حقیقی طور پر اہم حصوں کو پہچاننا، اور زیادہ تر غیر ضروری معلومات کو ظاہری سطح پر حذف کرنا، جس کے بجائے سست LLM خلاصہ یا بے ثبات RAG ریٹریول پر انحصار نہیں کیا جاتا۔ LongBench v2 بنچ مارک ٹیسٹ میں، یہ طریقہ بہت اچھا نتیجہ دے رہا ہے: مزدور ماڈل کے ٹوکن استعمال میں 65 فیصد کمی، درمیانی لمبائی والے دستاویزات (32k سے 100k) میں ٹوکن بچت کا درمیانی عدد 49 فیصد، اور بنیادی سطح کے مقابلے میں مجموعی درستگی میں تقریباً 3 فیصد اضافہ، جبکہ ہر دباؤ کے لیے اضافی وقت صرف تقریباً 1.7 سیکنڈ ہے، جو اصل الگورتھم کے مقابلے میں تقریباً 20 گنا تیز ہے۔ تجربات میں Claude Sonnet 4 کو منظم اور Qwen3-14B کو مزدور ماڈل کے طور پر استعمال کیا گیا، جس میں اکادمک تحقیق، قانونی دستاویزات، ناول اور حکومتی رپورٹس سمیت مختلف قسم کے دستاویزات شامل تھے۔ تحقیق میں یہ بھی پایا گیا کہ بہترین دباؤ حد مختلف کاموں کی مشکل اور دستاویزات کی لمبائی کے لحاظ سے مختلف ہوتی ہے—مشکل کاموں کے لیے جرات والا دباؤ مناسب ہوتا ہے تاکہ غیر ضروری استدلال کے شور کو فلٹر کیا جا سکے، جبکہ لمبے دستاویزات کے لیے ہلکا دباؤ زیادہ مناسب ہوتا ہے تاکہ بکھرے ہوئے اہم معلومات برقرار رکھے جا سکیں۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔