نوس ریسرچ کی TST ٹریننگ میتھڈ نے پچھلے کام کے ساتھ مشابہت کی وجہ سے بحث کو جنم دے دیا ہے

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
نوس ریسرچ نے 14 مئی (UTC+8) کو اپنی ٹوکن اسٹیکنگ ٹریننگ (TST) طریقہ کار کے ساتھ ایک نیا ٹوکن لانچ کی خبر جاری کی، جس میں دعویٰ کیا گیا کہ یہ طریقہ ایک جیسے کمپوٹیشنل لوڈ کے تحت پری ٹریننگ کے وقت کو 2 سے 3 گنا کم کر دیتا ہے۔ اس طریقہ کار میں ابتدائی تربیت کے دوران مجاور ٹوکنز کو ایک ساتھ جمع کیا جاتا ہے اور واحد ٹوکنز کے بجائے ٹوکن پیکجز کا پیشن گوئی کیا جاتا ہے۔ تنقید کنندگان نے جلد ہی TST کی 2024 کے مقالے 'Beyond Next Token Prediction' سے ملتی جلتی شکل کو نوٹ کیا۔ ٹیم نے اس تطابق کو "بدقسمت مطابقت" قرار دیا اور مناسب حوالہ جات شامل کرنے کا وعدہ کیا۔ نئے ٹوکنز کی فہرست بڑھتے ہوئے تنقید کا مرکز بن جاتی ہے، اور یہ معاملہ بھی استثناء نہیں۔

ME نیوز کے مطابق، 14 مئی (UTC+8) کو، Beating کی نگرانی کے مطابق، Nous Research نے بڑے ماڈل کی پری ٹریننگ کے لیے ایک نیا طریقہ "ٹوکن سٹیکنگ ٹریننگ" (TST) جاری کیا ہے۔ اس طریقہ میں تربیت کے ابتدائی مراحل میں مجاور ٹوکنز کو پیک کر کے دبایا جاتا ہے، جس سے ایک جیسے کمپوٹیشنل وسائل کے استعمال کے ساتھ پری ٹریننگ کا وقت 2 سے 3 گنا تک کم ہو جاتا ہے۔ TST دو مراحل پر مشتمل ہے۔ تربیت کے پہلے 20% سے 40% میں، ماڈل الگ الگ ٹوکنز نہیں پڑھتا بلکہ مجاور ٹوکنز کو "پیک" کرکے ان کا اوسط لے کر داخل کرتا ہے، اور آؤٹ پٹ پر اگلے پیک میں کون سے ٹوکنز شامل ہوں گے (اندر کا ترتیب نہیں) کا پیشن گوئی کرتا ہے۔ اس کے بعد، ماڈل عام اگلے ٹوکن کی پیشن گوئی پر واپس آ جاتا ہے۔ چونکہ بنیادی آرکیٹکچر میں کوئی تبدیلی نہیں کی گئی، اس لیے پیدا شدہ ماڈل انفرینس کے دوران عام ماڈلز کے مکمل طور پر مطابق ہوتا ہے۔ اس طریقہ کو 100 ارب پیرامیٹرز تک کے MoE ماڈلز پر تصدیق کر لیا گیا ہے۔ اس منصوبہ کا بنیادی خیال "ڈیٹا کا استعمال کرکے کمپوٹیشنل طاقت بچانا" ہے، جس سے تربیت کا وقت کم ہوتا ہے۔ اگلے مستقبل میں اگر معیاری متن ختم ہو جائے تو، ڈیٹا کو تیزی سے استعمال کرنے کا یہ خاصہ اس کا نقصان ثابت ہو سکتا ہے۔ علاوہ ازیں، پیپر جاری ہونے کے صرف کچھ گھنٹوں بعد، ایک قارئین نے نوٹ کیا کہ TST کا طریقہ 2024 میں جاری شدہ قدیم تحریر "Beyond Next Token Prediction" سے بہت مشابہ ہے۔ اس کے بعد، مصنفین نے Hugging Face پر اعتراف کیا کہ یہ "بھول بھلائی سے ہونے والا مطابقت (convergent research)" تھا، اور وعده کیا کہ وہ پیپر میں حوالہ جات شامل کرنے والے اپڈیٹس کر دیں گے۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔