نوس ریسرچ نے لائٹہاؤس ایٹینشن کو اوپن سورس کر دیا، B200 پر 17x سپیڈ بوسٹ حاصل کیا

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
آن-چین خبروں کے ذریعہ میٹا ایرا نے 16 مئی (یو ٹی سی +8) کو رپورٹ کیا کہ نوس ریسرچ نے لمبے حوالہ والے پری-ٹریننگ کے لیے اپنا لائٹہاؤس اٹینشن میکنزم آن لائن کر دیا ہے۔ یہ طریقہ 512K لمبائی کے متن کے لیے ایک B200 GPU پر 17 گنا تیز حساب کتاب فراہم کرتا ہے اور 98K لمبائی پر 1.4–1.7 گنا تربیت کی رفتار۔ یہ کم سطح کے کوڈنگ یا اضافی تربیت کے مقاصد سے بچنے کے لیے دو مرحلہ عمل استعمال کرتا ہے۔ ٹیسٹس میں، 50B ٹوکنز پر تربیت پانے والے 530M پیرامیٹر ماڈل نے روایتی طریقوں کو مساوی یا بہتر پرفارم کیا جبکہ تربیت کا وقت کم کیا۔ کرپٹو خبروں کے پلیٹ فارمز ڈویلپرز اور ریسرچرز کے لیے کارکردگی میں اضافے پر زور دے رہے ہیں۔

AIMPACT کا پیغام، 16 مئی (UTC+8)، Beating کی نگرانی کے مطابق، Nous Research نے لمبے سیاق و سباق کی پیش تربیت کے لیے Lighthouse Attention کا اوپن سورس مکینزم جاری کیا ہے۔ ایک B200 گرافکس کارڈ پر 512K لمبائی کے متن کو پروسیس کرتے وقت، یہ حل روایتی مکینزم کے مقابلے میں تقریباً 17 گنا تیز ہے، اور 98K لمبائی پر 1.4 سے 1.7 گنا تک اندرونی تربیت کی رفتار بڑھاتا ہے۔ روایتی توجہ مکینزم کو تمام الفاظ کے درمیان جوڑوں کی حساب کتاب کرنی پڑتی ہے، جس سے متن لمبا ہوتا ہے تو حسابی طاقت کا استعمال مربع کے مطابق بڑھ جاتا ہے۔ Lighthouse Attention نے ایک ایسے طریقہ کار کو اپنایا ہے جس میں پہلے خلاصہ کو گھسٹا جاتا ہے، پھر تفصیلی حساب لگایا جاتا ہے۔ یہ مختلف سطحوں پر متن کے س compressd خلاصوں کو تیزی سے دیکھتا ہے، اسکورنگ کے ذریعے اہم حصوں کو منتخب کرتا ہے، انہیں ملا کر ایک مختصر متن بناتا ہے، اور پھر اسے موجودہ موثر حسابی آپریٹر FlashAttention کو دے دیتا ہے۔ چونکہ فلٹرنگ منطق بالکل اندر کے کور کے باہر منتقل کر دیا گیا ہے، تو ڈوولپرز کو نچلے لیول کوڈ لکھنے کی ضرورت نہیں پڑتی اور نہ ہی انہیں اضافی تربیت کے مقاصد شامل کرنے پڑتے ہیں۔ پچھلے اس طرح کے تیز رفتار حل عام طور پر نقصانات کا باعث بنے، جس میں ماڈل جھپکنے والی پڑھائی کا عادی ہو جاتا تھا اور اصل میں الفاظ کو احتیاط سے پڑھنے کی صلاحیت ختم ہو جاتی تھی۔ اس جھنڈ سے بچنے کے لیے، تحقیقی ٹیم نے ماڈل کو تقریباً تمام تربیت تک تیز رفتار موڈ میں چلایا، اور صرف تربیت کے آخر میں مختصر عرصہ تک روایتی مکمل توجہ حساب کتاب پر واپس آنے دیا۔ 5.3 ارب پیرامیٹرز والے ماڈل پر، جس نے 500 ارب Token ڈे�ٹا ساتھ تربیت حاصل کی، اس طرح تربیت پانے والا ماڈل نہ صرف وقت بچاتا ہے بلکہ آخر میں روایتی طریقہ سے تربیت پانے والے بنیادی ماڈل سے بھی برابر یا زائد بھی بنتا ہے۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔