نوس ریسرچ نے لائٹہاؤس ایٹینشن کو اوپن سورس کر دیا، B200 پر 17x سپیڈ بوسٹ حاصل کیا

AIMPACT کا پیغام، 16 مئی (UTC+8)، Beating کی نگرانی کے مطابق، Nous Research نے لمبے سیاق و سباق کی پیش تربیت کے لیے Lighthouse Attention کا اوپن سورس مکینزم جاری کیا ہے۔ ایک B200 گرافکس کارڈ پر 512K لمبائی کے متن کو پروسیس کرتے وقت، یہ حل روایتی مکینزم کے مقابلے میں تقریباً 17 گنا تیز ہے، اور 98K لمبائی پر 1.4 سے 1.7 گنا تک اندرونی تربیت کی رفتار بڑھاتا ہے۔ روایتی توجہ مکینزم کو تمام الفاظ کے درمیان جوڑوں کی حساب کتاب کرنی پڑتی ہے، جس سے متن لمبا ہوتا ہے تو حسابی طاقت کا استعمال مربع کے مطابق بڑھ جاتا ہے۔ Lighthouse Attention نے ایک ایسے طریقہ کار کو اپنایا ہے جس میں پہلے خلاصہ کو گھسٹا جاتا ہے، پھر تفصیلی حساب لگایا جاتا ہے۔ یہ مختلف سطحوں پر متن کے س compressd خلاصوں کو تیزی سے دیکھتا ہے، اسکورنگ کے ذریعے اہم حصوں کو منتخب کرتا ہے، انہیں ملا کر ایک مختصر متن بناتا ہے، اور پھر اسے موجودہ موثر حسابی آپریٹر FlashAttention کو دے دیتا ہے۔ چونکہ فلٹرنگ منطق بالکل اندر کے کور کے باہر منتقل کر دیا گیا ہے، تو ڈوولپرز کو نچلے لیول کوڈ لکھنے کی ضرورت نہیں پڑتی اور نہ ہی انہیں اضافی تربیت کے مقاصد شامل کرنے پڑتے ہیں۔ پچھلے اس طرح کے تیز رفتار حل عام طور پر نقصانات کا باعث بنے، جس میں ماڈل جھپکنے والی پڑھائی کا عادی ہو جاتا تھا اور اصل میں الفاظ کو احتیاط سے پڑھنے کی صلاحیت ختم ہو جاتی تھی۔ اس جھنڈ سے بچنے کے لیے، تحقیقی ٹیم نے ماڈل کو تقریباً تمام تربیت تک تیز رفتار موڈ میں چلایا، اور صرف تربیت کے آخر میں مختصر عرصہ تک روایتی مکمل توجہ حساب کتاب پر واپس آنے دیا۔ 5.3 ارب پیرامیٹرز والے ماڈل پر، جس نے 500 ارب Token ڈे�ٹا ساتھ تربیت حاصل کی، اس طرح تربیت پانے والا ماڈل نہ صرف وقت بچاتا ہے بلکہ آخر میں روایتی طریقہ سے تربیت پانے والے بنیادی ماڈل سے بھی برابر یا زائد بھی بنتا ہے۔ (ذرائع: BlockBeats)