سیپیئنٹ 1 ارب پیرامیٹر HRM-ٹیکسٹ ماڈل کو 1,300 گنا کم تربیتی لاگت کے ساتھ اوپن سورس کرتا ہے

AIMPACT کا پیغام، 19 مئی (UTC+8)، Beating کی نگرانی کے مطابق، Sapient Intelligence نے 1 ارب پیرامیٹرز (1B) کے ٹیکسٹ جنریشن بیس مدل HRM-Text کو اوپن سورس کر دیا ہے۔ یہ ایک لیورل ریزننگ مدل (HRM) آرکیٹیکچر پر مبنی صرف پری ٹرینڈ مدل ہے۔ اس نے آرکیٹیکچر کے نیچلے لیول پر لیٹنٹ اسپیس ریزننگ کو شامل کرکے بیس مدل پری ٹریننگ کے کمپوٹیشنل کوسٹ کو 130 سے 600 گنا تک کم کردیا ہے۔ خاص طور پر، HRM-Text نے صرف 40 ارب (40B) سٹرکچرڈ ٹوکنز کا استعمال کرتے ہوئے پری ٹریننگ مکمل کی، جو اسی سائز کے عام مڈلز کے مقابلے میں تقریباً ایک ہزارویں حصہ ہے۔ باقاعدہ ٹیسٹنگ کے مطابق، دو H100 سرورز (ہر ایک پر 8 کارڈ) کا استعمال کرتے ہوئے، 1B ورژن کو صرف 46 گھنٹوں میں صفر سے ٹرین کیا جاسکتا ہے، جس کا کمپوٹیشنل کوسٹ تقریباً 1472 امریکی ڈالر ہے؛ جبکہ 0.6B ورژن صرف ایک نوڈ پر 50 گھنٹے میں چل جاتا ہے اور اس کا ہارڈ ویئر کوسٹ تقریباً 800 امریکی ڈالر ہے۔ مکمل انجینئرنگ فریم ورک، جس میں ڈیٹا اکھڑنا، سیریز بینڈلنگ اور PyTorch ڈسٹریبیوٹڈ ٹریننگ شامل ہے، بھی ساتھ ہی اوپن سورس کردیا گیا ہے۔ انتہائی کم لاگت کا بنیادی سہارا منفرد "ڈوئل-ٹائم اسکیل ریکرینٹ" ڈیزائن پر مبنی ہے۔ مدل میں دو سیٹس موجود ہیں: تیز (نچلا) اور آہستہ (اوپر والا) Transformer ماڈولز۔ ان دونوں سیٹس ایک ہی ان پٹ پر متناوب طور پر آئٹریٹ ہوتے ہیں اور ان کے سٹیٹس جمع کرنے سے معلومات شیر کرتے ہیں۔ اس ڈیزائن سے ماڈل فزکل پیرامیٹرز کے مجموعے کو مستقل رکھتے ہوئے، ریکرینشنز کی تعداد بڑھا کر کمپوٹیشنل ڈپتھ کو دائرہ بند کرتا ہے۔ پری ٹریننگ کا رُخ نمایاں طور پر کم ہونے سے، بہت سے پرانے ماڈل تھئورز جو پہلے کمپوٹیشنل لاگت کے باعث منسوخ کردئے جاچکے تھے، اب نئے طور پر سستے طریقے سے جانچنے کا موقع حاصل کرتے ہیں۔ خاص طور پر توجہ دینے والی بات یہ ہے کہ ابھی جاری کردہ وزن صرف الائن نہ ہونے والے صرف پری ٹرینڈ وزن ہیں، جس سے ماڈل صرف پرفکس اسٹینشن تک محدود رہتا ہے اور براہ راست سوال و جواب اسسٹنٹ کے طور پر استعمال نہیں کیا جاسکتا۔ (ذرائع: BlockBeats)