سیپیئنٹ 1 ارب پیرامیٹر HRM-ٹیکسٹ ماڈل کو 1,300 گنا کم تربیتی لاگت کے ساتھ اوپن سورس کرتا ہے

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
سیپیئنٹ انٹیلیجنس نے 19 مئی (UTC+8) کو آن-چین خبر جاری کی، جس میں HRM-Text، ایک 1 ارب پیرامیٹر ٹیکسٹ ماڈل جس میں ہائیرارکیکل ریزننگ آرکیٹیکچر ہے، کو اوپن سورس کیا گیا۔ یہ ماڈل لینٹن اسپیس ریزننگ کا استعمال کرتا ہے تاکہ پری-ٹریننگ لاگت کو 130 سے 600 گنا کم کیا جا سکے۔ اسے 40 ارب سٹرکچرڈ ٹوکنز پر ٹرین کیا گیا، جو مشابہ ماڈلز کے استعمال کیے جانے والے ڈیٹا کا ایک نسبتاً چھوٹا حصہ ہے۔ 1 ارب ورژن کو دو 8-GPU H100 سرورز کے استعمال سے 46 گھنٹوں میں $1,472 میں ٹرین کیا جا سکتا ہے۔ 0.6 ارب ورژن کی لاگت $800 ہے۔ مکمل انجینئرنگ فریم ورک، جس میں ڈیٹا اکٹھا کرنے اور PyTorch ٹریننگ شامل ہے، بھی اوپن سورس کیا گیا ہے۔ انفلیشن ڈیٹا اور ٹریننگ کی کارکردگی اس رلیز میں اہم نکات ہیں۔

AIMPACT کا پیغام، 19 مئی (UTC+8)، Beating کی نگرانی کے مطابق، Sapient Intelligence نے 1 ارب پیرامیٹرز (1B) کے ٹیکسٹ جنریشن بیس مدل HRM-Text کو اوپن سورس کر دیا ہے۔ یہ ایک لیورل ریزننگ مدل (HRM) آرکیٹیکچر پر مبنی صرف پری ٹرینڈ مدل ہے۔ اس نے آرکیٹیکچر کے نیچلے لیول پر لیٹنٹ اسپیس ریزننگ کو شامل کرکے بیس مدل پری ٹریننگ کے کمپوٹیشنل کوسٹ کو 130 سے 600 گنا تک کم کردیا ہے۔ خاص طور پر، HRM-Text نے صرف 40 ارب (40B) سٹرکچرڈ ٹوکنز کا استعمال کرتے ہوئے پری ٹریننگ مکمل کی، جو اسی سائز کے عام مڈلز کے مقابلے میں تقریباً ایک ہزارویں حصہ ہے۔ باقاعدہ ٹیسٹنگ کے مطابق، دو H100 سرورز (ہر ایک پر 8 کارڈ) کا استعمال کرتے ہوئے، 1B ورژن کو صرف 46 گھنٹوں میں صفر سے ٹرین کیا جاسکتا ہے، جس کا کمپوٹیشنل کوسٹ تقریباً 1472 امریکی ڈالر ہے؛ جبکہ 0.6B ورژن صرف ایک نوڈ پر 50 گھنٹے میں چل جاتا ہے اور اس کا ہارڈ ویئر کوسٹ تقریباً 800 امریکی ڈالر ہے۔ مکمل انجینئرنگ فریم ورک، جس میں ڈیٹا اکھڑنا، سیریز بینڈلنگ اور PyTorch ڈسٹریبیوٹڈ ٹریننگ شامل ہے، بھی ساتھ ہی اوپن سورس کردیا گیا ہے۔ انتہائی کم لاگت کا بنیادی سہارا منفرد "ڈوئل-ٹائم اسکیل ریکرینٹ" ڈیزائن پر مبنی ہے۔ مدل میں دو سیٹس موجود ہیں: تیز (نچلا) اور آہستہ (اوپر والا) Transformer ماڈولز۔ ان دونوں سیٹس ایک ہی ان پٹ پر متناوب طور پر آئٹریٹ ہوتے ہیں اور ان کے سٹیٹس جمع کرنے سے معلومات شیر کرتے ہیں۔ اس ڈیزائن سے ماڈل فزکل پیرامیٹرز کے مجموعے کو مستقل رکھتے ہوئے، ریکرینشنز کی تعداد بڑھا کر کمپوٹیشنل ڈپتھ کو دائرہ بند کرتا ہے۔ پری ٹریننگ کا رُخ نمایاں طور پر کم ہونے سے، بہت سے پرانے ماڈل تھئورز جو پہلے کمپوٹیشنل لاگت کے باعث منسوخ کردئے جاچکے تھے، اب نئے طور پر سستے طریقے سے جانچنے کا موقع حاصل کرتے ہیں۔ خاص طور پر توجہ دینے والی بات یہ ہے کہ ابھی جاری کردہ وزن صرف الائن نہ ہونے والے صرف پری ٹرینڈ وزن ہیں، جس سے ماڈل صرف پرفکس اسٹینشن تک محدود رہتا ہے اور براہ راست سوال و جواب اسسٹنٹ کے طور پر استعمال نہیں کیا جاسکتا۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔