پرکلپسٹی AI نے پریمیم سپیڈ ملٹی-GPU انفرنس کے لیے pplx-garden کو اوپن سورس کر دیا ہے

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
پرپلیکسٹی AI نے اپنا اعلیٰ کارکردگی والے انفرینس ٹول کٹ، pplx-garden، اوپن سورس کر دیا ہے تاکہ متعدد GPU پروسیسنگ کو بڑھایا جا سکے۔ یہ ٹول کٹ ایک رسٹ بنیادی مواصلاتی لائبریری، fabric-lib، شامل کرتا ہے جو NVIDIA کے پروٹوکولز کو نظرانداز کرتا ہے اور NVIDIA ConnectX-7 اور AWS EFA کے ذریعے 400 Gbps بینڈ ویتھ کی حمایت کرتا ہے۔ اس میں زیرو کاپی ڈیٹا ٹرانسفر اور MoE-بہترین الگورتھمز شامل ہیں، جو ٹوکنائزیشن میں CPU کے استعمال کو کم کرتے ہیں۔ یہ AI + کرپٹو خبروں کا اپڈیٹ ڈویلپرز کے لیے ایک نیا ٹول بتاتا ہے۔ سود کے اعداد و شمار کے رجحانات مستقبل میں AI انفراسٹرکچر کے سرمایہ کاری پر اثر ڈال سکتے ہیں۔
ME AI کی خبر کے مطابق، Beating مانیٹرنگ کے مطابق، سرچ انجن کا بڑا گیم چینر Perplexity AI نے اپنے پروڈکشن ماحول میں استعمال ہونے والے ہائی پرفارمنس انفرنس انسٹالیشن ٹول کٹ pplx-garden کو اوپن سورس کر دیا ہے۔ اس پروجیکٹ کا مرکزی حصہ اپنے ہی تیار کردہ Rust ہائی پرفارمنس پیئر تو پیئر کمیونیکیشن لائبریری fabric-lib (جسے TransferEngine بھی کہا جاتا ہے) ہے، جو نیوڈیا کے منفرد کمیونیکیشن پروٹوکول کے ہارڈویئر بندھن کو توڑنے کا مقصد رکھتی ہے اور ڈویلپرز کو مہنگے منفرد نیٹ ورک سوئچ خریدنے کے بغیر ہی ٹرلین پیرامیٹرز والے بڑے ماڈلز کو غیر متجانس متعدد گرافکس کارڈ کلัสٹرز پر تیزی سے چلانے میں مدد فراہم کرتی ہے۔ روایتی طور پر، تقسیم شدہ بڑے ماڈل انفرنس بہت زیادہ نیوڈیا کے منفرد ہائی اسپیڈ کمیونیکیشن نیٹ ورک پر منحصر ہوتا ہے، جس سے ہارڈویئر ڈپلومنٹ کا خرچ بہت زیادہ ہوتا ہے اور سپلائی چین کا بند ہونا ممکن ہوتا ہے۔ fabric-lib نے ہارڈویئر لیول پر بندھن کو ختم کر دیا ہے، جو نہ صرف NVIDIA ConnectX-7 نیٹ ورک کارڈز کے ساتھ مکمل طور پر مطابقت رکھتی ہے بلکہ امریکہ کے سستے AWS EFA روایتی ایتھرنٹ کارڈز کو بھی نیچل سپورٹ فراہم کرتی ہے، جس سے متعدد کارڈز کے درمیان نیٹ ورک بینڈ ودث فوراً 400 Gbps تک پہنچ جاتی ہے۔ AWS EFA کے فزیکل خرابوں کے خلاف، Perplexity نے ImmCounter کاؤنٹر سنکرونائزیشن مکینزم کا افتتاح کیا، جس سے ڈیٹا پیکٹس کے آرڈر پر سخت فرض لگائے بغیر "زیرو کاپی" ڈیٹا فلو کو مؤثر طریقے سے حاصل کیا جاسکتا ہے۔ کمیونیکیشن لائبریری میں مخلوط ماڈلز MoE کے لئے خصوصی طور پر ڈिजائن کردہ ڈیٹا اسپلٹ الگورتھم شامل ہے، جو گرافکس کارڈز کو ڈیٹا وصول کرنے اور مینٹرکس کمپوٹیشن کو گہرا اوورلپ کرتا ہے، جس سے دکوڈنگ مرحلے میں حساباتی طاقت کو بڑھایا جاتا ہے۔ عملی پروڈکشن میں، pplx-garden سے حاصل ہونے والے انجینئرنگ فائدے بہت واضح ہیں۔ انفرنس آرکٹیکچر کو الگ کرنے پر، نیٹ ورک لائبریری نے Prefill نوڈز اور Decoder نوڈز کے درمیان کلید-قدرت ذخیرہ کو تیز رفتار سcheduling فراہم کیا۔ اسنسرون رینفورسمنٹ لرننگ ٹریننگ میں، صرف 1.3 سیکنڈ میں ٹرلین پیرامیٹرز والے ماڈل کا وزن سنسکرونائز اور شائع ہوجاتا ہے۔ تقسیم مرحلے میں حساباتی تاخیر حل کرنے کے لئے، pplx-garden نے Rust میں دوبارہ تعمیر شدہ pplx-unigram tokenizer بھي اوپن سورس کردیا، جس سے CPU استعمال میں 5 سے 6 گنا تک کمی آگئی اور تقسیم مرحلے میں ریرائرنگ اور ویکٹر ماڈلز کا پرفارمنس باڑ ختم ہوگئيا۔ (ذرائع: BlockBeats)
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔