پرکلپسٹی AI نے پریمیم سپیڈ ملٹی-GPU انفرنس کے لیے pplx-garden کو اوپن سورس کر دیا ہے

ME AI کی خبر کے مطابق، Beating مانیٹرنگ کے مطابق، سرچ انجن کا بڑا گیم چینر Perplexity AI نے اپنے پروڈکشن ماحول میں استعمال ہونے والے ہائی پرفارمنس انفرنس انسٹالیشن ٹول کٹ pplx-garden کو اوپن سورس کر دیا ہے۔ اس پروجیکٹ کا مرکزی حصہ اپنے ہی تیار کردہ Rust ہائی پرفارمنس پیئر تو پیئر کمیونیکیشن لائبریری fabric-lib (جسے TransferEngine بھی کہا جاتا ہے) ہے، جو نیوڈیا کے منفرد کمیونیکیشن پروٹوکول کے ہارڈویئر بندھن کو توڑنے کا مقصد رکھتی ہے اور ڈویلپرز کو مہنگے منفرد نیٹ ورک سوئچ خریدنے کے بغیر ہی ٹرلین پیرامیٹرز والے بڑے ماڈلز کو غیر متجانس متعدد گرافکس کارڈ کلัสٹرز پر تیزی سے چلانے میں مدد فراہم کرتی ہے۔ روایتی طور پر، تقسیم شدہ بڑے ماڈل انفرنس بہت زیادہ نیوڈیا کے منفرد ہائی اسپیڈ کمیونیکیشن نیٹ ورک پر منحصر ہوتا ہے، جس سے ہارڈویئر ڈپلومنٹ کا خرچ بہت زیادہ ہوتا ہے اور سپلائی چین کا بند ہونا ممکن ہوتا ہے۔ fabric-lib نے ہارڈویئر لیول پر بندھن کو ختم کر دیا ہے، جو نہ صرف NVIDIA ConnectX-7 نیٹ ورک کارڈز کے ساتھ مکمل طور پر مطابقت رکھتی ہے بلکہ امریکہ کے سستے AWS EFA روایتی ایتھرنٹ کارڈز کو بھی نیچل سپورٹ فراہم کرتی ہے، جس سے متعدد کارڈز کے درمیان نیٹ ورک بینڈ ودث فوراً 400 Gbps تک پہنچ جاتی ہے۔ AWS EFA کے فزیکل خرابوں کے خلاف، Perplexity نے ImmCounter کاؤنٹر سنکرونائزیشن مکینزم کا افتتاح کیا، جس سے ڈیٹا پیکٹس کے آرڈر پر سخت فرض لگائے بغیر "زیرو کاپی" ڈیٹا فلو کو مؤثر طریقے سے حاصل کیا جاسکتا ہے۔ کمیونیکیشن لائبریری میں مخلوط ماڈلز MoE کے لئے خصوصی طور پر ڈिजائن کردہ ڈیٹا اسپلٹ الگورتھم شامل ہے، جو گرافکس کارڈز کو ڈیٹا وصول کرنے اور مینٹرکس کمپوٹیشن کو گہرا اوورلپ کرتا ہے، جس سے دکوڈنگ مرحلے میں حساباتی طاقت کو بڑھایا جاتا ہے۔ عملی پروڈکشن میں، pplx-garden سے حاصل ہونے والے انجینئرنگ فائدے بہت واضح ہیں۔ انفرنس آرکٹیکچر کو الگ کرنے پر، نیٹ ورک لائبریری نے Prefill نوڈز اور Decoder نوڈز کے درمیان کلید-قدرت ذخیرہ کو تیز رفتار سcheduling فراہم کیا۔ اسنسرون رینفورسمنٹ لرننگ ٹریننگ میں، صرف 1.3 سیکنڈ میں ٹرلین پیرامیٹرز والے ماڈل کا وزن سنسکرونائز اور شائع ہوجاتا ہے۔ تقسیم مرحلے میں حساباتی تاخیر حل کرنے کے لئے، pplx-garden نے Rust میں دوبارہ تعمیر شدہ pplx-unigram tokenizer بھي اوپن سورس کردیا، جس سے CPU استعمال میں 5 سے 6 گنا تک کمی آگئی اور تقسیم مرحلے میں ریرائرنگ اور ویکٹر ماڈلز کا پرفارمنس باڑ ختم ہوگئيا۔ (ذرائع: BlockBeats)