Perplexity AI تُصدر pplx-garden مفتوح المصدر لتمكين الاستنتاج عالي السرعة عبر وحدات GPU متعددة

ME AI رسالة، وفقًا لمراقبة Beating، قامت شركة محرك البحث العملاقة Perplexity AI بفتح مصدر أداة البنية التحتية للاستدلال عالي الأداء المستخدمة في بيئة الإنتاج pplx-garden. يكمن جوهر المشروع في مكتبة الاتصال النقطة-إلى-نقطة عالية الأداء التي طورتها الشركة بنفسها، fabric-lib (المعروفة أيضًا باسم TransferEngine)، والتي تهدف إلى كسر الارتباط الحصري ببروتوكولات الاتصال الخاصة بـ NVIDIA، وتمكين المطورين من تشغيل نماذج ضخمة بتريليونات المعلمات على مجموعات بطاقات GPU متنوعة دون الحاجة إلى شراء مفاتيح شبكة مخصصة باهظة الثمن. يعتمد الاستدلال الموزع التقليدي للنماذج الكبيرة بشدة على شبكة اتصال عالية السرعة الحصرية من NVIDIA، مما يؤدي إلى تكاليف تثبيت أجهزة مرتفعة جدًا ومخاطر قفل سلسلة التوريد. تحقق fabric-lib إزالة الارتباط على مستوى الأجهزة، وتتوافق تمامًا مع بطاقات الشبكة NVIDIA ConnectX-7، كما تدعم بشكل أصلي بطاقات Ethernet الرخيصة AWS EFA من أمازون، مما يرفع عرض النطاق الترددي بين بطاقات GPU مباشرة إلى 400 جيجابت في الثانية. لمعالجة العيب الفيزيائي في نقل البيانات غير المرتبة لـ AWS EFA، ابتكرت Perplexity آلية مزامنة ImmCounter، مما يتيح نقل بيانات "بدون نسخ" بكفاءة عالية دون الافتراض الصارم بترتيب حزم البيانات. تحتوي مكتبة الاتصال على خوارزمية توزيع بيانات مصممة خصيصًا لنماذج الخبراء المختلطة MoE، وتُدمج بشكل عميق بين استقبال البيانات من بطاقات GPU والحسابات المصفوفية، مما يضغط بشكل كبير على مساحة الحوسبة في مرحلة الترميز. في البيئة الإنتاجية الفعلية، تجلب pplx-garden فوائد هندسية كبيرة جدًا. في بنية الاستدلال المفككة، تحقق مكتبة الشبكة جدولة سريعة لذاكرة التخزين المؤقت للمفاتيح والقيم بين عقد Prefill وDecoder. في تدريب التعلم المعزز غير المتزامن، يمكن إكمال مزامنة وتنزيل أوزان النموذج بتريليونات المعلمات في غضون 1.3 ثانية فقط. لحل تأخير الحساب في مرحلة التقسيم، أطلقت pplx-garden مفتوحة المصدر أداة تقسيم pplx-unigram التي أُعيد بناؤها باستخدام Rust، مما يقلل استهلاك وحدة المعالجة المركزية مباشرة بنسبة 5 إلى 6 مرات، ويقضي على عقدة الأداء في مرحلة التقسيم بين إعادة الترتيب ونماذج المتجهات. (المصدر: BlockBeats)