Perplexity AI تُصدر pplx-garden مفتوح المصدر لتمكين الاستنتاج عالي السرعة عبر وحدات GPU متعددة
KuCoinFlash
مشاركة
ملخص
أطلقت Perplexity AI أداة الاستنتاج عالية الأداء الخاصة بها، pplx-garden، كمصدر مفتوح لتعزيز معالجة متعددة GPU. تتضمن الأداة مكتبة اتصال مبنية على Rust تُسمى fabric-lib، والتي تتجاوز بروتوكولات NVIDIA وتدعم عرض نطاق ترددي قدره 400 جيجابت في الثانية عبر NVIDIA ConnectX-7 وAWS EFA. كما تتميز بنقل بيانات بدون نسخ وخوارزميات مُحسّنة لـ MoE، مما يقلل من استخدام وحدة المعالجة المركزية في تجزئة الرموز. يسلط هذا التحديث الإخباري حول الذكاء الاصطناعي والتشفير الضوء على أداة جديدة للمطورين. قد تؤثر اتجاهات بيانات التضخم على الاستثمارات المستقبلية في بنية تحتية للذكاء الاصطناعي.
ME AI رسالة، وفقًا لمراقبة Beating، قامت شركة محرك البحث العملاقة Perplexity AI بفتح مصدر أداة البنية التحتية للاستدلال عالي الأداء المستخدمة في بيئة الإنتاج pplx-garden. يكمن جوهر المشروع في مكتبة الاتصال النقطة-إلى-نقطة عالية الأداء التي طورتها الشركة بنفسها، fabric-lib (المعروفة أيضًا باسم TransferEngine)، والتي تهدف إلى كسر الارتباط الحصري ببروتوكولات الاتصال الخاصة بـ NVIDIA، وتمكين المطورين من تشغيل نماذج ضخمة بتريليونات المعلمات على مجموعات بطاقات GPU متنوعة دون الحاجة إلى شراء مفاتيح شبكة مخصصة باهظة الثمن. يعتمد الاستدلال الموزع التقليدي للنماذج الكبيرة بشدة على شبكة اتصال عالية السرعة الحصرية من NVIDIA، مما يؤدي إلى تكاليف تثبيت أجهزة مرتفعة جدًا ومخاطر قفل سلسلة التوريد. تحقق fabric-lib إزالة الارتباط على مستوى الأجهزة، وتتوافق تمامًا مع بطاقات الشبكة NVIDIA ConnectX-7، كما تدعم بشكل أصلي بطاقات Ethernet الرخيصة AWS EFA من أمازون، مما يرفع عرض النطاق الترددي بين بطاقات GPU مباشرة إلى 400 جيجابت في الثانية. لمعالجة العيب الفيزيائي في نقل البيانات غير المرتبة لـ AWS EFA، ابتكرت Perplexity آلية مزامنة ImmCounter، مما يتيح نقل بيانات "بدون نسخ" بكفاءة عالية دون الافتراض الصارم بترتيب حزم البيانات. تحتوي مكتبة الاتصال على خوارزمية توزيع بيانات مصممة خصيصًا لنماذج الخبراء المختلطة MoE، وتُدمج بشكل عميق بين استقبال البيانات من بطاقات GPU والحسابات المصفوفية، مما يضغط بشكل كبير على مساحة الحوسبة في مرحلة الترميز. في البيئة الإنتاجية الفعلية، تجلب pplx-garden فوائد هندسية كبيرة جدًا. في بنية الاستدلال المفككة، تحقق مكتبة الشبكة جدولة سريعة لذاكرة التخزين المؤقت للمفاتيح والقيم بين عقد Prefill وDecoder. في تدريب التعلم المعزز غير المتزامن، يمكن إكمال مزامنة وتنزيل أوزان النموذج بتريليونات المعلمات في غضون 1.3 ثانية فقط. لحل تأخير الحساب في مرحلة التقسيم، أطلقت pplx-garden مفتوحة المصدر أداة تقسيم pplx-unigram التي أُعيد بناؤها باستخدام Rust، مما يقلل استهلاك وحدة المعالجة المركزية مباشرة بنسبة 5 إلى 6 مرات، ويقضي على عقدة الأداء في مرحلة التقسيم بين إعادة الترتيب ونماذج المتجهات. (المصدر: BlockBeats)
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.