Perplexity AI เปิดแหล่งที่มาของ pplx-garden เพื่อให้สามารถดำเนินการอนุมานแบบหลาย GPU ด้วยความเร็วสูง

ME AI ข่าว ตามการติดตามของ Beating บริษัทค้นหาขนาดใหญ่ Perplexity AI ได้เปิดซอร์สเครื่องมือชุดโครงสร้างพื้นฐานการให้บริการแบบมีประสิทธิภาพสูงสำหรับสภาพแวดล้อมการผลิตชื่อ pplx-garden แกนหลักของโครงการคือไลบรารีการสื่อสารแบบจุดต่อจุดประสิทธิภาพสูงที่พัฒนาขึ้นเองด้วย Rust ชื่อ fabric-lib (หรือเรียกว่า TransferEngine) ซึ่งมีเป้าหมายเพื่อทำลายการผูกมัดฮาร์ดแวร์กับโปรโตคอลการสื่อสารแบบเฉพาะของ NVIDIA และช่วยให้นักพัฒนาสามารถรันโมเดลขนาด万亿พารามิเตอร์ได้อย่างรวดเร็วบนคลัสเตอร์ GPU ที่หลากหลาย โดยไม่ต้องซื้อสวิตช์เครือข่ายเฉพาะที่มีราคาแพง ในการให้บริการโมเดลขนาดใหญ่แบบกระจายแบบดั้งเดิมนั้น ขึ้นอยู่กับเครือข่ายการสื่อสารความเร็วสูงเฉพาะของ NVIDIA ทำให้ต้นทุนการติดตั้งฮาร์ดแวร์สูงมากและเสี่ยงต่อการถูกผูกมัดจากห่วงโซ่อุปทาน fabric-lib ได้บรรลุการแยกการผูกมัดระดับฮาร์ดแวร์ ไม่เพียงแต่รองรับการ์ดเครือข่าย NVIDIA ConnectX-7 อย่างสมบูรณ์แบบ แต่ยังรองรับการ์ด Ethernet แบบประหยัดของ AWS EFA โดยตรง ทำให้แบนด์วิดธ์เครือข่ายระหว่าง GPU เพิ่มขึ้นสูงสุดถึง 400 Gbps เพื่อแก้ไขข้อบกพร่องทางกายภาพของการส่งข้อมูลแบบไม่เรียงลำดับของ AWS EFA Perplexity ได้สร้างกลไกการซิงโครไนซ์ตัวนับ ImmCounter เป็นครั้งแรก ซึ่งสามารถดำเนินการถ่ายโอนข้อมูลแบบ “zero-copy” อย่างมีประสิทธิภาพ โดยไม่ต้องสมมติลำดับของแพ็กเก็ตข้อมูลอย่างเคร่งครัด ไลบรารีการสื่อสารนี้มีอัลกอริธึมการกระจายข้อมูลที่ออกแบบมาโดยเฉพาะสำหรับโมเดลผสมผู้เชี่ยวชาญ (MoE) ซึ่งทำให้การรับข้อมูลของ GPU และการคำนวณเมทริกซ์ทับซ้อนกันอย่างลึกซึ้ง ช่วยเพิ่มประสิทธิภาพของทรัพยากรประมวลผลในระยะถอดรหัสอย่างมาก ในสภาพแวดล้อมการผลิตจริง ผลประโยชน์ทางวิศวกรรมที่ pplx-garden นำมาให้มีความโดดเด่นอย่างมาก ในสถาปัตยกรรมการให้บริการที่แยกจากกัน ไลบรารีเครือข่ายสามารถจัดสรรแคชคีย์-ค่าระหว่างโหนด Prefill และโหนด Decoder ได้อย่างรวดเร็ว ในกระบวนการฝึกอบรมแบบเรียนรู้เชิงเสริมแบบอะซิงโครนัส สามารถซิงโครไนซ์และส่งมอบน้ำหนักของโมเดลขนาด万亿พารามิเตอร์ได้ภายในเวลาเพียง 1.3 วินาที เพื่อแก้ไขปัญหาความล่าช้าในการคำนวณระยะการแบ่งคำ pplx-garden ได้เปิดซอร์สตัวแบ่งคำ pplx-unigram ที่รีเฟรชด้วย Rust ซึ่งลดการใช้งาน CPU ลงถึง 5-6 เท่า และกำจัดข้อจำกัดด้านประสิทธิภาพในระยะการแบ่งคำของโมเดลเวกเตอร์และการเรียงลำดับใหม่ (แหล่งที่มา: BlockBeats)