MetaEra เปิดแหล่งที่มาของ FlashKDA ช่วยเพิ่มความเร็วในการอนุมานเชิงเส้นของ Kimi ได้ 1.7-2.2 เท่า

ข่าว ME News เมื่อวันที่ 22 เมษายน (UTC+8) ตามการติดตามของ Beating 月之暗面ได้เปิดซอร์สโค้ด FlashKDA บน GitHub ซึ่งเป็นเครื่องมือที่ออกแบบมาเพื่อเร่งความเร็วการอนุมานแบบจำลองสำหรับการ์ดจอ NVIDIA Hopper Series (เช่น H100, H20 เป็นต้น) ภายใต้ใบอนุญาต MIT เครื่องมือนี้มีเป้าหมายเพื่อรองรับ KDA กลไกการให้ความสำคัญใหม่ที่月之暗面เสนอไว้ในเอกสาร Kimi Linear เมื่อปีที่แล้ว ในแบบจำลองขนาดใหญ่ที่อ่านข้อความยาว ปริมาณการคำนวณของกลไกการให้ความสำคัญแบบดั้งเดิมจะเพิ่มขึ้นแบบกำลังสองตามความยาวของข้อความ ขณะที่กลไกการให้ความสำคัญแบบเชิงเส้นช่วยลดต้นทุนนี้ให้เพิ่มขึ้นแบบเชิงเส้น KDA เป็นหนึ่งในเวอร์ชันที่ปรับปรุงบนเส้นทางนี้ โครงสร้างของโมเดล Kimi Linear ใช้ KDA สามชั้นสลับกับกลไกการให้ความสำคัญแบบดั้งเดิมหนึ่งชั้น ก่อนหน้านี้ KDA มีเวอร์ชันที่เขียนด้วยภาษา Triton อยู่แล้วในคลังเปิดซอร์ส flash-linear-attention (ย่อว่า fla) FlashKDA ถูกเขียนใหม่โดยใช้ไลบรารีระดับล่างของ NVIDIA คือ CUTLASS เพื่อเพิ่มประสิทธิภาพสูงสุดบนการ์ดจอ Hopper ผลการทดสอบอย่างเป็นทางการบน H20 แสดงว่าในการคำนวณแบบฟอร์เวิร์ดเดียวกัน FlashKDA เร็วกว่าเวอร์ชัน Triton 1.7 ถึง 2.2 เท่า โดยเฉพาะในสถานการณ์ที่ความยาวอินพุตไม่สม่ำเสมอและรวมแบตช์กัน การเร่งความเร็วชัดเจนยิ่งขึ้น อย่างไรก็ตาม ทางผู้พัฒนาเปรียบเทียบเฉพาะกับเวอร์ชัน Triton ของตนเองเท่านั้น ยังไม่ได้เปรียบเทียบกับแนวทางอื่นๆ ของ linear attention การเปิดซอร์สครั้งนี้รวมเฉพาะการคำนวณแบบฟอร์เวิร์ดเท่านั้น หมายความว่าสามารถ “รันโมเดล” (การอนุมาน) ได้เท่านั้น ยังไม่สามารถ “ฝึกโมเดล” ได้ การฝึกยังคงต้องใช้เวอร์ชัน Triton เดิม ข้อกำหนดการใช้งาน: การ์ดจอต้องเป็น Hopper ขึ้นไป (เริ่มจากสถาปัตยกรรม SM90) CUDA เวอร์ชัน 12.9 ขึ้นไป และ PyTorch เวอร์ชัน 2.4 ขึ้นไป FlashKDA ยังถูกรวมเป็นแบ็กเอนด์ใหม่เข้าไปใน upstream ของ fla (PR #852) ผู้ใช้งานเดิมสามารถเปลี่ยนไปใช้งานได้โดยแก้ไขการตั้งค่าเพียงหนึ่งบรรทัด (ที่มา: BlockBeats)