MetaEra เปิดแหล่งที่มาของ FlashKDA ช่วยเพิ่มความเร็วในการอนุมานเชิงเส้นของ Kimi ได้ 1.7-2.2 เท่า

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
MetaEra ประกาศเมื่อวันที่ 22 เมษายน (UTC+8) การเปิดแหล่งที่มาของ FlashKDA ซึ่งเป็นเครื่องมือที่ได้รับการปรับแต่งสำหรับ NVIDIA Hopper GPUs ภายใต้ใบอนุญาต MIT โดยออกแบบมาเพื่อเพิ่มความเร็วในการอนุมานของ Kimi Linear ขึ้น 1.7-2.2 เท่า โดย FlashKDA ใช้ CUTLASS เพื่อเพิ่มประสิทธิภาพบน H20 GPUs เครื่องมือนี้รองรับความยาวอินพุตที่แตกต่างกันและการประมวลผลแบบแบตช์ แต่ในขณะนี้ยังรองรับเฉพาะการอนุมานเท่านั้น ผู้ใช้ต้องมี GPU รุ่น Hopper, CUDA 12.9+ และ PyTorch 2.4+ เครื่องมือนี้ได้ถูกรวมเข้าไปใน repository flash-linear-attention ซึ่งช่วยส่งเสริมข่าวบนโซ่และเติบโตของระบบนิเวศ

ข่าว ME News เมื่อวันที่ 22 เมษายน (UTC+8) ตามการติดตามของ Beating 月之暗面ได้เปิดซอร์สโค้ด FlashKDA บน GitHub ซึ่งเป็นเครื่องมือที่ออกแบบมาเพื่อเร่งความเร็วการอนุมานแบบจำลองสำหรับการ์ดจอ NVIDIA Hopper Series (เช่น H100, H20 เป็นต้น) ภายใต้ใบอนุญาต MIT เครื่องมือนี้มีเป้าหมายเพื่อรองรับ KDA กลไกการให้ความสำคัญใหม่ที่月之暗面เสนอไว้ในเอกสาร Kimi Linear เมื่อปีที่แล้ว ในแบบจำลองขนาดใหญ่ที่อ่านข้อความยาว ปริมาณการคำนวณของกลไกการให้ความสำคัญแบบดั้งเดิมจะเพิ่มขึ้นแบบกำลังสองตามความยาวของข้อความ ขณะที่กลไกการให้ความสำคัญแบบเชิงเส้นช่วยลดต้นทุนนี้ให้เพิ่มขึ้นแบบเชิงเส้น KDA เป็นหนึ่งในเวอร์ชันที่ปรับปรุงบนเส้นทางนี้ โครงสร้างของโมเดล Kimi Linear ใช้ KDA สามชั้นสลับกับกลไกการให้ความสำคัญแบบดั้งเดิมหนึ่งชั้น ก่อนหน้านี้ KDA มีเวอร์ชันที่เขียนด้วยภาษา Triton อยู่แล้วในคลังเปิดซอร์ส flash-linear-attention (ย่อว่า fla) FlashKDA ถูกเขียนใหม่โดยใช้ไลบรารีระดับล่างของ NVIDIA คือ CUTLASS เพื่อเพิ่มประสิทธิภาพสูงสุดบนการ์ดจอ Hopper ผลการทดสอบอย่างเป็นทางการบน H20 แสดงว่าในการคำนวณแบบฟอร์เวิร์ดเดียวกัน FlashKDA เร็วกว่าเวอร์ชัน Triton 1.7 ถึง 2.2 เท่า โดยเฉพาะในสถานการณ์ที่ความยาวอินพุตไม่สม่ำเสมอและรวมแบตช์กัน การเร่งความเร็วชัดเจนยิ่งขึ้น อย่างไรก็ตาม ทางผู้พัฒนาเปรียบเทียบเฉพาะกับเวอร์ชัน Triton ของตนเองเท่านั้น ยังไม่ได้เปรียบเทียบกับแนวทางอื่นๆ ของ linear attention การเปิดซอร์สครั้งนี้รวมเฉพาะการคำนวณแบบฟอร์เวิร์ดเท่านั้น หมายความว่าสามารถ “รันโมเดล” (การอนุมาน) ได้เท่านั้น ยังไม่สามารถ “ฝึกโมเดล” ได้ การฝึกยังคงต้องใช้เวอร์ชัน Triton เดิม ข้อกำหนดการใช้งาน: การ์ดจอต้องเป็น Hopper ขึ้นไป (เริ่มจากสถาปัตยกรรม SM90) CUDA เวอร์ชัน 12.9 ขึ้นไป และ PyTorch เวอร์ชัน 2.4 ขึ้นไป FlashKDA ยังถูกรวมเป็นแบ็กเอนด์ใหม่เข้าไปใน upstream ของ fla (PR #852) ผู้ใช้งานเดิมสามารถเปลี่ยนไปใช้งานได้โดยแก้ไขการตั้งค่าเพียงหนึ่งบรรทัด (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา