ข้อความจาก AIMPACT เมื่อวันที่ 16 พฤษภาคม (UTC+8) ตามการติดตามของ Beating นักวิจัยจาก Nous Research ได้เปิดแหล่งรหัสกลไกการฝึกล่วงหน้าบริบทยาว Lighthouse Attention เมื่อประมวลผลข้อความความยาว 512K บน GPU B200 เพียงตัวเดียว วิธีนี้เร็วขึ้นประมาณ 17 เท่าเมื่อเทียบกับกลไกแบบดั้งเดิม และสามารถเร่งความเร็วการฝึกแบบ end-to-end ได้ 1.4 ถึง 1.7 เท่าที่ความยาว 98K กลไกการให้ความสนใจแบบดั้งเดิมต้องคำนวณความสัมพันธ์ระหว่างคำทุกคู่ เมื่อข้อความยาวขึ้น การใช้พลังการประมวลผลจะเพิ่มขึ้นแบบกำลังสอง Lighthouse Attention ใช้แนวทางการกรองแบบหยาบก่อนแล้วจึงคำนวณแบบละเอียด โดยจะทบทวนสรุปย่อของข้อความในระดับต่างๆ อย่างรวดเร็ว ให้คะแนนและเลือกชิ้นส่วนหลักมารวมเป็นข้อความสั้น จากนั้นส่งให้ตัวดำเนินการที่มีประสิทธิภาพอยู่แล้วอย่าง FlashAttention จัดการโดยตรง เนื่องจากตรรกะการกรองถูกแยกออกจากแกนหลักอย่างสมบูรณ์ นักพัฒนาจึงไม่ต้องเขียนโค้ดระดับล่างด้วยตนเองและไม่จำเป็นต้องเพิ่มเป้าหมายการฝึกเพิ่มเติม วิธีการเร่งความเร็วแบบคล้ายกันในอดีตมักมีผลข้างเคียง โดยโมเดลที่ชินกับการอ่านข้ามจะสูญเสียความสามารถในการอ่านอย่างละเอียดทีละคำไปอย่างง่ายดาย เพื่อหลีกเลี่ยงกับดักนี้ ทีมวิจัยให้โมเดลใช้โหมดเร่งความเร็วดำเนินการส่วนใหญ่ของกระบวนการฝึก และแค่สลับกลับไปใช้การคำนวณความสนใจแบบเต็มรูปแบบแบบดั้งเดิมเป็นระยะเวลาสั้นๆ ในช่วงท้ายของการฝึกเท่านั้น ในการทดลองจริงกับโมเดลขนาดพารามิเตอร์ 5.3 พันล้านและข้อมูลฝึก 50 พันล้านโทเค็น โมเดลที่ฝึกด้วยวิธีนี้ไม่เพียงแต่ลดเวลาการฝึกอย่างมาก แต่ยังสามารถทำผลงานได้เทียบเท่าหรือแม้แต่เหนือกว่าเวอร์ชันพื้นฐานที่ฝึกด้วยวิธีแบบดั้งเดิมตลอดกระบวนการ (ที่มา: BlockBeats)
Nous Research เปิดแหล่งที่มาของ Lighthouse Attention บรรลุการเร่งความเร็ว 17 เท่าบน B200
KuCoinFlashแชร์






สื่อข่าวบนโซ่ MetaEra รายงานเมื่อวันที่ 16 พฤษภาคม (UTC+8) ว่า Nous Research ได้เปิดแหล่งที่มาของกลไก Lighthouse Attention สำหรับการฝึกโมเดลแบบบริบทยาว วิธีนี้ให้ความเร็วในการคำนวณเร็วขึ้น 17 เท่าบน GPU B200 ตัวเดียวสำหรับข้อความความยาว 512K และเพิ่มความเร็วในการฝึก 1.4–1.7 เท่าสำหรับความยาว 98K โดยใช้กระบวนการสองขั้นตอนเพื่อหลีกเลี่ยงการเขียนโค้ดระดับต่ำหรือเป้าหมายการฝึกเพิ่มเติม ในการทดสอบ โมเดลที่มีพารามิเตอร์ 530 ล้านตัวที่ฝึกบนโทเค็น 50 พันล้านตัว มีประสิทธิภาพเท่ากับหรือดีกว่าวิธีแบบดั้งเดิม ในขณะที่ลดเวลาการฝึก แพลตฟอร์มข่าวคริปโตกำลังเน้นย้ำถึงข้อได้เปรียบด้านประสิทธิภาพสำหรับนักพัฒนาและนักวิจัย
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา