ระบบ Cursor Multi-Agent ปรับปรุงตัวดำเนินการ NVIDIA GPU 235 ตัวภายในสามสัปดาห์ ใกล้ถึงขีดจำกัดของฮาร์ดแวร์

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ข่าวบนโซ่: เมื่อวันที่ 15 เมษายน (UTC+8) เครื่องมือเขียนโปรแกรม AI ชื่อ Cursor ได้ประกาศความร่วมมือกับ NVIDIA โดยใช้ระบบหลายตัวแทน ภายในระยะเวลาสามสัปดาห์ ระบบดังกล่าวได้ปรับปรุงตัวดำเนินการ GPU จริง 235 ตัว จากแบบจำลองโอเพนซอร์ส 124 แบบบน GPU Blackwell B200 จำนวน 27 เครื่อง ทำให้ความเร็วเฉลี่ยเชิงเรขาคณิตเพิ่มขึ้น 38% ข่าวเกี่ยวกับสินทรัพย์จริง (RWA): ตัวดำเนินการ 149 ตัว (63%) ทำผลงานดีกว่าฐานอ้างอิง โดยมี 45 ตัว (19%) แสดงความเร็วเพิ่มขึ้นมากกว่า 2 เท่า การปรับปรุงสำคัญรวมถึงการเร่งการทำงานของ BF16 grouped query attention เร็วขึ้น 84% และการดำเนินการของ NVFP4 MoE layer เร็วขึ้น 39% Cursor ระบุว่ามีข้อจำกัดด้านทรัพยากร GPU และมีแผนผสานเทคโนโลยีหลายตัวแทนนี้เข้ากับผลิตภัณฑ์หลักของตน

ข่าว ME วันที่ 15 เมษายน (UTC+8) ตามการติดตามของ Beating ระบบหลายตัวแทนของเครื่องมือเขียนโปรแกรม AI ชื่อ Cursor เปิดเผยการทดลองร่วมกับ NVIDIA ระบบดังกล่าวทำงานอัตโนมัติเป็นเวลาสามสัปดาห์บน GPU Blackwell B200 จำนวน 27 ตัว โดยแก้ไขปัญหาการปรับแต่งตัวดำเนินการ (operator) จริง 235 กรณีที่ดึงมาจากมากกว่า 124 โมเดลโอเพนซอร์สระดับผลิตจริง เช่น DeepSeek, Qwen และ Gemma โดยเขียนและปรับแต่งโค้ด GPU operator จากศูนย์ ทำให้ได้ความเร็วเฉลี่ยเชิงเรขาคณิตโดยรวมเพิ่มขึ้น 38% การปรับแต่ง GPU operator เป็นหนึ่งในสาขาที่มีอุปสรรคสูงที่สุดในวิศวกรรมซอฟต์แวร์ ซึ่งต้องการวิศวกรที่เชี่ยวชาญในสถาปัตยกรรมชิป คำสั่งระดับแอสเซมบลี และการจัดการหน่วยความจำ โดย operator ที่มีประสิทธิภาพสูงมักต้องใช้เวลาหลายเดือนถึงหลายปีในการพัฒนาโดยผู้เชี่ยวชาญระดับสูง ระบบหลายตัวแทนของ Cursor จัดการทั้ง 235 ข้อพร้อมกัน: ตัวแทนวางแผนจัดสรรงานและจัดตารางแบบไดนามิกตามดัชนีประสิทธิภาพ ตัวแทนงานหลายตัวทำงานแบบขนานเพื่อปรับแต่ง และระบบสามารถเรียกใช้ท่อทดสอบ基准 SOL-ExecBench ของ NVIDIA เพื่อสร้างวงจรอัตโนมัติ “ทดสอบ-ดีบัก-ปรับแต่ง” โดยไม่มีการแทรกแซงจากมนุษย์ ระบบดำเนินการสองรอบด้วยภาษาสองแบบคือ CUDA C (รวมถึง PTX assembly inline) และ CuTe DSL โดยรอบแรกทดสอบความสามารถในการให้เหตุผลระดับฮาร์ดแวร์ที่ลึกที่สุด ส่วนรอบที่สองทดสอบความสามารถในการเรียนรู้ API ใหม่ที่แทบไม่มีในข้อมูลการฝึกที่เปิดเผย ในการทดสอบ 235 ข้อ ระบบสามารถเอาชนะฐานข้อมูลได้ใน 149 ข้อ (63%) โดยมี 45 ข้อ (19%) เพิ่มความเร็วเกินสองเท่า ผลลัพธ์ตัวอย่างสามกรณี: 1. Grouped Query Attention แบบ BF16 (ดึงจากสถานการณ์การให้เหตุผล Llama 3.1 8B): เร็วกว่าไลบรารี FlashInfer ที่ปรับแต่งด้วยมือถึง 84% มีคะแนน SOL 0.9722 เข้าใกล้ขีดจำกัดเชิงทฤษฎีของฮาร์ดแวร์ (คะแนนเต็มคือ 1.0) 2. การคูณเมทริกซ์แบบ BF16: operator ที่สร้างจากศูนย์มีประสิทธิภาพเท่ากับ 86% ของ cuBLAS ที่ NVIDIA ปรับแต่งด้วยมือ และในสถานการณ์ M เล็กที่ใช้บ่อยในการถอดรหัส LLM มันสามารถแซงฐานข้อมูลได้สูงสุดถึง 9% 3. การดำเนินการเชิงเส้นระดับ NVFP4 Mixed Expert Layer (ดึงจากโมเดล MoE เช่น Qwen3): ระบบสามารถระบุข้อจำกัดของการควอนไทซ์แบบจุดลอยตัว 4 บิตและทำการรวมและปรับแต่งอย่างเฉพาะเจาะจง เพิ่มความเร็วขึ้น 39% Cursor เผยว่าคะแนน SOL มัธยฐานโดยรวมอยู่ที่เพียง 0.56 และยังมีพื้นที่ในการพัฒนาอย่างมาก โดยสาเหตุหลักคือทรัพยากร GPU มีจำกัด (235 ข้อใช้ GPU เพียง 27 ตัวร่วมกัน) Cursor เปิดเผยว่าเทคโนโลยีหลายตัวแทนเหล่านี้ “จะถูกผสานเข้ากับผลิตภัณฑ์หลักในเร็วๆ นี้” การที่ตัวแทน AI จากบริษัท IDE สามารถเข้าใกล้ระดับผู้เชี่ยวชาญชั้นนำของมนุษย์ในการปรับแต่ง GPU ในระดับแอสเซมบลีนั้น เป็นเรื่องใหญ่กว่าเรื่อง “ช่วยเขียนโค้ดแอปพลิเคชัน” มากนัก (แหล่งที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา