ระบบ Cursor Multi-Agent ปรับปรุงตัวดำเนินการ NVIDIA GPU 235 ตัวภายในสามสัปดาห์ ใกล้ถึงขีดจำกัดของฮาร์ดแวร์

ข่าว ME วันที่ 15 เมษายน (UTC+8) ตามการติดตามของ Beating ระบบหลายตัวแทนของเครื่องมือเขียนโปรแกรม AI ชื่อ Cursor เปิดเผยการทดลองร่วมกับ NVIDIA ระบบดังกล่าวทำงานอัตโนมัติเป็นเวลาสามสัปดาห์บน GPU Blackwell B200 จำนวน 27 ตัว โดยแก้ไขปัญหาการปรับแต่งตัวดำเนินการ (operator) จริง 235 กรณีที่ดึงมาจากมากกว่า 124 โมเดลโอเพนซอร์สระดับผลิตจริง เช่น DeepSeek, Qwen และ Gemma โดยเขียนและปรับแต่งโค้ด GPU operator จากศูนย์ ทำให้ได้ความเร็วเฉลี่ยเชิงเรขาคณิตโดยรวมเพิ่มขึ้น 38% การปรับแต่ง GPU operator เป็นหนึ่งในสาขาที่มีอุปสรรคสูงที่สุดในวิศวกรรมซอฟต์แวร์ ซึ่งต้องการวิศวกรที่เชี่ยวชาญในสถาปัตยกรรมชิป คำสั่งระดับแอสเซมบลี และการจัดการหน่วยความจำ โดย operator ที่มีประสิทธิภาพสูงมักต้องใช้เวลาหลายเดือนถึงหลายปีในการพัฒนาโดยผู้เชี่ยวชาญระดับสูง ระบบหลายตัวแทนของ Cursor จัดการทั้ง 235 ข้อพร้อมกัน: ตัวแทนวางแผนจัดสรรงานและจัดตารางแบบไดนามิกตามดัชนีประสิทธิภาพ ตัวแทนงานหลายตัวทำงานแบบขนานเพื่อปรับแต่ง และระบบสามารถเรียกใช้ท่อทดสอบ基准 SOL-ExecBench ของ NVIDIA เพื่อสร้างวงจรอัตโนมัติ “ทดสอบ-ดีบัก-ปรับแต่ง” โดยไม่มีการแทรกแซงจากมนุษย์ ระบบดำเนินการสองรอบด้วยภาษาสองแบบคือ CUDA C (รวมถึง PTX assembly inline) และ CuTe DSL โดยรอบแรกทดสอบความสามารถในการให้เหตุผลระดับฮาร์ดแวร์ที่ลึกที่สุด ส่วนรอบที่สองทดสอบความสามารถในการเรียนรู้ API ใหม่ที่แทบไม่มีในข้อมูลการฝึกที่เปิดเผย ในการทดสอบ 235 ข้อ ระบบสามารถเอาชนะฐานข้อมูลได้ใน 149 ข้อ (63%) โดยมี 45 ข้อ (19%) เพิ่มความเร็วเกินสองเท่า ผลลัพธ์ตัวอย่างสามกรณี: 1. Grouped Query Attention แบบ BF16 (ดึงจากสถานการณ์การให้เหตุผล Llama 3.1 8B): เร็วกว่าไลบรารี FlashInfer ที่ปรับแต่งด้วยมือถึง 84% มีคะแนน SOL 0.9722 เข้าใกล้ขีดจำกัดเชิงทฤษฎีของฮาร์ดแวร์ (คะแนนเต็มคือ 1.0) 2. การคูณเมทริกซ์แบบ BF16: operator ที่สร้างจากศูนย์มีประสิทธิภาพเท่ากับ 86% ของ cuBLAS ที่ NVIDIA ปรับแต่งด้วยมือ และในสถานการณ์ M เล็กที่ใช้บ่อยในการถอดรหัส LLM มันสามารถแซงฐานข้อมูลได้สูงสุดถึง 9% 3. การดำเนินการเชิงเส้นระดับ NVFP4 Mixed Expert Layer (ดึงจากโมเดล MoE เช่น Qwen3): ระบบสามารถระบุข้อจำกัดของการควอนไทซ์แบบจุดลอยตัว 4 บิตและทำการรวมและปรับแต่งอย่างเฉพาะเจาะจง เพิ่มความเร็วขึ้น 39% Cursor เผยว่าคะแนน SOL มัธยฐานโดยรวมอยู่ที่เพียง 0.56 และยังมีพื้นที่ในการพัฒนาอย่างมาก โดยสาเหตุหลักคือทรัพยากร GPU มีจำกัด (235 ข้อใช้ GPU เพียง 27 ตัวร่วมกัน) Cursor เปิดเผยว่าเทคโนโลยีหลายตัวแทนเหล่านี้ “จะถูกผสานเข้ากับผลิตภัณฑ์หลักในเร็วๆ นี้” การที่ตัวแทน AI จากบริษัท IDE สามารถเข้าใกล้ระดับผู้เชี่ยวชาญชั้นนำของมนุษย์ในการปรับแต่ง GPU ในระดับแอสเซมบลีนั้น เป็นเรื่องใหญ่กว่าเรื่อง “ช่วยเขียนโค้ดแอปพลิเคชัน” มากนัก (แหล่งที่มา: BlockBeats)