نظام Cursor متعدد الوكلاء يُحسّن 235 مشغّل NVIDIA GPU في ثلاثة أسابيع، ويتقارب من حدود الأجهزة

أخبار ME، 15 أبريل (UTC+8)، وفقًا لمراقبة Beating، كشف أداة البرمجة بالذكاء الاصطناعي Cursor عن تجربة تعاون مع نيفيديا في نظام متعدد الوكلاء. وقد عمل النظام بشكل مستقل على مدار ثلاثة أسابيع على 27 وحدة معالجة رسومية Blackwell B200، لتحسين 235 مشكلة حقيقية لعوامل GPU مستخلصة من أكثر من 124 نموذجًا مفتوح المصدر قابلًا للإنتاج مثل DeepSeek و Qwen و Gemma، حيث قام بكتابة وتحسين كود عوامل GPU من الصفر، مما أدى إلى تسريع هندسي متوسط بنسبة 38% بشكل عام. يُعد تحسين عوامل GPU أحد أكثر المجالات صعوبة في هندسة البرمجيات، حيث يتطلب من المهندسين إتقان بنية الرقاقة وتعليمات التجميع وجدولة الذاكرة، وغالبًا ما يستغرق تطوير عامل عالي الأداء خبراء بارزين أشهر أو حتى سنوات. تعامل نظام الوكلاء المتعددين الخاص بـ Cursor مع جميع المسائل الـ 235 دفعة واحدة: حيث يوزع وكيل التخطيط المهام ويُجدّد الجدول الزمني ديناميكيًا بناءً على مؤشرات الأداء، بينما تعمل عدة وكلاء عمل بالتوازي على التحسين، ويستخدم النظام تلقائيًا أنبوب اختبار SOL-ExecBench الخاص بنيفيديا لتشكيل دورة آلية متكاملة من "الاختبار، التصحيح، التحسين" دون أي تدخل بشري. وقد نفّذ النظام جولتين منفصلتين باستخدام لغتين: CUDA C (بما في ذلك تجميع PTX المضمن) وCuTe DSL، حيث اختبرت الأولى قدرة التفسير المباشر للعتاد، بينما اختبرت الثانية قدرة النظام على تعلم واجهات برمجة تطبيقات جديدة لم تُدرَّب عليها تقريبًا في البيانات العامة. من بين الـ 235 مسألة، تفوق النظام على الخط الأساسي في 149 مسألة (63%)، منها 45 مسألة (19%) حققت تسريعًا يزيد عن ضعفين. ثلاث نتائج تمثيلية: 1. انتباه الاستعلام المجموعات BF16 (مستخلص من سيناريو استنتاج Llama 3.1 8B): أسرع بنسبة 84% مقارنة بمكتبة FlashInfer المُحسّنة يدويًا، مع درجة SOL 0.9722، قريبة جدًا من الحد النظري للعتاد (الدرجة القصوى 1.0) 2. ضرب المصفوفات BF16: وصل العامل المُنشأ من الصفر إلى 86% من أداء cuBLAS المُحسّن يدويًا من نيفيديا، وتفوق على الخط الأساسي بنسبة تصل إلى 9% في سيناريوهات M الصغيرة الشائعة في ترميز استنتاج نماذج اللغة الكبيرة 3. العمليات الخطية لطبقة الخبراء المختلطة NVFP4 (مستخلصة من نماذج MoE مثل Qwen3): تمكّن النظام من التعرف التلقائي على عقدة التكميم العائمة 4 بت وتنفيذ تحسينات مدمجة مستهدفة، مما أدى إلى تسريع بنسبة 39% اعترفت Cursor أن متوسط درجة SOL العامة كان فقط 0.56، ما يشير إلى وجود مساحة كبيرة للتحسين، والسبب الرئيسي هو محدودية موارد GPU (مشاركة 27 وحدة معالجة رسومية بين 235 مسألة). وأفادت Cursor أن هذه التقنيات المتعددة الوكلاء "ستُدمج قريبًا في المنتج الأساسي". إن قدرة وكيل ذكي من شركة IDE على التقارب مع خبراء البشر في تحسين GPU على مستوى التجميع هي قصة أكبر بكثير من "مساعدتك على كتابة كود التطبيق". (المصدر: BlockBeats)