أخبار ME، 14 أبريل (UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة القائم على الذكاء الاصطناعي لمهمة واحدة، فإن تشغيله عدة مرات غالبًا ما ينتج حلولًا مختلفة، بعضها صحيح وبعضها خاطئ. إذا تمكّننا من اختيار أفضل حل تلقائيًا، فسيزداد معدل النجاح الكلي مقارنة بالتشغيل الفردي. المشكلة تكمن في كيفية الاختيار: استخدام نموذج آخر كحكم يُقيّم النقاط (أي LLM-as-a-Judge) هو الممارسة السائدة حاليًا، لكن دقة التقييم خشنة جدًا، وغالبًا ما تُمنح حلول مختلفة نفس الدرجة، مما يجعل من المستحيل التمييز بينها. قدم مختبر الذكاء الاصطناعي في ستانفورد ومختبر Sky Computing في بيركلي بالتعاون مع نيفيديا نهجًا محسّنًا يُسمى LLM-as-a-Verifier لتحسين عملية الاختيار هذه. بدلاً من الاعتماد فقط على الدرجة النهائية التي يمنحها الحكم، يقوم النموذج بقراءة توزيع الاحتمالات على كل مستوى تقييم، ثم حساب قيمة مكافأة مستمرة منها. كما يُعيد الحكم تقييم المهمة عدة مرات ويأخذ المتوسط لاستبعاد التحيز العرضي، ويفصل التقييم الشامل إلى ثلاثة أبعاد مستقلة (ما إذا كانت المهمة مُحققة، ما إذا كان تنسيق الإخراج صحيحًا، وما إذا كانت هناك إشارات خطأ) ويتحقق منها بشكل منفصل. في التجارب، استُخدم Gemini 2.5 Flash كمُحقق، وبلغت دقة التحقق الفردية 74.7% مقابل 57.0% للحكم التقليدي؛ وبعد 16 تكرارًا، وصل Verifier إلى 77.4% مقابل 70.2% للحكم. كان هناك 26.5% من المقارنات التي انتهت بالتعادل باستخدام الحكم التقليدي، بينما كانت نسبة التعادل لدى Verifier 0% في جميع التكوينات. في التطبيق العملي: على Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات للمهمة نفسها واختيار حل عشوائي، كان معدل النجاح 81.8%، وارتفع إلى 86.4% باستخدام Verifier. على SWE-Bench Verified، عند أخذ حل واحد من كل من Claude Opus 4.5 وClaude Opus 4.6 وGemini 3 Flash (إجمالي 3 حلول)، ارتفع الأداء من 76.1% إلى 77.8% بعد الاختيار. اعتبارًا من تاريخ الإصدار في 9 أبريل، كان كلا النظامين في الصدارة. تم فتح إطار العمل للجمهور. (المصدر: BlockBeats)
ستانفورد وبركلي تقترحان نموذج LLM كمُحقق، الأعلى في Terminal-Bench وSWE-Bench
KuCoinFlashمشاركة
أبرز أخبار العملات البديلة في 14 أبريل (UTC+8) تُظهر مختبر الذكاء الاصطناعي في ستانفورد ومختبر سكاي كومبيوتنغ في بيركلي، بالتعاون مع NVIDIA، يقترحان نموذج LLM-as-a-Verifier لتحسين اختيار حلول الذكاء الاصطناعي. يستخدم هذا الأسلوب مكافأة مستمرة مستمدة من توزيعات التقييم عبر التقييمات، وحقق دقة بنسبة 77.4% بعد 16 اختبارًا، وهي أفضل من نموذج LLM-as-a-Judge التقليدي الذي بلغت دقته 70.2%. وفي Terminal-Bench 2 وSWE-Bench Verified، وصلت معدلات النجاح إلى 86.4% و77.8% على التوالي، مما يجعله الأفضل أداءً حتى 9 أبريل. وقد تم فتح إطار العمل للجميع مفتوح المصدر. تستمر أخبار الذكاء الاصطناعي والعملات المشفرة في تسليط الضوء على إنجازات جديدة في التحقق والأداء.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.