GLM-5.1 को कृत्रिम विश्लेषण कोडिंग एजेंट बेंचमार्क में ओपन-सोर्स मॉडल्स में पहला स्थान मिला

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
ऑन-चेन विश्लेषण फर्म आर्टिफिशियल एनालिसिस ने 13 मई (UTC+8) को कोडिंग एजेंट सूचकांक जारी किया, जिसने SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 और SWE-Atlas-QnA पर मॉडल्स का मूल्यांकन किया। GLM-5.1 (Claude Code पर चल रहा) ओपन-सोर्स मॉडल्स में शीर्ष स्थान पर रहा, जबकि Opus 4.7 (Cursor CLI) समग्र रूप से अग्रणी रहा। बेंचमार्क वास्तविक दुनिया के कोडिंग, टर्मिनल कार्यों और तकनीकी प्रश्नोत्तरी का परीक्षण करता है। GLM-5.1 ओपन-सोर्स प्रदर्शन में शीर्ष प्रदर्शन दिखाता है, जबकि घरेलू मॉडल्स में ओपन इंटरेस्ट बढ़ रहा है।

AIMPACT संदेश, 13 मई (UTC+8), वैश्विक प्रतिष्ठित मूल्यांकन संस्था Artificial Analysis ने नया Coding Agent सूचकांक जारी किया है, जो Agent harnesses और मॉडल संयोजनों के प्रदर्शन को SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 और SWE-Atlas-QnA तीन प्रमुख सूचकांकों पर मापता है। इस मूल्यांकन में, बंद स्रोत मॉडल Opus 4.7 (Cursor CLI पर चल रहा) विश्व में पहले स्थान पर है, जबकि GLM-5.1 (Claude Code पर चल रहा) ओपन सोर्स में पहले स्थान पर है। यह सूचकांक वास्तविक प्रोग्रामिंग कार्यों, Agentic टर्मिनल कार्यों और तकनीकी प्रश्नोत्तरी को कवर करता है, जिसका उद्देश्य वास्तविक प्रोग्रामिंग Agent परिदृश्यों में वास्तविक प्रदर्शन को प्रतिबिंबित करना है। लेख में यह माना जाता है कि GLM-5.1 इस परिदृश्य में भारतीय बड़े मॉडल की SOTA क्षमता का प्रतिनिधित्व करता है। (स्रोत: InFoQ)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।