ProgramBench एक अप्रयोगी / अजीब मापदंड जैसे ARC-AGI का उपयोग

Lisan al Gaib05/05/2026 19:46:05

साझा करें

ProgramBench एक अप्रयोगी / अजीब मापदंड जैसे ARC-AGI का उपयोग करता है > सभी मॉडल्स का हेडलाइन स्कोर → 0% > अंदर देखें > Opus 4.6 और 4.7 प्रति कार्य औसतन >50% परीक्षण पास करते हैं > क्यों? > वे केवल तभी कार्य को पास मानते हैं अगर 100% परीक्षण सफल हों और जैसा कि हम सभी जानते हैं, सॉफ्टवेयर पहली बार में परफेक्टली शिप होता है यह अभी भी एक बहुत अच्छा बेंचमार्क है, लेकिन मुझे लगता है कि हेडलाइन स्कोर काफी अप्रयोगी होगा। कम से कम उनके पास अन्य अच्छे मापदंड हैं जिन्हें आप ट्रैक कर सकते हैं

स्रोत:मूल दिखाएं

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।