ProgramBench एक अप्रयोगी / अजीब मापदंड जैसे ARC-AGI का उपयोग करता है > सभी मॉडल्स का हेडलाइन स्कोर → 0% > अंदर देखें > Opus 4.6 और 4.7 प्रति कार्य औसतन >50% परीक्षण पास करते हैं > क्यों? > वे केवल तभी कार्य को पास मानते हैं अगर 100% परीक्षण सफल हों और जैसा कि हम सभी जानते हैं, सॉफ्टवेयर पहली बार में परफेक्टली शिप होता है यह अभी भी एक बहुत अच्छा बेंचमार्क है, लेकिन मुझे लगता है कि हेडलाइन स्कोर काफी अप्रयोगी होगा। कम से कम उनके पास अन्य अच्छे मापदंड हैं जिन्हें आप ट्रैक कर सकते हैं
Lisan al Gaibसाझा करें

स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।