source avatarLisan al Gaib

साझा करें

ProgramBench एक अप्रयोगी / अजीब मापदंड जैसे ARC-AGI का उपयोग करता है > सभी मॉडल्स का हेडलाइन स्कोर → 0% > अंदर देखें > Opus 4.6 और 4.7 प्रति कार्य औसतन >50% परीक्षण पास करते हैं > क्यों? > वे केवल तभी कार्य को पास मानते हैं अगर 100% परीक्षण सफल हों और जैसा कि हम सभी जानते हैं, सॉफ्टवेयर पहली बार में परफेक्टली शिप होता है यह अभी भी एक बहुत अच्छा बेंचमार्क है, लेकिन मुझे लगता है कि हेडलाइन स्कोर काफी अप्रयोगी होगा। कम से कम उनके पास अन्य अच्छे मापदंड हैं जिन्हें आप ट्रैक कर सकते हैं

No.0 picture
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।