हार्वर्ड के गणितज्ञ अनपब्लिश्ड रिसर्च-लेवल की समस्याओं पर AI का परीक्षण करते हैं

यहाँ एक प्रश्न है जो शोधकर्ताओं को रात भर जागे रखता है: क्या AI वास्तव में गणित कर सकता है, या यह केवल उन समस्याओं के खिलाफ पैटर्न मैचिंग करने में बहुत अच्छा है जिन्हें यह पहले से देख चुका है? हार्वर्ड के 30 गणितज्ञों के एक समूह ने इसे जानबूझकर पता करने का फैसला किया, और प्रमुख AI प्रणालियों को एक परीक्षा दी जिसके लिए वे संभवतः कभी तैयारी नहीं कर सकते थे।

प्रोजेक्ट, जिसका नाम “पहला साबिती, दूसरा बैच” है, ने जून 2026 की शुरुआत में हार्वर्ड के मैथमेटिकल साइंसेज एंड एप्लीकेशन्स सेंटर पर अपना विशेषज्ञ पैनल इकट्ठा किया। उनका कार्य सरल था लेकिन पैमाने में अभूतपूर्व: 10 मूल, अनपब्लिश्ड शोध-स्तरीय गणित समस्याओं के AI-उत्पादित समाधानों को अंधेरे में मूल्यांकन करना। 10 जून को जारी परिणाम एक ऐसी छवि प्रस्तुत करते हैं जो न तो किसी पक्ष की ओर से अपेक्षित विनाश का परिदृश्य है और न ही उसका विजय।

सेटअप: क्यों अनपब्लिश्ड समस्याएं महत्वपूर्ण हैं

पूरा अभ्यास एक महत्वपूर्ण डिज़ाइन चयन पर निर्भर करता है। सेट में हर समस्या एक्टिव, अनपब्लिश्ड शोध से ली गई थी। इनमें से कोई भी प्रश्न पाठ्यपुस्तकों, arXiv या कहीं और नहीं आया था, जहाँ एआई के प्रशिक्षण डेटा ने उन्हें स्क्रेप किया हो।

प्रोजेक्ट के पीछे के गणितज्ञ भी ठीक तरह से हल्के नहीं हैं। सूची में स्टैनफोर्ड के मोहम्मद अबूज़ाइड, यूसी बर्कले के निखिल श्रीवास्तव, यूटी ऑस्टिन की रेचल वार्ड, और हार्वर्ड की लॉरेन विलियम्स शामिल हैं।

AI ने वास्तव में क्या सही और गलत किया

चार प्रमुख AI प्रणालियों ने मूल्यांकन में भाग लिया, जिसमें OpenAI और Google के मॉडल शामिल थे। मुख्य संख्या: विशेषज्ञ पैनल ने चारों परीक्षित प्रणालियों में से 10 समस्याओं में से सात पर पास के ग्रेड दिए।

प्रारंभिक और प्रारंभिक परीक्षण चक्रों में, AI प्रणालियों ने केवल 10 समस्याओं में से 2 को हल किया। प्रारंभिक प्रदर्शन और अंतिम परिणामों के बीच का अंतर यह सुझाता है कि मॉडल्स को कई प्रयासों या विभिन्न प्रॉम्प्टिंग रणनीतियों से लाभ हुआ होगा, हालाँकि अंधा मूल्यांकन प्रोटोकॉल को केवल प्रस्तुत समाधानों की गुणवत्ता का मूल्यांकन करने के लिए डिज़ाइन किया गया था।

पिछले परिणामों पर आधारित

यह दूसरा बैच फरवरी 2026 में किए गए प्रारंभिक मूल्यांकन के आधार पर बनाया गया है। प्रथम साबिती प्रोजेक्ट को शुरू से ही एक निरंतर मूल्यांकन ढांचे के रूप में डिज़ाइन किया गया था, एक बार के शो के रूप में नहीं। प्रत्येक बार नए समस्याओं के साथ कई चक्र चलाकर, आयोजक यह ट्रैक कर सकते हैं कि AI क्षमताएँ शोध-स्तरीय गणित में वास्तव में सुधर रही हैं या प्रारंभिक बेंचमार्क लाभों के बाद सिर्फ स्थिर हो गई हैं।

मानक गणितीय मानक, यहां तक कि प्रतियोगिता स्तर की समस्याएं भी, जिनमें अधिकांशतः उनके ज्ञात हल और ज्ञात हल विधियां होती हैं, अब अग्रणी मॉडलों द्वारा हल किए जा रहे हैं। लेकिन शोध-स्तरीय गणित एक मूलभूत रूप से अलग परिस्थिति में कार्य करता है, जहां आपको अक्सर यह भी नहीं पता होता कि क्या हल मौजूद है, न ही यह कि कौन सी तकनीकें आपको उस तक पहुंचाएंगी।