नया AI बेंचमार्क परीक्षण मानक उत्तरों के बिना इंजीनियरिंग अनुकूलन का परीक्षण करता है

अगर AI को एक ऐसे इंजीनियरिंग साइट पर फेंक दिया जाए जहाँ कोई मानक उत्तर नहीं है, तो क्या वह बच पाएगा?

लंबे समय तक, AI एजेंट ऐसे लगते थे जैसे वे सब कुछ कर सकते हैं, लेकिन वास्तव में अधिकांश ज्ञात ज्ञान भंडार में "याददाश्त" ढूंढ रहे हैं।

लेकिन वास्तविक इंजीनियरिंग दुनिया कठोर है: जल के नीचे रोबोट की स्थिरता, बैटरी की लिथियम अपघटन सीमा, क्वांटम सर्किट का शोर नियंत्रण... इन समस्याओं के लिए "पूर्ण अंक" नहीं होते, केवल "सीमा के अधिक करीब पहुंचने के लिए अनुकूलन" होते हैं।

हाल ही में, Einsia AI के अंतर्गत Navers Lab द्वारा जारी Agent Benchmark —— Frontier-Eng Bench ने AI के “प्रश्नों का हल निकालने वाले” के लेबल को खारिज कर दिया है।

ऑटो रिसर्च

अनुसंधान टीम ने AI को पुराने कोड प्रश्नों को ब्रश करने की अनुमति नहीं दी, इसके बजाय, उन्होंने इसे एक पूर्ण "इंजीनियरिंग साइकिल" प्रदान किया: समाधान प्रस्तावित करना, सिमुलेटर से जोड़ना, त्रुटियों को समझना, पैरामीटर बदलना, और पुनः चलाना।

47 बहु-विषयक कठिन कार्यों के सामने, AI को ऊर्जा खपत, सुरक्षा और प्रदर्शन के "असंभव त्रिकोण" में उत्तम समाधान ढूंढने के लिए एक अनुभवी इंजीनियर की तरह प्रदर्शन करना होगा।

यह केवल एक टेस्ट सेट नहीं है, यह एजेंट के "विकास" की एक पूर्वाभ्यास की तरह है।

जब AI फीडबैक में आत्म-सुधार सीखना शुरू कर देगा, तो "मनुष्य लक्ष्य निर्धारित करता है, AI 24 घंटे लगातार इटरेट करता है" वाला Auto Research का युग हमारी कल्पना से अधिक निकट हो सकता है।

AI अब "कठिन काम" करने लगा है

पिछले बड़े मॉडल, एक सुपर एक्सेलरेटर की तरह थे।

आप प्रश्न पूछते हैं, और यह विशाल प्रशिक्षण डेटा में से "याददाश्त" खोजता है, फिर एक तर्कसंगत लगने वाला उत्तर बनाता है।

इस मोड में, बड़े मॉडल मूल रूप से वास्तविक समस्याओं को हल करने के बजाय "शब्द जोड़ने" का खेल खेल रहे हैं।

लेकिन Frontier-Eng Bench के आगमन से AI ने "इंजीनियरिंग अनुकूलन" का काम करना शुरू कर दिया।

प्रक्रिया अब इस प्रकार बदल गई है कि AI पहले एक योजना प्रस्तुत करता है, फिर simulator में प्रयोग चलाता है, इसके बाद प्रतिक्रिया और त्रुटियाँ प्राप्त करता है, पैरामीटर और कोड में सुधार करता है, और फिर प्रदर्शन में वृद्धि होने तक पुनः चलाता रहता है।

इस बंद चक्र प्रणाली में, AI की पहचान में गुणात्मक परिवर्तन हुआ है।

आप अपने अंडरवाटर रोबोट को अधिक स्थिर बनाना चाहते हैं? AI को ऑटोमैटिक कंट्रोलर ट्यून करना शुरू करना चाहिए।

क्या आप मैनिपुलेटर की गति और बढ़ाना चाहते हैं? AI को खुद सिमुलेशन चलाना होगा।

कुछ हद तक, एआई अब केवल अर्थ की समझ से परे निकल चुके हैं और वास्तविक परिस्थितियों की प्रतिक्रिया के आधार पर लगातार अनुकूलन करने लगे हैं, जैसे एक पेशेवर इंजीनियर।

ऑटो रिसर्च

△

Frontier-Eng Bench का सबसे दिलचस्प पहलू यह है: यह AI की यह जांच नहीं करता कि वह सही जवाब देता है या नहीं, बल्कि यह जांचता है कि AI वास्तव में लगातार बेहतर कैसे बन सकता है।

क्योंकि वास्तविक इंजीनियरिंग अनुकूलन कभी बहुविकल्पीय प्रश्न नहीं होता, और इसका कोई एकमात्र मानक उत्तर नहीं होता।

बैटरी फास्ट चार्जिंग के उदाहरण के साथ, लक्ष्य सरल लगता है—जितना जल्दी चार्ज हो सके, उतना बेहतर, लेकिन वास्तविकता इतनी आसान नहीं है।

AI को तापमान बहुत नहीं बढ़ने देना चाहिए, वोल्टेज अधिक नहीं होना चाहिए, बैटरी जीवन बहुत तेजी से नहीं घटना चाहिए, और लिथियम अपघटन से बचना चाहिए, इन कठोर सीमाओं के भीतर प्रदर्शन का सटीक संतुलन प्राप्त करना होगा।

इसका अर्थ है कि AI किसी भी चालाकी से “प्रैक्टिस करके” पार नहीं हो सकता, इसे लंबी अवधि की प्रतिक्रिया में निरंतर विकास की सहनशक्ति दिखानी होगी।

क्या AI वास्तविक वातावरण में दीर्घकालिक अनुकूलन कर सकता है?

परिणामों के आधार पर, GPT5.4 ने सबसे स्थिर प्रदर्शन किया, लेकिन Benchmark को "तोड़ने" तक पहुँचने के लिए AI को अभी बहुत दूर तय करना होगा।

ऑटो रिसर्च

△

Auto Research "इटरेशन ऑप्टिमाइजेशन" के युग में प्रवेश करता है

अनुसंधान टीम ने अपने पेपर में एक बहुत दिलचस्प बिंदु उठाया:

सच्ची उच्च स्तरीय बुद्धिमत्ता मूल रूप से दीर्घकालिक प्रतिक्रिया बंद चक्र पर निर्भर करती है।

जैसे अल्फागो ने ली सेजिये को हराया, क्योंकि उसके प्रत्येक चरण के पीछे अपार सिमुलेशन और तात्कालिक प्रतिक्रिया थी, न कि पहले से निर्धारित चैस पैटर्न को याद करना।

सच्चे शोध के लिए भी यही बात लागू होती है, शीर्ष प्रयोगशालाएँ किसी एक बार की प्रेरणा पर निर्भर नहीं करतीं, बल्कि लगातार परिकल्पनाएँ बनाती हैं, प्रयोग करती हैं, परिणाम देखती हैं, योजनाएँ सुधारती हैं और फिर से प्रयास करती हैं।

इसी तरह, इंजीनियरिंग अनुकूलन में भी पहला संस्करण करना किसी भी को आसान होता है, वास्तविक कठिनाई अंतिम 1% के प्रदर्शन में छलांग में होती है।

Frontier-Eng Bench का अर्थ यह है: यह पहली बार AI की "पुनरावृत्ति अनुकूलन क्षमता" का व्यवस्थित रूप से परीक्षण करता है और AI के विकास के दो लगभग क्रूर नियमों को सामने लाता है।

ऑटो रिसर्च

△

पहला नियम यह है: जितना आगे बढ़ते हैं, उतना ही सुधार करना कठिन हो जाता है।

इस शोध पत्र में पाया गया कि एजेंट की सुधार आवृत्ति और आयाम दोनों घातीय ह्रास दर्शाते हैं:

सुधार आवृत्ति ∝ 1/इटरेशन राउंड
सुधार की मात्रा ∝ 1/सुधारों की संख्या

बस यह कहना है कि पहले कई चरणों में सबसे तेज़ वृद्धि हुई, और बाद में हर चरण में वृद्धि कठिन और कम होती गई।

यह वास्तविक अनुसंधान और विकास प्रक्रिया के समान है, पहला संस्करण AI त्वरित रूप से कई "नीचे लटके फल" को हटा देता है, लेकिन जितना आगे बढ़ते हैं, उतना ही सीमा के पास पहुँचते जाते हैं, और किसी भी अतिरिक्त प्रदर्शन को प्राप्त करने के लिए कठोर प्रयास की आवश्यकता होती है।

क्या कई रास्तों को समानांतर में आजमाना अधिक लाभदायक होगा? उत्तर दूसरे नियम में छिपा है।

ऑटो रिसर्च

△

दूसरा नियम: चौड़ाई उपयोगी है, लेकिन गहराई अत्यंत आवश्यक है।

समानांतर रूप से कई लाइनें चलाने से ब्लॉक होने से बचा जा सकता है, लेकिन बजट स्थिर होने पर, प्रत्येक अतिरिक्त चेन खोलने से गहराई कम हो जाती है।

बहुत सारी इंजीनियरिंग उपलब्धियाँ लगातार जमा करने और लगातार सुधार करने से ही संरचनात्मक कूद लाती हैं, बस “कुछ बार और कोशिश करने” से नहीं।

यह हमें अगली पीढ़ी के एजेंट की दिशा की ओर इशारा करता है: एक "एक बार में उत्तर देने" वाला मॉडल नहीं, बल्कि लंबे समय तक के प्रतिक्रिया के साथ लगातार दोहराने और स्वयं को विकसित करने वाला प्रणाली।

AI इंजीनियर, शायद अब आने वाले हैं

इस अध्ययन का वास्तविक गहरा महत्व इस बात में है कि यह एक ऐसे AI प्रणाली का प्रारंभिक चित्रण प्रस्तुत करता है जो वास्तविक इंजीनियरिंग चक्र के करीब पहुँच रही है।

ऑटो रिसर्च

△

कल्पना कीजिए कि जब AI उद्योगिक सॉफ्टवेयर, सिमुलेशन वातावरण, CAD प्रणालियों, चिप डिजाइन उपकरणों, वैज्ञानिक गणना प्लेटफॉर्म्स... में एकीकृत हो जाए।

एक उत्पादकता मॉडल का बड़ा परिवर्तन आने वाला है।

भविष्य के प्रयोगशालाओं में, ऐसी एक विभाजन बहुत संभावित है:

मानव शोधकर्ता दिशा और लक्ष्य प्रस्तावित करने के लिए जिम्मेदार होते हैं।

उदाहरण के लिए, "इस घटक की ऊर्जा खपत को 30% कम करें", "इस मॉडल की फॉरवर्ड GPU उपयोग दर को और कम करें", "रोबोट नियंत्रण की स्थिरता में थोड़ी और सुधार करें", "क्वांटम सर्किट की विश्वसनीयता को सीमा के करीब ले जाएं" आदि।

और AI "मार्ग को दृढ़ता से अपनाता है", वे इन लक्ष्यों के चारों ओर लगातार अनुकूलन करते हैं।

उदाहरण के लिए, स्वचालित रूप से सिमुलेशन और प्रयोग चलाएं, सत्यापनकर्ता और सिमुलेटर की प्रतिक्रिया स्वचालित रूप से पढ़ें, और फिर सुधार और अनुकूलन जारी रखें, 24 घंटे लगातार इटरेशन।

यह विकास तर्क, AI को "सहायक उपकरण" की पहचान से मुक्त करता है और इसे एक वास्तविक इंजीनियरिंग टीम की तरह जटिल प्रणाली समस्याओं को हल करने के लिए अनुमति देता है, और यह थकता नहीं है।

लेकिन Frontier-Eng बेंचमार्क द्वारा उजागर किए गए मुद्दे वास्तव में बहुत सीधे हैं:

जब AI "लंबे समय तक अनुकूलन" सीखना शुरू कर दे, तो यह वास्तविक इंजीनियरिंग बुद्धिमत्ता तक कितना दूर है?

शीर्षक: Frontier-Eng: जनरेटिव ऑप्टिमाइजेशन के साथ वास्तविक दुनिया के इंजीनियरिंग कार्यों पर स्व-विकासशील एजेंट्स का मूल्यांकन

प्रोजेक्ट होमपेज: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub रिपो: https://github.com/EinsiaLab/Frontier-Engineering

यह लेख वेचेन ग्रुप "क्वांटम बिट" से आया है, लेखक: युन ज़होंग