रिकर्सिव सुपरइंटेलिजेंस ने पहला स्वचालित AI शोध प्रणाली उजागर की

कुछ दिन पहले, Anthropic ने "जब AI खुद को बनाता है" शीर्षक के साथ एक लेख प्रकाशित किया, जिसने तुरंत व्यापक चर्चा को जन्म दिया। लेख में एक चौंकाने वाला आंतरिक डेटा प्रकट हुआ: 2026 मई तक, Anthropic के कोडबेस में 80% से अधिक कोड Claude द्वारा लिखा गया था, और इंजीनियर्स द्वारा प्रतिदिन मर्ज किए जाने वाले कोड की मात्रा 2024 की तुलना में 8 गुना अधिक थी; एक आंतरिक परीक्षण में, Claude ने एक प्रशिक्षण कोड के चलाने की गति को बेंचमार्क से लगभग 52 गुना बढ़ा दिया, जबकि एक अनुभवी मानव शोधकर्ता को 4 गुना तेजी लाने में सामान्यतः 4 से 8 घंटे लगते हैं।

Anthropic इस दिशा को एक गहरे लक्ष्य की ओर इशारा करती है: "आपसी स्व-सुधार" — जहां AI प्रणाली स्वयं अपने अगले संस्करण को डिज़ाइन, बनाती और प्रशिक्षित करती है, जहां मानव प्रत्येक कदम को नियंत्रित नहीं करते। ध्यान देने योग्य बात यह है कि कंपनी उद्योग के समन्वय की भी अपील करती है, ताकि आपसी स्व-सुधार के समय सामने आने पर अग्रणी AI विकास को स्थगित या अस्थायी रूप से रोकने का विकल्प हो। Anthropic पहले से ही ऐसा कर रही है: नवीनतम Claude Fable 5 का उपयोग अग्रणी AI के अनुसंधान में सीमित कर दिया गया है।

और अब, Recursive Superintelligence ने स्वचालित AI शोध की ओर पहला कदम उठाया है।

इस नई कंपनी, जिसकी सह-स्थापना तियान युआनडोंग ने की है, ने केवल एक महीने पहले अपनी गुप्त अवस्था समाप्त की है, और अब अपना पहला खुला तकनीकी परिणाम जारी किया है। उन्होंने एक खुला स्वचालित ज्ञान खोज प्रणाली विकसित किया है और तीन मानक परीक्षणों पर SOTA परिणाम प्राप्त किए हैं। सरल शब्दों में, उन्होंने AI को आपके लिए प्रयोग करने में सफलता प्राप्त की है।

https://x.com/tydsh/status/2065062838255649082

पहला परिणाम: एआई को आपके लिए प्रयोग चलाने दें

Recursive यह पहला जनता के लिए उपलब्ध तकनीकी परिणाम «First Steps Toward Automated AI Research» (स्वचालित AI शोध की ओर पहले कदम) के नाम से जाना जाता है।

ट्वीट: https://x.com/Recursive_SI/status/2064980090702962699
रिपॉजिटरी लिंक: https://github.com/recursive-org/first-steps-toward-automated-ai-research
ब्लॉग लिंक: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

एक वाक्य में सारांशित करें तो, इस कार्य का केंद्र एक ऐसी प्रणाली बनाना है जो AI अनुसंधान चक्र को स्वयं आगे बढ़ा सके और तीन बेंचमार्क पर सर्वश्रेष्ठ परिणाम प्राप्त करे।

प्राप्त परिणामों को विघटित करने से पहले, इस प्रणाली के डिज़ाइन तर्क को समझना आवश्यक है।

पारंपरिक AI शोध प्रक्रिया एक उच्च स्तर के मानवीय निर्भरता वाला “आइडिया बनाएं—कोड लिखें—प्रयोग चलाएं—परिणाम विश्लेषण करें—फिर आइडिया बनाएं” बंद चक्र है। इसकी दक्षता की सीमा कैलकुलेशन क्षमता में नहीं, बल्कि मानव में है। पूरी दुनिया में केवल कुछ ही शोधकर्ता अग्रणी प्रशिक्षण प्रक्रियाओं को डिज़ाइन कर सकते हैं, और प्रत्येक प्रयोग आवर्तन के लिए उनकी गहरी भागीदारी की आवश्यकता होती है।

Recursive का सिस्टम इस बंद चक्र को स्वचालित करने की कोशिश कर रहा है।

यह इस तरह काम करता है: एक स्पष्ट अनुकूलन लक्ष्य के आधार पर, सिस्टम स्वचालित रूप से प्रयोग के विचार प्रस्तावित करता है, कोड को लागू करता है, सत्यापन के लिए चलाता है, उससे सीखता है, और फिर अगला कदम क्या उठाना है यह निर्णय लेता है। कई शोध मार्ग समानांतर रूप से आगे बढ़ सकते हैं, प्रभावी खोजें बहु-कार्यों में पुन: उपयोग की जा सकती हैं, और पुरस्कार दुरुपयोग (reward hacking) का पता लगाने का मैकेनिज्म पूरे चक्र में एम्बेडेड है, ताकि सिस्टम "आसान रास्ता" अपनाकर मूल्यांकन सूचकांकों को बढ़ाए बिना कुछ भी वास्तविक रूप से सुधार न करे।

यह एक एकल समस्या के लिए समायोजित विशिष्ट उपकरण नहीं है, बल्कि एक बहु-क्षेत्रीय सामान्य शोध स्वचालन ढांचा है। Recursive ने इस बात को साबित करने के लिए तीन अलग-अलग परीक्षण परिदृश्यों का उपयोग किया है।

तीन युद्धक्षेत्र, तीन नए रिकॉर्ड

स्थिति 1: निश्चित गणना बजट के साथ छोटे मॉडल का प्रशिक्षण (NanoChat Autoresearch)

इस बेंचमार्क के नियम एंड्रेज कारपथी (GPT-2 के लेखक और पूर्व OpenAI सह-संस्थापक) द्वारा शुरू किए गए autoresearch प्रोजेक्ट से लिए गए हैं: एक GPU पर, दिए गए पांच मिनट के निश्चित प्रशिक्षण बजट के साथ, एक छोटे भाषा मॉडल को न्यूनतम सत्यापन हानि (BPB के साथ मापी गई, जहां कम होना बेहतर है) तक प्रशिक्षित करें।

यह परिदृश्य स्वयं के रूप में स्वचालित अनुसंधान के लिए उपयुक्त है: प्रयोग की अवधि छोटी, सूचकांकों का प्रसरण कम है, और धोखाधड़ी की गतिविधियों का पता लगाना अपेक्षाकृत आसान है। इसी कारण, एक "autoresearch@home" नामक सामुदायिक परियोजना इस बेंचमार्क पर लंबे समय से चल रही है—दर्जनों मानव शोधकर्ता और सैकड़ों AI एजेंट सहयोग करते हुए, लगातार सूचकांकों को कम कर रहे हैं।

Recursive का सिस्टम एक ही प्रारंभिक कोड से शुरू होकर, वेरिफिकेशन BPB को समुदाय के सर्वश्रेष्ठ 0.9372 से बढ़ाकर 0.9109 कर दिया, जिससे 0.0263 BPB का सुधार हुआ। दूसरे शब्दों में: समान ट्रेनिंग क्वालिटी के लिए, Recursive का समाधान अपने प्रतिद्वंद्वी की तुलना में केवल 1.3 गुना कम ट्रेनिंग समय की आवश्यकता होती है।

सिस्टम द्वारा पाए गए सुधार एकल उपाय नहीं हैं। इसमें आर्किटेक्चर एडजस्टमेंट, सहायक हानि, ध्यान तंत्र में परिवर्तन, अनुकूलक व्यवहार, वजन क्षय नियोजन, कंपाइलर सेटिंग्स आदि कई परिवर्तन शामिल हैं। सबसे महत्वपूर्ण खोज में से एक है एक अधिक समृद्ध छोटे संदर्भ स्मृति तंत्र: ध्यान के मूल्य पथ में, bigram (संलग्न शब्द युग्म) और trigram (त्रिक) जानकारी को हैश टेबल के माध्यम से समाहित किया जाता है, और इसे एक सीखने योग्य गेटिंग भारित मिश्रण के साथ मिलाया जाता है। विभिन्न Transformer परतें विभिन्न हैश फ़ंक्शन का उपयोग करती हैं, जिससे परतों के बीच पुनरावृत्ति टक्कर की संभावना कम हो जाती है।

यह तकनीक DeepSeek Engram जैसे कार्यों से अवधारणात्मक रूप से संबंधित है, लेकिन प्रणाली ने इसे एक ऐसे विशिष्ट रूप में लागू किया है जो अभी तक सार्वजनिक साहित्य में नहीं देखा गया है, और इसे निश्चित बजट के परिदृश्य में डिप्लॉय किया गया है।

दृश्य 2: ट्रेनिंग स्पीड रेस (NanoGPT Speedrun)

अगर पिछला सीन एक सक्रिय समुदाय की उपलब्धियों पर "आगे बढ़ना" था, तो यह सीन काफी कठिन है।

NanoGPT Speedrun एक और बेंचमार्क है जिसे कारपार्थी ने शुरू किया था और जिसे समुदाय ने दो से अधिक वर्षों तक अनुकूलित किया है: 8 H100 GPU पर GPT मॉडल को वैलिडेशन लॉस 3.28 तक पहुँचाने में लगने वाला न्यूनतम समय। 2024 के मध्य से, समुदाय ने 83 दर्ज किए गए योगदानों के माध्यम से समय को लगभग 45 मिनट से घटाकर 79.7 सेकंड कर दिया है। प्रत्येक नया समाधान अत्यधिक अनुकूलित कोड पर आधारित होता है, और समय को और भी कम करना असंभव से अधिक कठिन है।

Recursive का सिस्टम मौजूदा उत्तम हल से शुरू करके, प्रशिक्षण समय को फिर से 77.5 सेकंड तक संकुचित कर दिया, जिससे 2.2 सेकंड की बचत हुई। यह हाल के मानव योगदानकर्ताओं द्वारा किए गए सुधारों के स्तर के बराबर या उससे बेहतर है।

इस बार सिस्टम द्वारा खोजे गए मुख्य ट्रिक्स शामिल हैं:

FP8 परिशुद्धता के साथ ध्यान गणना। समुदाय के समाधान केवल मॉडल के अंतिम स्तर (भाषा मॉडल हेड) पर FP8 (8-बिट फ्लोटिंग पॉइंट) गणना का उपयोग करते हैं, जबकि सिस्टम FP8 को ध्यान स्तर के मैट्रिक्स ऑपरेशन में विस्तारित करता है, फॉरवर्ड प्रोपेगेशन में FP8 का उपयोग करके टेंसर कोर थ्रूपुट को दोगुना किया जाता है, और पीछे की ओर प्रोपेगेशन में स्थिरता बनाए रखने के लिए BF16 को बनाए रखा जाता है।

ऑप्टिमाइज़र में अन्नीलिंग एक्सप्लोरेशन नॉइज़। सिस्टम नॉरमून ऑप्टिमाइज़र के अपडेट स्टेप में शून्य माध्य गॉसियन नॉइज़ डालता है, जिसका आयाम प्रशिक्षण प्रगति के साथ रेखीय रूप से शून्य तक कम हो जाता है। इससे ऑप्टिमाइज़र को एक "पहले साहसिक खोज, फिर स्थिर अभिसरण" का व्यवहार मिलता है, जो अंतिम हल को एक अधिक समतल हानि बेसिन में ले जाने में मदद करता है।

अधिक संक्षिप्त संलयन MLP कर्नेल। सिस्टम ने एक Triton GPU कर्नेल को पुनः लिखा है, जिसमें फॉरवर्ड प्रोपेगेशन के दौरान केवल ReLU वर्गीकृत एक्टिवेशन मान संग्रहीत किए जाते हैं, और बैकवर्ड प्रोपेगेशन के दौरान अवर्गीकृत मध्यवर्ती परिणाम कर्नेल के भीतर पुनः गणना किए जाते हैं, जिससे उच्च-पट्टीचौड़ाई वाली GPU मेमोरी में एक्टिवेशन टेंसर की पूर्ण पढ़ने-लिखने की यात्रा कम हो जाती है—यह हार्डवेयर स्तर पर सीधा तेजी है।

तीन सुधार, जो क्रमशः अधिकतम रणनीति, ऑप्टिमाइज़र डिज़ाइन और GPU कर्नेल प्रोग्रामिंग के तीन अलग-अलग पेशेवर क्षेत्रों से संबंधित हैं। दो वर्षों के समुदाय अनुकूलन के परिणामों के बाद भी सिस्टम में सुधार का स्थान मिला, जो खुद ही समस्या को दर्शाता है।

स्थिति 3: GPU कोर अनुकूलन (SOL-ExecBench)

पहले दो सीन मॉडल ट्रेनिंग स्तर पर काम करते हैं, जबकि तीसरा सीन और अधिक निचले स्तर पर: GPU कैलकुलेशन कर्नेल के अनुकूलन में जाता है।

SOL-ExecBench एक नाइवडिया द्वारा लॉन्च किया गया बेंचमार्क है, जिसमें 235 कर्नेल-लिखित कार्य शामिल हैं, जो मैट्रिक्स गुणन, रिडक्शन, नॉर्मलाइज़ेशन लेयर, अटेंशन कंपोनेंट्स, क्वांटाइज़ेशन रूटीन्स, फ्यूज्ड ब्लॉक्स आदि जैसे कई प्रकार के वास्तविक कार्यभार को कवर करते हैं। स्कोरिंग मानक SOL स्कोर है: 0.5 बेंचमार्क PyTorch इम्प्लीमेंटेशन के बराबर है, 1.0 हार्डवेयर की सैद्धांतिक सीमा के बराबर है। पहले का सर्वश्रेष्ठ सार्वजनिक परिणाम 0.699 था।

Recursive का सिस्टम 235 कोर पर समग्र रूप से चल रहा है, जिससे कार्यों के बीच खोजे गए अनुकूलन पैटर्न (जैसे मेमोरी कॉपी स्ट्रेटेजी, ब्लॉकिंग तरीके, रिडक्शन तकनीकें) का पुन: उपयोग संभव होता है, जिससे अंतिम स्कोर 0.754 तक पहुँच गया और हार्डवेयर की सीमा से अंतर 18% तक कम हो गया।

यह परिदृश्य विशेष रूप से महत्वपूर्ण है क्योंकि कर्नल इंजीनियरिंग एक अत्यधिक विशेषज्ञता वाला क्षेत्र है—दुनिया भर में कुछ ही इंजीनियर ऐसे हैं जो कुशल Triton/CUDA कर्नल लिख सकते हैं। और Recursive टीम अपने ब्लॉग में स्वीकार करती है कि वे स्वयं कर्नल के क्षेत्र के विशेषज्ञ नहीं हैं, "ये विचार प्रणाली से ही आए हैं, हमारी पेशेवर पृष्ठभूमि से नहीं।"

Recursive: AI का उपयोग करके रिकर्सिव को सुधारना

इस उपलब्धि को प्रकाशित करने वाली कंपनी Recursive Superintelligence 2025 के अंत और 2026 की शुरुआत के बीच स्थापित की गई थी, और पिछले महीने तक गुप्त रही, इसके संस्थापक सदस्यों में पूर्व Meta FAIR शोध वैज्ञानिक निदेशक तियान युआनडोंग के अलावा शामिल हैं:

रिचर्ड सोचर, रिकर्सिव के सीईओ, पूर्व सेल्सफोर्स के मुख्य वैज्ञानिक

अलेक्सेई डोसोवित्स्की, पूर्व Google DeepMind शोध वैज्ञानिक और Vision Transformer के प्रथम लेखक, जिनके Google Scholar पर 16 लाख से अधिक संदर्भ हैं।

टिम रॉक्टेशेल, पूर्व DeepMind मूलधन वैज्ञानिक और UCL आर्टिफिशियल इंटेलिजेंस प्रोफेसर

पीटर नॉरविग, गूगल के पूर्व शोध निदेशक, स्टुअर्ट रसल के साथ AI के प्रसिद्ध पाठ्यपुस्तक "आर्टिफिशियल इंटेलिजेंस: ए मॉडर्न एप्रोच" के सह-लेखक हैं।

कैमिंग शियोंग, पूर्व Salesforce AI उपाध्यक्ष

टिम शी, पूर्व OpenAI शोधकर्ता, उद्यम AI कंपनी Cresta के सह-संस्थापक और CTO

जोश टोबिन, रिकर्सिव के सीटीओ, पूर्व OpenAI और Uber ATG शोध प्रमुख

जेफ क्लून, पूर्व Google DeepMind अनुसंधान उपाध्यक्ष, कनाडा के ब्रिटिश कोलंबिया विश्वविद्यालय के कंप्यूटर विज्ञान के प्रोफेसर

और इस स्टार्टअप ने अभी तक कोई उपलब्ध उत्पाद नहीं लॉन्च किया था, लेकिन इसे 6.5 अरब डॉलर का फंडिंग प्राप्त हुआ है, जिसका अनुमानित मूल्य 46.5 अरब डॉलर है, जिसका नेतृत्व GV (गूगल वेंचर्स) और Greycroft ने किया है, जबकि NVIDIA और AMD Ventures ने निवेश किया है।

कंपनी का मुख्य दावा इसके नाम से सीधे मेल खाता है: ऐसे AI सिस्टम बनाना जो अपनी शोध क्षमता को पुनरावर्ती रूप से बढ़ा सकें, जिसमें AI AI के विकास प्रक्रिया में शामिल होकर उसे तेज करे, और अंततः निरंतर स्व-वृद्धि का बंद चक्र बनाए।

अधिक विवरण के लिए, रिपोर्ट "मेटा छोड़ने के बाद, तियान युआनडोंग ने अभी उद्यम शुरू करने की घोषणा की" देखें।

बेशक, रिकर्सिव को इस क्षेत्र में अकेला नहीं छोड़ा गया है। यान लेक्यून के AMI Labs ने इस वर्ष मार्च में 10 अरब डॉलर की फंडिंग पूरी की, और डेविड सिल्वर के Ineffable Intelligence ने अप्रैल में 11 अरब डॉलर की सीड राउंड प्राप्त की, जो दोनों ही एक ही दिशा की ओर इशारा करते हैं: AI प्रणालियों को स्वयं ज्ञान उत्पन्न करने की क्षमता देना और शोध प्रक्रिया में मानवीय हस्तक्षेप को कम करना। हालाँकि, प्रकाशित परिणामों की गति के संदर्भ में, रिकर्सिव का यह "पहला कदम" वर्तमान में इस प्रकार की कंपनियों में सबसे अधिक विशिष्ट और पुनर्निर्मित करने योग्य तकनीकी प्रदर्शनों में से एक है।

The Dawn of the Recursive Paradigm

रिकर्सिव द्वारा प्रकाशित यह उपलब्धि, अधिक व्यापक उद्योग के संदर्भ में, एक नए प्रकार के AI शोध पद्धति की प्रारंभिक लागू होने को दर्शाती है: जिसमें AI प्रणाली स्वयं शोध का मुख्य भूमिका निभाती है।

इस «रिकर्सिव AI» की मूल तर्कशक्ति जटिल नहीं है: AI AI शोध क्षमता को बढ़ाता है, सुधारित AI फिर खुद को और अधिक प्रभावी ढंग से बढ़ा सकता है, और यह चक्र बना रहता है। यह किसी एकल उपलब्धि पर निर्भर नहीं करता, बल्कि लगातार उपलब्धियाँ उत्पन्न करने वाली प्रणाली पर निर्भर करता है।

इस दृष्टिकोण का एआई अनुसंधान की अर्थव्यवस्था के लिए महत्वपूर्ण है। अग्रणी मॉडल के प्रशिक्षण प्रक्रिया अभी भी कुछ विशिष्ट कौशल वाले शोधकर्ताओं पर अत्यधिक निर्भर है, और इस कार्य को संभालने में सक्षम लोग दुनिया भर में केवल कुछ हजार ही हैं। यदि स्वचालित अनुसंधान प्रणाली इनमें से केवल कुछ हिस्से को संभाल ले, तो एआई की प्रगति की गति और लागत वक्र बदल जाएंगे।

यह निर्णय उद्योग द्वारा हाल ही में व्यक्त किए गए अन्य बयानों के साथ भी संगति रखता है। उदाहरण के लिए, इस लेख की शुरुआत में उल्लिखित Anthropic का “When AI Builds Itself” — इसका टोन हल्का नहीं है— यह उद्योग को समन्वय करने के लिए आह्वान करता है, ताकि पुनरावर्ती स्व-सुधार के समय आगे के AI विकास को स्थगित या अस्थायी रूप से रोकने का विकल्प मौजूद हो, जिससे सामाजिक संरचनाओं और संरेखण अनुसंधान को गति के साथ बढ़ने का समय मिल सके। अधिक विवरण के लिए “AI स्व-विकास बहुत तेज़, Anthropic ने वैश्विक विकास रोकने की मांग की” पढ़ें।

https://www.anthropic.com/institute/recursive-self-improvement

दो बातें एक साथ हो रही हैं, जो दिलचस्प है। एक ओर, Anthropic इस पथ की दिशा को रिकॉर्ड कर रहा है और चेतावनी दे रहा है, दूसरी ओर, Recursive जैसी टीमें इस पथ को धीरे-धीरे वास्तविकता में बदल रही हैं।

रिकर्सिव खुद मानता है कि यह अभी भी "पहला कदम" है: वर्तमान प्रणाली उन परिदृश्यों में सबसे अच्छा काम करती है जहां सूचक स्पष्ट हों, प्रतिक्रिया त्वरित हो और धोखाधड़ी का पता लगाया जा सके, और खुले वैज्ञानिक प्रश्नों को स्वयं आगे बढ़ाने के लिए अभी बहुत दूरी है। धोखाधड़ी के पुरस्कार की रोकथाम बड़े पैमाने पर लागू करने के रास्ते पर सतत सामना किया जाने वाला मुख्य चुनौती होगी।

लेकिन एक बंद चक्र शुरू हो चुका है। अगला सवाल केवल यह है कि यह कितनी तेज़ी से घूमेगा।

यह लेख वेचेन ग्रुप "मशीन इंटेलिजेंस" (ID: almosthuman2014) से आया है, लेखक: रिकर्सिव इवोल्यूशन में मशीन इंटेलिजेंस, संपादक: Panda