विशेषज्ञ OpenClaw के AI एजेंट और कंप्यूट चुनौतियों पर प्रभाव पर चर्चा करते हैं

लेखक: चेन जूनदा

ज़होंगक्सी ने 27 मार्च को रिपोर्ट किया कि आज, ज़होंगगुआन फोरम पर, ज़होंगपु के सीईओ ज़हांग पेंग, यूए ऑफ मून के सीईओ यांग ज़हीलिन (जिन्होंने संचालन किया), मियाओ मीमो लार्ज मॉडल टीम के प्रमुख लुओ फुली, वुवेन शिनक्वियोंग के सीईओ शिया लिक्स्यू और हांगकांग विश्वविद्यालय की सहायक प्रोफेसर हुआंग चाओ ने दुर्लभ रूप से एक साथ खुले स्रोत वाले बड़े मॉडल और एजेंट्स के भविष्य के बारे में एक गहन संवाद किया।

इस बातचीत की शुरुआत वर्तमान में सबसे लोकप्रिय OpenClaw के साथ हुई, जिस पर सभी अतिथि सहमत हुए कि एजेंट्स ने बड़े मॉडल को वास्तव में "काम करना" शुरू कर दिया है। OpenClaw बड़े मॉडल की क्षमता की सीमाओं को विस्तारित करता है, लेकिन मॉडल के लिए अधिक उच्च आवश्यकताएँ भी रखता है। Zhipu लंबी योजना बनाने, स्व-ट्यूनिंग जैसी क्षमताओं पर काम कर रहा है, जबकि Luo Fuli की टीम आर्किटेक्चरल नवाचार के माध्यम से लागत को कम करने, गति को बढ़ाने और यहाँ तक कि मॉडल के स्व-विकास को संभव बनाने पर अधिक ध्यान केंद्रित कर रही है।

बुनियादी ढांचे को एजेंट के तालमेल से भी अपडेट किया जाना चाहिए। शिया लिक्सिए का मानना है कि वर्तमान में कैलकुलेशन सिस्टम और सॉफ्टवेयर आर्किटेक्चर इंसानों के लिए बनाए गए हैं, न कि एजेंट्स के लिए—वास्तव में, मानवीय संचालन क्षमता एजेंट की क्षमता को सीमित कर रही है। इसलिए, हमें एजेंटिक इन्फ्रास्ट्रक्चर बनाने की आवश्यकता है।

कई अतिथियों की नजर में, ओपन सोर्स बड़े मॉडल और एजेंट्स के विकास की प्रमुख शक्तियों में से एक है। हॉंग कॉंग विश्वविद्यालय के सहायक प्रोफेसर हुआंग चाओ का मानना है कि ओपन सोर्स इकोसिस्टम का उत्थान एजेंट्स को "बस खेलने" से वास्तविक "कामकाजी" बनने की कुंजी है; केवल समुदाय द्वारा संयुक्त रूप से निर्माण करके ही सॉफ्टवेयर, डेटा और प्रौद्योगिकी को पूरी तरह से एजेंट-नेटिव रूप में बदला जा सकता है, जिससे अंततः एक स्थायी वैश्विक AI इकोसिस्टम बन सके।

इसके अलावा, कई अतिथियों ने बड़े मॉडल की कीमत में वृद्धि, टोकन उपयोग में विस्फोट, और एआई के अगले 12 महीनों के कीवर्ड आदि विषयों पर चर्चा की। इस गोलमेज चर्चा के प्रमुख बिंदु निम्नलिखित हैं:

1. ज़हांग पेंग: मॉडल बड़ा होने के बाद निष्कर्ष निकालने की लागत भी संबंधित रूप से बढ़ जाती है, हाल के दिनों में Zhipu की कीमत बढ़ाने की रणनीति वास्तविक व्यावसायिक मूल्य पर वापसी है, लंबे समय तक कम कीमत पर प्रतिस्पर्धा उद्योग के विकास के लिए हानिकारक है।

2. ज़ंग पेंग: एजेंट जैसी नई तकनीकों के विस्फोट से टोकन का उपयोग 10 गुना बढ़ गया है, लेकिन वास्तविक मांग 100 गुना बढ़ सकती है, और अभी भी बहुत सारी मांग पूरी नहीं हुई है, इसलिए कैलकुलेशन क्षमता अगले 12 महीनों के लिए महत्वपूर्ण समस्या बनी रहेगी।

3. लुओ फुली: आधार बड़े मॉडल निर्माताओं के दृष्टिकोण से, OpenClaw आधार बड़े मॉडल की न्यूनतम सीमा को सुनिश्चित करता है और अधिकतम सीमा को बढ़ाता है। घरेलू ओपन-सोर्स मॉडल + OpenClaw की कार्य पूर्ति अब Claude के बहुत करीब पहुंच गई है।

4. लुओ फुली: डीपसीक ने देशी बड़े मॉडल निर्माताओं को साहस और आत्मविश्वास दिया। कुछ ऐसे मॉडल संरचना नवाचार जो दिखते हैं कि वे "कुशलता के लिए समझौता" कर रहे हैं, वास्तविक परिवर्तन लाए हैं, जिससे उद्योग एक निश्चित कैलकुलेशन क्षमता के साथ उच्चतम बुद्धिमत्ता प्राप्त कर पाया है।

5. रो फुली: अगले वर्ष के AGI यात्रा में सबसे महत्वपूर्ण बात “स्व-विकास” होगी। स्व-विकास बड़े मॉडल को शीर्ष वैज्ञानिकों की तरह अन्वेषण करने की अनुमति देता है, जो “नया कुछ बनाने” का एकमात्र तरीका है। मियाओमी ने Claude Code+ शीर्ष मॉडल का उपयोग करके अनुसंधान की दक्षता में 10 गुना की वृद्धि की है।

6. शिया लिक्स्यू: जब एजीआई का युग आएगा, तो बुनियादी ढांचा स्वयं एजेंट होना चाहिए, पूरे बुनियादी ढांचे का स्वयं बुनियादी ढांचे को प्रबंधित करना चाहिए, और एआई ग्राहकों की आवश्यकताओं के आधार पर बुनियादी ढांचे को अपग्रेड करना चाहिए, ताकि स्वयं को विकसित और स्वयं को अपडेट किया जा सके।

7. शिया लिक्स्यू: ओपनक्लॉ ने टोकन के उपयोग को बढ़ा दिया है। वर्तमान में टोकन की खपत की गति, उस समय के 3G अवधि के मोबाइल डेटा की तरह है, जब प्रति महीने केवल 100MB की सीमा होती थी।

8. हुआंग चाओ: भविष्य में बहुत सारे सॉफ्टवेयर मनुष्यों के लिए नहीं होंगे, सॉफ्टवेयर, डेटा और प्रौद्योगिकी एजेंट-नेटिव रूप में प्रोग्राम की जाएगी, और मनुष्यों को भविष्य में केवल उन "अपने खुश रहने के लिए GUI" का उपयोग करना पड़ सकता है।

यहाँ इस राउंडटेबल चर्चा की पूर्ण प्रतिलिपि है:

01. OpenClaw बस “स्कैफोल्डिंग” है, बड़े मॉडल के टोकन खपत अभी भी 3G युग में हैं

यांग ज़हान: आज मैं अपने सभी प्रमुख अतिथियों को आमंत्रित करके बहुत सम्मानित महसूस कर रहा हूँ, जो मॉडल लेयर, कैलकुलेशन लेयर से लेकर एजेंट लेयर तक से हैं। आज का सबसे मुख्य कीवर्ड ओपन सोर्स है, और फिर एजेंट।

पहला प्रश्न वर्तमान में सबसे लोकप्रिय OpenClaw के बारे में है। लोग दैनिक रूप से OpenClaw या इसी तरह के उत्पादों का उपयोग करते समय क्या सबसे अधिक कल्पनाशील या प्रभावशाली बात महसूस करते हैं? तकनीकी दृष्टिकोण से, आज OpenClaw और संबंधित Agent के विकास को कैसे देखा जाए?

ज़ंग पेंग: मैंने बहुत पहले से ही खुद OpenClaw खेलना शुरू कर दिया था, जब इसे अभी भी Clawbot कहा जाता था। मैंने खुद ही इसे ट्राई किया, क्योंकि मैं एक प्रोग्रामर हूँ, इस तरह की चीजों को खेलने में मुझे कुछ अपना अनुभव है।

मुझे लगता है कि OpenClaw द्वारा सभी के लिए लाया गया सबसे बड़ा क्रांतिकारी पहलू, या नवीनता यह है कि यह अब केवल प्रोग्रामरों या टेक एन्थूसियास्ट्स का अधिकार क्षेत्र नहीं है। सामान्य लोग भी प्रोग्रामिंग और एजेंट्स के क्षेत्र में शीर्ष मॉडल की क्षमताओं का आसानी से उपयोग कर सकते हैं।

इसलिए अब तक, आप सभी के साथ बातचीत के दौरान, मैं OpenClaw को "स्कैफोल्डिंग" कहना पसंद करता हूँ। यह मॉडल के आधार पर एक मजबूत, सुविधाजनक, लेकिन लचीला स्कैफोल्डिंग प्रदान करता है। आप अपनी इच्छानुसार, निचले स्तर के मॉडल द्वारा प्रदान की जाने वाली कई नवीन सुविधाओं का उपयोग कर सकते हैं।

अब तक मेरी अपनी विचारधारा कोड लिखने के अभाव या अन्य संबंधित कौशल के अभाव में सीमित रही होगी, लेकिन आज OpenClaw के साथ, मैं इसे बहुत सरल संवाद के माध्यम से पूरा कर सकता हूँ।

OpenClaw ने मुझे बहुत बड़ा झटका दिया, या फिर मुझे इस बात को फिर से समझने का मौका दिया।

शिया लिक्स्यू: वास्तव में, जब मैंने शुरुआत में OpenClaw का उपयोग किया, तो मुझे इससे अनुकूलित होने में कठिनाई हुई, क्योंकि मैं बड़े मॉडल के साथ बातचीत करने की आदत में थी, और उपयोग करने के बाद मुझे लगा कि OpenClaw बहुत धीमी प्रतिक्रिया दे रहा है।

लेकिन बाद में मुझे एक समस्या का एहसास हुआ, जो इसका पिछले चैटबॉट से बड़ा अंतर था—यह एक ऐसा "व्यक्ति" था जो मुझे बड़े कार्य पूरा करने में मदद कर सकता था। मैंने इसे अधिक जटिल कार्य सौंपना शुरू कर दिया, और मुझे पता चला कि यह वास्तव में बहुत अच्छा काम कर सकता है।

यह बात मुझे बहुत प्रभावित करती है। मॉडल शुरू में टोकन के आधार पर बातचीत करता था, लेकिन अब एक एजेंट बन गया है, एक झींगुर बन गया है, जो आपके कार्य पूरा करने में मदद कर सकता है। यह बात AI की समग्र कल्पना के क्षेत्र में बड़ी वृद्धि लाती है।

इसके साथ ही, पूरे सिस्टम की क्षमता के लिए आवश्यकताएँ भी बहुत अधिक हो गई हैं। यही कारण है कि मैंने शुरू में OpenClaw का उपयोग करते समय महसूस किया कि यह थोड़ा धीमा है। बुनियादी ढांचे के स्तर के निर्माता के रूप में, मैं देखता हूँ कि OpenClaw AI के पीछे के बड़े सिस्टम और पारिस्थितिकी के लिए अधिक अवसर और चुनौतियाँ लाता है।

हमारे पास अभी जो संसाधन हैं, वे इस तेजी से बढ़ते हुए युग को संभालने के लिए पर्याप्त नहीं हैं। उदाहरण के लिए, हमारी कंपनी की बात करें, हमारी कंपनी जनवरी के अंत से लगभग हर दो हफ्ते में टोकन उपयोग दोगुना हो गया है, और अब यह लगभग 10 गुना बढ़ गया है।

पिछली बार इस गति को देखने का समय था, जब मैं 3G मोबाइल का उपयोग करके डेटा खर्च कर रहा था। मुझे एक ऐसा अहसास हो रहा है कि वर्तमान टोकन उपयोग, उस समय की तरह है जब मुझे महीने में केवल 100MB मोबाइल डेटा मिलता था।

इस स्थिति में, हमें अपने सभी संसाधनों को बेहतर तरीके से अनुकूलित और एकीकृत करने की आवश्यकता है, ताकि प्रत्येक व्यक्ति, न केवल AI क्षेत्र में, बल्कि समाज के हर कोने में OpenClaw की AI क्षमताओं का उपयोग कर सके।

बुनियादी ढांचे के खिलाड़ी के रूप में, मैं इस युग के प्रति बहुत उत्साहित और प्रभावित हूँ। मुझे लगता है कि इसमें कई अनुकूलन के संभावनाएँ हैं जिन्हें हम अभी भी खोजना और प्रयास करना चाहिए।

02. OpenClaw भारतीय मॉडल की सीमा को बढ़ाता है, इंटरैक्टिव मोड में क्रांतिकारी प्रगति

रो फुली: मैं खुद ओपनक्लॉ को एजेंट फ्रेमवर्क के विकास के दौरान एक अत्यंत क्रांतिकारी और विप्लवात्मक घटना के रूप में देखता हूँ।

वास्तव में, मेरे आसपास के सभी लोग जो बहुत गहरी कोडिंग कर रहे हैं, उनका पहला विकल्प अभी भी Claude Code ही है। लेकिन, मुझे विश्वास है कि OpenClaw का उपयोग करने वाले लोग महसूस करेंगे कि इसके Agent फ्रेमवर्क पर कई डिज़ाइन Claude Code से आगे हैं। हाल ही में Claude Code में कई अपडेट्स वास्तव में OpenClaw की ओर बढ़ रहे हैं।

मैंने OpenClaw का उपयोग करते समय महसूस किया कि यह फ्रेमवर्क मुझे अपनी कल्पना को कहीं भी और कभी भी विस्तारित करने की सुविधा देता है। Claude Code शुरू में केवल मेरी डेस्कटॉप पर मेरी रचनात्मकता को ही विस्तारित कर सकता था, लेकिन OpenClaw मेरी रचनात्मकता को कहीं भी और कभी भी विस्तारित कर सकता है।

OpenClaw द्वारा प्रदान की जाने वाली मुख्य मूल्य दो हैं। पहली यह है कि यह ओपन सोर्स है। ओपन सोर्स होना, पूरे समुदाय को गहराई से शामिल होने, इस फ्रेमवर्क के विकास को महत्व देने और इसे आगे बढ़ाने में बहुत फायदेमंद होता है, जो एक महत्वपूर्ण पूर्वशर्त है।

मुझे लगता है कि OpenClaw जैसे AI फ्रेमवर्क का एक बड़ा फायदा यह है कि यह देशी मॉडल्स की सीमा को बहुत ऊंचा उठा देता है, जो बंद स्रोत मॉडल्स के स्तर के करीब हैं, लेकिन अभी पूरी तरह से पीछे हैं।

अधिकांश परिदृश्यों में, आप पाएंगे कि इसका (घरेलू ओपन-सोर्स मॉडल + OpenClaw) कार्य पूरा करने का स्तर Claude के नवीनतम मॉडल के बहुत करीब है। इसके अलावा, यह एक Harness सिस्टम, या इसके Skills सिस्टम जैसे अन्य डिज़ाइन के माध्यम से निम्नतम स्तर को भी सुनिश्चित करता है—जिससे कार्य की पूर्णता और सटीकता सुरक्षित रहती है।

सारांश यह है कि बेस मॉडल विक्रेताओं के विकासकों के दृष्टिकोण से, OpenClaw बेस मॉडल की न्यूनतम सीमा को सुनिश्चित करता है और अधिकतम सीमा को बढ़ाता है।

इसके अलावा, मुझे लगता है कि इसने पूरे समुदाय को एक और मूल्य प्रदान किया है—इसने सभी की जागरूकता जगाई है और उन्हें यह समझने में मदद की है कि बड़े मॉडल के बाहर, एजेंट स्तर में वास्तव में बहुत बड़ी कल्पना की क्षमता छिपी हुई है।

मैंने हाल ही में देखा है कि शोधकर्ताओं के अलावा, समुदाय में बढ़ती संख्या में लोग AGI के परिवर्तन में शामिल हो रहे हैं, और अधिक लोग Harness, Scaffold जैसे अधिक शक्तिशाली एजेंट फ्रेमवर्क्स के साथ काम करना शुरू कर रहे हैं। ये लोग इन उपकरणों का उपयोग करके अपने कार्यों का कुछ हिस्सा प्रतिस्थापित कर रहे हैं, और साथ ही अपना समय मुक्त कर रहे हैं ताकि वे अधिक कल्पनाशील चीजों में लग सकें।

हुआंग चाओ: मुझे लगता है कि सबसे पहले, इंटरैक्शन मॉडल के बारे में, OpenClaw के इस बार लोकप्रिय होने का पहला कारण यह हो सकता है कि इसने एक अधिक "मानवीय" अनुभव प्रदान किया है। वास्तव में, हमने एजेंट पर एक-दो साल काम किया है, लेकिन पहले Cursor, Claude Code जैसे एजेंट्स का अनुभव अधिकतर "उपकरण" का लगता था। जबकि OpenClaw पहली बार "इमीडिएट मैसेजिंग सॉफ्टवेयर में एम्बेडेड" तरीके से, लोगों को अपने मन में "व्यक्तिगत जार्विस" के करीब महसूस कराता है। मुझे लगता है कि यह इंटरैक्शन मॉडल में एक क्रांति हो सकती है।

एक और बात, यह पूरे समुदाय के लिए एक प्रेरणा है: एजेंट लूप जैसे सरल लेकिन कुशल ढांचे की संभावना फिर से साबित हो गई है। इसके साथ ही, यह हमें एक सवाल पर फिर से विचार करने के लिए मजबूर करता है: क्या हमें एक सर्वशक्तिमान, सब कुछ करने में सक्षम सुपर एजेंट की आवश्यकता है, या हमें एक बेहतर “छोटा प्रबंधक” की आवश्यकता है, जैसे एक हल्का संचालन प्रणाली या स्कैफोल्डिंग?

OpenClaw द्वारा प्रस्तावित विचार यह है कि इस "छोटे सिस्टम" या "लॉबस्टर ऑपरेटिंग सिस्टम" और उसके इकोसिस्टम के माध्यम से, लोगों को वास्तव में "खेलने" का मनोबल मिले, जिससे पूरे इकोसिस्टम के सभी उपकरणों को गति मिले।

Skills, Harness जैसी क्षमताओं के आगमन के साथ, अधिक लोग OpenClaw जैसी प्रणालियों के लिए एप्लिकेशन डिज़ाइन करने में सक्षम हो रहे हैं, जिससे विभिन्न उद्योगों को सशक्तिकरण मिल रहा है। मुझे लगता है कि यह बात पूरे ओपन सोर्स इकोसिस्टम के साथ स्वाभाविक रूप से बहुत घनिष्ठ रूप से जुड़ी हुई है। मेरी दृष्टि में, ये दोनों बातें हमें सबसे बड़ी प्रेरणा देती हैं।

03. GLM नया मॉडल "काम करने" के लिए विशेष रूप से बनाया गया है, बढ़ती कीमत सामान्य व्यावसायिक मूल्य की वापसी है

यांग ज़हलिन: मैं ज़हांग पेंग से पूछना चाहता हूं। हाल ही में, मैंने देखा कि Zhipu ने नया GLM-5 Turbo मॉडल लॉन्च किया है, और मुझे समझ में आया कि एजेंट क्षमताओं में बड़ी वृद्धि की गई है। क्या आप हमें इस नए मॉडल और अन्य मॉडल्स के बीच के अंतर के बारे में बता सकते हैं? साथ ही, हमने देखा कि कीमत बढ़ाने की रणनीति का उल्लेख किया गया है, जो किस प्रकार के बाजार संकेतों को दर्शाता है?

ज़ंग पेंग: यह एक बहुत अच्छा सवाल है। पिछले कुछ दिनों में हमने वास्तव में एक त्वरित अपडेट जारी किया था, जो हमारे पूरे विकास मार्गदर्शिका का एक चरण है, लेकिन हमने इसे पहले ही जारी कर दिया है।

मुख्य उद्देश्य, पहले के “सरल संवाद” से “असली काम करने” की ओर जाना है—यही लोग इस समय सामान्य रूप से महसूस कर रहे हैं: बड़े मॉडल केवल बातचीत करने में सक्षम नहीं रहे, बल्कि अब वे वास्तव में लोगों के काम में मदद करने लगे हैं।

लेकिन "काम करने" के पीछे बहुत अधिक क्षमता की आवश्यकता होती है। मॉडल को खुद लंबी अवधि की योजना बनानी होगी, लगातार प्रयास और त्रुटि करनी होगी, संदर्भ संकुचित करना होगा, डीबग करना होगा, और संभवतः बहु-मॉडलिटी जानकारी के साथ काम करना होगा। इसलिए, इसकी मॉडल क्षमता की आवश्यकता पारंपरिक संवाद-आधारित सामान्य मॉडल से अलग है। GLM-5 Turbo ने इन सभी पहलुओं में विशेष रूप से मजबूती विकसित की है, खासकर आपने जिसे उल्लेख किया — इसे काम करने और सात्तर दो घंटे तक चलाने के लिए, यह कैसे लगातार लूप में रह सकता है, इसमें हमने कई काम किए हैं।

इसके अलावा, लोग टोकन खपत के बारे में भी बहुत चिंतित हैं। एक बुद्धिमान मॉडल को जटिल कार्यों के लिए उपयोग करने पर टोकन की खपत बहुत अधिक होती है। सामान्य उपयोगकर्ता इसे सीधे महसूस नहीं कर सकते, लेकिन बिल देखने पर उन्हें पता चलता है कि पैसा बहुत तेजी से खर्च हो रहा है। इसलिए, हमने इस क्षेत्र में भी सुधार किया है, जब जटिल कार्यों का सामना होता है, तो मॉडल अधिक कुशल टोकन दक्षता के साथ कार्य पूरा कर सकता है। समग्र रूप से, मॉडल की संरचना अभी भी बहु-कार्य सहयोगी सामान्य संरचना है, केवल क्षमताओं में प्राथमिकता दी गई है।

असल में, कीमत बढ़ाने की बात बहुत आसानी से समझी जा सकती है। अभी तक हमने कहा कि अब सिर्फ एक सवाल पूछकर एक जवाब पाना इतना सरल नहीं है; पीछे की तर्क प्रक्रिया बहुत लंबी होती है। कई कार्यों के लिए कोड लिखना और निचले स्तर के अवसंरचना से इंटरैक्ट करना पड़ता है, और लगातार डीबग करना और त्रुटियों को ठीक करना पड़ता है, जिससे बहुत अधिक संसाधनों का उपयोग होता है। एक जटिल कार्य पूरा करने के लिए आवश्यक token की मात्रा, पहले एक सरल सवाल के जवाब के तुलना में दस गुना या यहां तक कि सौ गुना हो सकती है।

इसलिए कीमत में कुछ वृद्धि की आवश्यकता है, मॉडल भी बड़ा हो गया है, और निष्कर्षण लागत संबंधित रूप से बढ़ गई है। हम इसे सामान्य व्यावसायिक मूल्य पर लौटा रहे हैं, क्योंकि लंबे समय तक कम कीमत पर प्रतिस्पर्धा करना पूरे उद्योग के विकास के लिए हानिकारक है। यही कारण है कि हम व्यावसायिकीकरण को एक सकारात्मक बंद चक्र बनाने के लिए ला रहे हैं, ताकि मॉडल क्षमताओं को निरंतर अनुकूलित किया जा सके और आप सभी को बेहतर सेवाएं प्रदान की जा सकें।

04. एक अधिक कुशल टोकन फैक्ट्री बनाएं, बुनियादी ढांचा खुद एजेंट होना चाहिए

यांग ज़हलिन: अब ओपन सोर्स मॉडल्स की संख्या बढ़ रही है और वे एक पारिस्थितिकी तंत्र बनने लगे हैं, जिसमें विभिन्न मॉडल अलग-अलग कैलकुलेशन प्लेटफॉर्म पर उपयोगकर्ताओं को अधिक मूल्य प्रदान कर सकते हैं। टोकन उपयोग में विस्फोट के साथ, बड़े मॉडल अब प्रशिक्षण काल से अनुमान काल की ओर बढ़ रहे हैं। मैं ली शुए से पूछना चाहता हूं कि बुनियादी ढांचे के संदर्भ में, अनुमान काल का वुवेन के लिए क्या महत्व है?

शिया लिक्स्यू: हम एक ऐसी बुनियादी ढांचा कंपनी हैं जो AI युग में उत्पन्न हुई है, और अब हम ज़हीपु, किमी, मिमो आदि को समर्थन प्रदान कर रहे हैं, ताकि लोग token फैक्ट्री को अधिक कुशलता से उपयोग कर सकें। हम एक साथ कई विश्वविद्यालयों और शोध संस्थानों के साथ सहयोग भी कर रहे हैं।

हम इस बात पर हमेशा सोच रहे हैं: AGI युग के लिए किस प्रकार का अवसंरचना आवश्यक है? और हम इसे कैसे कदम दर कदम विकसित और अनुमानित कर सकते हैं? हमने अब छोटे, मध्यम और लंबे समय के विभिन्न चरणों में हल करने की आवश्यकता वाली समस्याओं के लिए पूर्ण तैयारी कर ली है।

वर्तमान में सबसे सीधा प्रश्न यह है कि जिस बात का आप सभी ने अभी चर्चा की — पूरे Open द्वारा लाए गए टोकन की मात्रा में भारी वृद्धि हुई है, जिससे सिस्टम की दक्षता के लिए अधिक अनुकूलन की आवश्यकता हुई है। कीमतों में समायोजन भी इसी आवश्यकता के तहत एक प्रतिक्रिया है।

हमने हमेशा सॉफ्टवेयर और हार्डवेयर को जोड़कर इसकी व्यवस्था और समाधान किया है। उदाहरण के लिए, हमने लगभग सभी प्रकार के कॉम्प्यूटिंग चिप्स को जोड़ा है और देश के दर्जनों अलग-अलग चिप्स और दर्जनों अलग-अलग कैलकुलेशन क्लस्टर्स को एक साथ जोड़ दिया है। इससे AI सिस्टम में कैलकुलेशन संसाधनों की कमी का समाधान होता है; जब संसाधन कम हों, तो सबसे अच्छा तरीका यह है कि पहले सभी उपलब्ध संसाधनों का उपयोग किया जाए, और फिर प्रत्येक कैलकुलेशन को सही जगह पर लगाया जाए ताकि अधिकतम परिवर्तन दक्षता प्राप्त हो।

इस चरण में, हमें एक अधिक कुशल टोकन फैक्ट्री बनाने का मुद्दा हल करना है। हमने कई अनुकूलन किए हैं, जिसमें मॉडल और हार्डवेयर पर वीडियो मेमोरी जैसे संसाधनों का उत्तम समायोजन शामिल है, और हम यह भी देख रहे हैं कि क्या नवीनतम मॉडल संरचना और हार्डवेयर संरचना के बीच गहरी सहप्रतिक्रिया पैदा हो सकती है। लेकिन वर्तमान कुशलता समस्याओं को हल करना वास्तव में एक मानकीकृत टोकन फैक्ट्री बनाने के बराबर है।

एजेंट युग की ओर बढ़ते हुए, हम मानते हैं कि यह पर्याप्त नहीं है। क्योंकि एजेंट एक व्यक्ति की तरह होता है, जिसे आप एक कार्य सौंप सकते हैं। मैं दृढ़ता से मानता हूँ कि वर्तमान में बहुत सारी क्लाउड कंप्यूटिंग युग की बुनियादी ढांचा, एक प्रोग्राम या मानव इंजीनियर की सेवा के लिए डिज़ाइन किया गया है, न कि AI के लिए। यह ऐसा है जैसे हमने एक बुनियादी ढांचा बनाया है, जिस पर मानव-उपयोग के लिए इंटरफ़ेस है, और फिर उसके ऊपर एजेंट को जोड़ने के लिए एक परत जोड़ी है—यह तरीका मानव की क्रियाकलाप क्षमता से एजेंट की क्षमता को सीमित करता है।

उदाहरण के लिए, एजेंट मिलीसेकंड स्तर पर सोच सकता है और कार्य शुरू कर सकता है, लेकिन K8s (kubernetes) जैसी निचली स्तर की क्षमताएं वास्तव में इसके लिए तैयार नहीं हैं, क्योंकि मनुष्य आमतौर पर मिनटों के स्तर पर कार्य शुरू करते हैं। इसलिए हमें अधिक उन्नत क्षमताओं की आवश्यकता है, जिसे हम "Agentic Infra" यानी "बुद्धिमान टोकन फैक्ट्री" कहते हैं, जो Wuwen Xinqiong कर रहा है।

लंबे समय में, जब वास्तविक AGI युग आएगा, तो हम मानते हैं कि बुनियादी ढांचा खुद एजेंट होना चाहिए। हमने जिस फैक्ट्री का निर्माण किया है, वह भी स्वयं को विकसित करने और स्वयं को अपडेट करने की क्षमता रखनी चाहिए, जिससे एक स्वायत्त संगठन बन सके। इसका मतलब है कि इसमें एक सीईओ होगा, जो स्वयं एक एजेंट होगा, संभवतः OpenClaw, जो पूरे बुनियादी ढांचे का प्रबंधन करेगा और AI ग्राहकों की आवश्यकताओं के आधार पर स्वयं आवश्यकताएँ प्रस्तुत करेगा और बुनियादी ढांचे को अपडेट करेगा। इस प्रकार ही AI और AI के बीच बेहतर समन्वय संभव होगा। हम कुछ प्रयोग भी कर रहे हैं, जैसे कि एजेंटों के बीच बेहतर संचार, Cache to Cache जैसी क्षमताएँ।

इसलिए हम हमेशा सोच रहे हैं कि बुनियादी ढांचे और AI का विकास एक अलग-थलग स्थिति नहीं होना चाहिए—मुझे आवश्यकता मिलती है, मैं इसे लागू कर देता हूँ—बल्कि इससे बहुत समृद्ध रासायनिक प्रतिक्रिया होनी चाहिए। यही वास्तविक अर्थों में सॉफ्टवेयर और हार्डवेयर का सहयोग, एल्गोरिदम और बुनियादी ढांचे का सहयोग है, और यही उन्मुक्ति का लक्ष्य है। धन्यवाद।

05. “कुशलता के लिए समझौता करने” वाले नवीनीकरण का भी महत्व है, डीपसीक ने देशी टीम को साहस और आत्मविश्वास दिया

यांग ज़हीलिन: अगला सवाल मैं फुली से पूछना चाहूंगा। लीमी ने हाल ही में नए मॉडल लॉन्च करके और पीछे की तकनीक को ओपन सोर्स करके समुदाय को बड़ा योगदान दिया है। मैं आपसे पूछना चाहता हूं कि लीमी के दृष्टिकोण में बड़े मॉडल्स पर काम करने के लिए क्या अद्वितीय फायदे हैं?

लुओ फुली: मुझे लगता है कि हम पहले एक विषय को छोड़ दें कि मियाओ के पास क्या विशिष्ट लाभ हैं, मैं चाहती हूं कि हम चीन में बड़े मॉडल बनाने वाली टीमों के समग्र लाभ पर चर्चा करें। मुझे लगता है कि इस विषय का अधिक व्यापक मूल्य है।

लगभग दो साल पहले, चीन के बेस मॉडल टीम ने बहुत अच्छी उपलब्धि प्राप्त कर ली थी—हमने सीमित कैलकुलेशन क्षमता, विशेष रूप से कुछ NVLink इंटरकनेक्ट बैंडविड्थ सीमित कैलकुलेशन परिस्थितियों में, इन निम्न स्तरीय कैलकुलेशन सीमाओं को कैसे पार किया जा सकता है, इस पर ध्यान केंद्रित किया, जैसे DeepSeek V2, V3 सीरीज़, और MoE, MLA आदि जैसी मॉडल संरचनाओं में नवाचार किया, जो दिखने में “दक्षता के लिए समझौता” जैसे लगते हैं।

लेकिन बाद में हमने देखा कि इन नवीनताओं ने एक परिवर्तन को जन्म दिया: एक निश्चित कैलकुलेशन क्षमता के संदर्भ में, उच्चतम बुद्धिमत्ता कैसे प्राप्त की जाए। यही DeepSeek ने देश के सभी बेस मॉडल टीमों को साहस और आत्मविश्वास प्रदान किया। हालाँकि आज हमारे देशी चिप्स, विशेष रूप से इन्फरेंस चिप्स और ट्रेनिंग चिप्स, इस सीमा से मुक्त हैं, लेकिन यही सीमा ने हमें उच्चतर ट्रेनिंग कुशलता और कम इन्फरेंस लागत के मॉडल संरचना के नए प्रयासों के लिए प्रेरित किया।

हाल ही में दिखाई देने वाली Hybrid Sparse, Linear Attention जैसी संरचनाओं के उदाहरण हैं, जैसे DeepSeek की NSA, Kimi की KSA, और Xiaomi की HySparse, जो MoE इस पीढ़ी की संरचनाओं से अलग हैं और Agent युग के लिए डिज़ाइन की गई मॉडल संरचना के नवीनीकरण हैं।

मैं इतना महत्वपूर्ण क्यों समझता हूँ कि संरचनात्मक नवाचार? असल में, अगर लोग वास्तव में OpenClaw का उपयोग करते हैं, तो वे देखेंगे कि यह जितना अधिक उपयोग किया जाता है, उतना ही अधिक उपयोगिता और बुद्धिमानी प्रदर्शित करता है। इसकी एक पूर्वशर्त है—अनुमान की संदर्भ लंबाई। लंबा संदर्भ हमारे लंबे समय तक चर्चा किए जाने वाले विषय है, लेकिन क्या अभी तक कोई मॉडल है जो लंबे संदर्भ में अच्छी तरह प्रदर्शन करता हो, प्रदर्शन में मजबूत हो, और अनुमान की लागत कम हो?

वास्तव में, कई मॉडल 1M या 10M के कॉन्टेक्स्ट को संभालने में असमर्थ नहीं हैं, बल्कि 1M, 10M का निष्पादन बहुत महंगा और धीमा होता है। केवल तभी वास्तविक उत्पादकता मूल्य वाले कार्यों को मॉडल को सौंपा जा सकता है, जब लागत कम हो जाए और गति बढ़ जाए, ताकि इस लंबे कॉन्टेक्स्ट में अधिक जटिल कार्यों को पूरा किया जा सके, और यहां तक कि मॉडल की स्व-पुनरावृत्ति भी संभव हो सके।

मॉडल की स्व-पुनरावृत्ति का अर्थ है कि यह एक जटिल वातावरण में, अत्यधिक लंबे संदर्भ के आधार पर अपने आप को विकसित कर सकता है। यह विकास Agent फ्रेमवर्क के स्वयं के लिए हो सकता है, या मॉडल पैरामीटर्स के स्वयं के लिए—क्योंकि मुझे लगता है कि संदर्भ स्वयं पैरामीटर्स का एक विकास है। इसलिए, एक लंबे संदर्भ की आर्किटेक्चर कैसे बनाई जाए, और निष्कर्षण पक्ष पर लंबे संदर्भ का दक्षतापूर्वक निष्कर्षण कैसे किया जाए, यह एक समग्र प्रतिस्पर्धा है।

मैंने जिस प्री-ट्रेनिंग चरण का उल्लेख किया है, उसमें लॉन्ग-कॉन्टेक्स्ट-एफिशिएंट आर्किटेक्चर को अच्छी तरह से तैयार करना—यह लगभग एक साल पहले से हम जिस मुद्दे की खोज कर रहे हैं। अब लंबी दूरी के कार्यों पर स्थिरता और उच्च सीमा के परिणाम प्राप्त करने के लिए, हम बाद की प्रशिक्षण चरण में आइटरेट कर रहे हैं।

हम अधिक कुशल सीखने के एल्गोरिथम कैसे बनाएं, 1M, 10M, 100M संदर्भ में वास्तविक वातावरण से लंबे समय तक निर्भरता वाले टेक्स्ट कैसे इकट्ठा करें, और जटिल वातावरण से उत्पन्न ट्रैजेक्टरी डेटा को कैसे जोड़ें—यही हमारा पोस्ट-ट्रेनिंग का वर्तमान कार्य है।

लेकिन लंबे समय के दृष्टिकोण से, बड़े मॉडल की खुद की तेजी से प्रगति और एजेंट फ्रेमवर्क के समर्थन के कारण, जैसा कि लिस्यूए ने कहा, पिछले कुछ समय में निष्कर्ष निकालने की मांग लगभग दस गुना बढ़ गई है। तो क्या इस साल पूरे टोकन उपयोग में 100 गुना की वृद्धि होगी?

यहाँ एक और आयाम की प्रतिस्पर्धा शुरू हो रही है—कैलकुलेशन क्षमता, या तो इन्फरेंस चिप्स, और उससे आगे ऊर्जा तक। इसलिए मुझे लगता है कि अगर हम सब मिलकर इस समस्या पर विचार करें, तो मैं आप सबसे अधिक सीख सकता हूँ। धन्यवाद।

06. एजेंट के तीन प्रमुख मॉड्यूल हैं, बहु-एजेंट विस्फोट से प्रभाव पड़ेगा

यांग ज़हेलिन: बहुत अच्छी और गहन बातचीत। अब मैं हुआंग चाओ से पूछना चाहूंगा कि आपने नैनोबॉट जैसे प्रभावशाली एजेंट प्रोजेक्ट विकसित किए हैं और आपके पास काफी समुदाय के प्रशंसक हैं। मैं आपसे एजेंट के हार्नेस या अनुप्रयोग स्तर से देखते हुए पूछना चाहूंगा कि आगे कौन सी तकनीकी दिशाएँ आपको महत्वपूर्ण और सभी के ध्यान के योग्य लगती हैं?

हुआंग चाओ: मुझे लगता है कि अगर एजेंट की तकनीक को अमूर्त किया जाए, तो मुख्य रूप से Planning, Memory और Tool Use इन कुछ मॉड्यूल्स हैं।

सबसे पहले Planning की बात करते हैं। वर्तमान में समस्या मुख्य रूप से लंबी अवधि के कार्यों या बहुत जटिल संदर्भों में है, जैसे 500 कदम या उससे अधिक कदम, जहां कई मॉडल अच्छी योजना नहीं बना पाते। मुझे लगता है कि मूल रूप से मॉडल में ऐसी अनुमानित जानकारी की कमी हो सकती है, खासकर कुछ जटिल ऊर्ध्वाधर क्षेत्रों में। इसलिए भविष्य में संभवतः विभिन्न जटिल कार्यों की जानकारी को मॉडल में स्थिर करना आवश्यक होगा, जो एक संभावित दिशा हो सकती है।

बेशक, स्किल और हार्नेस किसी न किसी तरह Planning से होने वाली गलतियों को कम करते हैं, क्योंकि ये उच्च गुणवत्ता वाले स्किल प्रदान करते हैं, जो मॉडल को कुछ कठिन कार्यों को पूरा करने के लिए मार्गदर्शन करते हैं।

फिर से Memory की बात करते हैं। Memory का अनुभव यह है कि यह अक्सर जानकारी संपीड़न और खोज में अनिश्चितता का सामना करता है। विशेष रूप से लंबी अवधि के कार्यों और जटिल परिदृश्यों में, Memory पर दबाव बढ़ जाता है। अभी, OpenClaw जैसे प्रोजेक्ट्स में, लोग वास्तव में सबसे सरल फाइल सिस्टम-आधारित Markdown फॉर्मेट का उपयोग कर रहे हैं, जिसमें साझा फाइलों के माध्यम से Memory किया जाता है। भविष्य में, Memory को हियरार्किकल डिज़ाइन की ओर जाना चाहिए, और इसे अधिक सामान्य बनाया जाना चाहिए।

ईमानदारी से कहूं तो, वर्तमान Memory तंत्र को सार्वभौमिक बनाना मुश्किल है—क्योंकि Coding स्थिति, Deep Research स्थिति, और मल्टीमॉडल स्थिति में उनके डेटा मॉडल में बड़ा अंतर है, इन Memory के लिए अच्छी तरह से खोज और सूचीबद्ध करना, जबकि दक्षता बनाए रखना, हमेशा एक संतुलन का मुद्दा है।

इसके अलावा, अब OpenClaw ने एजेंट बनाने की सीमा को काफी कम कर दिया है, इसलिए भविष्य में केवल एक ही “क्रैब” नहीं हो सकता। मैंने देखा कि Kimi में भी Agent Swarm जैसा मैकेनिज्म आया है, भविष्य में हर कोई “क्रैब्स का झुंड” रख सकता है।

एकल क्रैब की तुलना में क्रैब्स के समूह से उत्पन्न संदर्भ में वृद्धि कल्पना करना संभव है, जिससे मेमोरी पर बहुत बड़ा दबाव पड़ता है। अभी तक ऐसे "क्रैब्स के समूह" द्वारा उत्पन्न संदर्भ को प्रबंधित करने के लिए कोई अच्छी प्रणाली नहीं है, खासकर जटिल कोडिंग, अनुसंधान की खोज जैसे परिदृश्यों में, चाहे मॉडल हो या पूरा एजेंट आर्किटेक्चर, दोनों पर बहुत अधिक दबाव है।

अब टूल यूज़, यानी स्किल के बारे में। स्किल में वर्तमान में जो समस्याएँ हैं, वे मूल रूप से MCP की समस्याओं के समान हैं—MCP के समय गुणवत्ता की गारंटी न होना और सुरक्षा जोखिम जैसी समस्याएँ थीं। अब स्किल में भी ऐसा ही है—ऐसा प्रतीत होता है कि कई स्किल उपलब्ध हैं, लेकिन उच्च गुणवत्ता वाले बहुत कम हैं, और निम्न गुणवत्ता वाले स्किल Agent के कार्य पूरा करने की सटीकता को प्रभावित करते हैं। इसके अलावा, दुरुपयोगपूर्ण इनजेक्शन की समस्या भी है। इसलिए, टूल यूज़ के संदर्भ में, पूरे स्किल इकोसिस्टम को बेहतर बनाने के लिए समुदाय पर निर्भर करना पड़ सकता है, और यहाँ तक कि स्किल को कार्यान्वयन प्रक्रिया के दौरान नए स्किल को स्वयं विकसित करने की क्षमता प्रदान करनी पड़ सकती है।

सामान्य तौर पर, योजना बनाना, स्मृति और उपकरण उपयोग तक, ये वर्तमान में एजेंट के कुछ प्रमुख चुनौतियाँ हैं और भविष्य की संभावित दिशाएँ भी हैं।

07. अगले 12 महीनों के कीवर्ड: पारिस्थितिकी, सतत टोकन, स्व-विकास और कैलकुलेशन पावर

यांग ज़हेलिन: आप देख सकते हैं कि दोनों अतिथि एक समान समस्या पर विभिन्न दृष्टिकोण से चर्चा कर रहे हैं—जब कार्य की जटिलता बढ़ती है, तो संदर्भ तेजी से बढ़ जाता है। मॉडल स्तर पर, मूल संदर्भ लंबाई को बढ़ाया जा सकता है, और Agent Harness स्तर पर, Planning, Memory, Multi-Agent जैसे तंत्र, विशिष्ट मॉडल क्षमताओं के साथ अधिक जटिल कार्यों का समर्थन कर सकते हैं। मुझे लगता है कि इन दोनों दिशाओं में आगे अधिक रासायनिक प्रतिक्रियाएँ होंगी, जो कार्य पूरा करने की क्षमता को आगे बढ़ाएंगी।

अंत में, आइए एक खुला भविष्यदृष्टि देखें। कृपया अगले 12 महीनों में बड़े मॉडल के विकास के प्रवृत्ति और आपकी अपेक्षाओं को एक शब्द में वर्णित करें। इस बार हुआंग चाओ से शुरू करते हैं।

हुआंग चाओ: एआई के क्षेत्र में 12 महीने बहुत दूर लगते हैं, नहीं पता कि 12 महीने बाद यह कैसे विकसित होगा।

यांग ज़हान: मूल रूप से यहाँ पाँच साल लिखा गया था, मैंने इसे बदल दिया।

हुआंग चाओ: हाँ, हाहाँ। मुझे जो शब्द याद आया, वह है "पारिस्थितिकी।" अभी OpenClaw लोगों को बहुत सक्रिय कर रहा है, लेकिन भविष्य में, एजेंट को सिर्फ एक मनोरंजन या नयापन के लिए नहीं, बल्कि वास्तविक "मजदूर" बनना चाहिए। भविष्य में, इसे वास्तविक रूप से स्थायी बनाना चाहिए, ताकि यह ब्रिक-मूविंग का उपकरण और वास्तविक सहकर्मी बन सके।

इसके लिए पूरे इकोसिस्टम का प्रयास आवश्यक है, विशेष रूप से ओपन सोर्स, जब तकनीकी अन्वेषण और मॉडल तकनीक को ओपन सोर्स कर दिया जाता है, तो पूरी समुदाय को मिलकर इसका निर्माण करना होगा—चाहे मॉडल के अपग्रेड के लिए, या स्किल प्लेटफॉर्म के अपग्रेड के लिए, या विभिन्न उपकरणों के लिए, सभी को लॉबस्टर के लिए बेहतर तरीके से इकोसिस्टम बनाना होगा।

एक स्पष्ट रुझान यह है कि भविष्य का सॉफ्टवेयर अभी भी मनुष्यों के लिए होगा? मुझे विश्वास है कि भविष्य में कई सॉफ्टवेयर आवश्यक रूप से मनुष्यों के लिए नहीं होंगे—क्योंकि मनुष्यों को GUI की आवश्यकता होती है, जबकि भविष्य Agent-नेटिव उपयोग के लिए हो सकता है। दिलचस्प बात यह है कि मनुष्य केवल उन GUIs का उपयोग करेंगे जो उन्हें खुश करते हैं। और अभी पूरा पारिस्थितिकी तंत्र GUI, MCP से CLI मॉडल में स्थानांतरित हो रहा है। इसके लिए पारिस्थितिकी तंत्र को सॉफ्टवेयर सिस्टम, डेटा और विभिन्न प्रौद्योगिकियों को Agent Native रूप में परिवर्तित करने की आवश्यकता है, ताकि पूरा विकास अधिक समृद्ध हो सके।

रो फुली: समस्या को एक वर्ष तक सीमित करना मुझे बहुत महत्वपूर्ण लगता है। यदि पांच वर्ष की बात करें, तो मेरे दृष्टिकोण से AGI की परिभाषा के अनुसार, मुझे लगता है कि इसे पहले ही प्राप्त कर लिया गया है। इसलिए, अगले एक वर्ष में AGI की यात्रा में सबसे महत्वपूर्ण बात को एक वाक्य में वर्णित करने के लिए, मुझे लगता है कि "स्व-विकास" है।

यह शब्द कुछ अजीब लगता है, और पिछले वर्ष लोगों ने इसका बार-बार जिक्र किया है। लेकिन मैंने हाल ही में इसके बारे में अधिक गहरी समझ प्राप्त की है, या फिर "स्व-अनुकूलन" को कैसे किया जाए, इसके लिए अधिक व्यावहारिक और संभव समाधान प्राप्त किए हैं। कारण यह है कि शक्तिशाली मॉडल के साथ, हमने Chat पैटर्न के तहत प्री-ट्रेन्ड मॉडल की सीमा को पूरी तरह से नहीं उजागर किया है, जबकि Agent फ्रेमवर्क ने इस सीमा को सक्रिय कर दिया है। जब हम मॉडल को लंबे समय तक कार्य करने के लिए देते हैं, तो हम पाते हैं कि यह स्वयं सीखने और विकसित होने में सक्षम है।

एक सरल प्रयास है: मौजूदा एजेंट फ्रेमवर्क में इसे एक सत्यापित शर्त जोड़ें और एक लूप सेट करें, ताकि मॉडल लगातार लक्ष्य को बेहतर बनाने के लिए दोहराए, तो आप देखेंगे कि यह लगातार बेहतर समाधान प्रस्तुत करता है। यह स्व-विकास अब वास्तव में एक या दो दिनों तक चल सकता है, हालाँकि यह कार्य की कठिनाई पर निर्भर करता है।

उदाहरण के लिए, कुछ वैज्ञानिक शोधों में, जैसे कि बेहतर मॉडल संरचना की खोज, क्योंकि मॉडल संरचना के लिए मूल्यांकन मानदंड होते हैं, जैसे कि कम PPL। इस प्रकार के निर्धारित कार्यों पर, हमने पाया है कि यह दो या तीन दिनों तक स्वयं अनुकूलित और निष्पादित कर सकता है।

इसलिए मेरे दृष्टिकोण से, स्व-उन्नयन ही एकमात्र ऐसा स्थान है जहाँ "नया कुछ बनाया जा सकता है"। यह हमारी मौजूदा मानव उत्पादकता का विकल्प नहीं है, बल्कि यह शीर्ष वैज्ञानिकों की तरह, दुनिया में अभी तक अज्ञात चीजों की खोज करता है। एक साल पहले मैं सोचता कि यह समयरेखा तीन से पांच साल तक फैली होगी, लेकिन हाल ही में मुझे लगता है कि इसे वास्तव में एक से दो साल तक संकुचित किया जाना चाहिए। संभवतः जल्द ही हम बड़े मॉडल के साथ एक शक्तिशाली स्व-उन्नयन एजेंट फ्रेमवर्क को जोड़कर, वैज्ञानिक अनुसंधान को कम से कम घातीय रूप से तेज कर पाएंगे।

हाल ही में मैंने देखा है कि हमारे समूह में बड़े मॉडल पर शोध करने वाले सहकर्मी, उनकी वर्कफ्लो अत्यधिक अनिश्चित और अत्यधिक रचनात्मक है, लेकिन Claude Code और शीर्ष मॉडल के सहारे, हमारी शोध दक्षता लगभग दस गुना बढ़ गई है। मुझे इस प्रणाली के अधिक व्यापक विषयों और क्षेत्रों में प्रभावित होने की उम्मीद है, इसलिए मुझे लगता है कि "स्व-विकास" बहुत महत्वपूर्ण है।

शिया लिक्स्यू: मेरा कीवर्ड "सतत टोकन" है। मैंने देखा है कि पूरे AI विकास की प्रक्रिया एक लंबे समय तक चलने वाली है, और हम चाहते हैं कि इसकी लंबी जीवन अवधि हो। बुनियादी ढांचे के दृष्टिकोण से, एक बड़ी समस्या यह है कि संसाधन अंततः सीमित होते हैं।

जिस तरह से पहले सतत विकास की बात की जाती थी, उसी तरह, हम एक टोकन फैक्ट्री के रूप में, क्या हम टोकन को लगातार, स्थिर और बड़े पैमाने पर प्रदान कर सकते हैं, ताकि शीर्ष मॉडल वास्तव में अधिक निचले स्तर की सेवाओं के लिए उपलब्ध हो सकें, यह हमारे लिए एक बहुत महत्वपूर्ण समस्या है।

हमें पूरे इकोसिस्टम को देखना होगा—ऊर्जा से लेकर कैलकुलेशन पावर, फिर टोकन और अंततः एप्लिकेशन तक, जिससे सतत आर्थिक अपग्रेड बन सके। हम केवल देश के विभिन्न कैलकुलेशन पावर का उपयोग ही नहीं कर रहे हैं, बल्कि इन क्षमताओं को विदेशों में भी निकाल रहे हैं, ताकि वैश्विक संसाधनों को जोड़ा और एकीकृत किया जा सके।

मुझे भी लगता है कि "सतत" का मतलब वास्तव में चीनी विशिष्ट टोकन अर्थव्यवस्था को विकसित करना है। पिछले समय हमने "मेड इन चाइना" की बात की, जिसमें चीन की सस्ती निर्माण क्षमता को वैश्विक स्तर पर अच्छे उत्पादों के रूप में निकाला गया।

अब हम करने जा रहे हैं “AI Made in China” — चीन के ऊर्जा आदि के लाभों को टोकन फैक्ट्री के माध्यम से सतत रूप से उच्च गुणवत्ता वाले टोकन में बदलकर विश्वभर में निकालना, ताकि यह विश्व की टोकन फैक्ट्री बन जाए। यही मैं इस साल देखना चाहता हूँ — चीन द्वारा विश्व के लिए कृत्रिम बुद्धिमत्ता के माध्यम से लाया गया मूल्य।

ज़ंग पेंग: मैं थोड़ा संक्षिप्त हो जाता हूँ। सभी आकाश की ओर देख रहे हैं, मैं थोड़ा जमीन पर आ जाता हूँ। मेरा कुंजीशब्द है "कैलकुलेशन पावर"।

पहले भी कहा गया था कि सभी तकनीकी और एजेंट फ्रेमवर्क ने आपकी रचनात्मकता और दक्षता को दस गुना बढ़ा दिया है, लेकिन इसके लिए आपको उन्हें वास्तव में उपयोग करना होगा। आप एक समस्या पूछ सकते हैं, लेकिन अगर यह लंबे समय तक सोचता रहे और कोई उत्तर न दे, तो यह असंभव है। इसी कारण, कई शोध की प्रगति और कई करने की इच्छाएँ रुक जाती हैं।

पिछले दो वर्षों में, मुझे याद है कि एक वैज्ञानिक ने जिंग्ज़ुंगकून फोरम पर कहा था: "बिना कार्ड के, कोई भावना नहीं; कार्ड के बारे में बात करना भावनाओं को नुकसान पहुंचाता है।" मुझे लगता है कि आज हम फिर से इसी स्थिति में हैं, लेकिन स्थिति अलग है। अब हम निष्कर्षण चरण में प्रवेश कर चुके हैं, और मांग वास्तव में विस्फोट कर रही है—दस गुना, सौ गुना बढ़ रही है। आपने कहा कि उपयोग दस गुना बढ़ गया है, लेकिन क्या मांग सचमुच सौ गुना हो सकती है? और अभी भी बहुत सारी मांग पूरी नहीं हो पा रही है, तो क्या करें? हम सभी मिलकर सोच सकते हैं कि कैसे समाधान ढूंढा जाए।