ऑटोमेशन के बाद
लेखक: डैन शिपर, एवरी सीईओ
संकलन: पेगी, ब्लॉकबीट्स

संपादकीय टिप्पणी: हाल ही में, AI और कार्य के बारे में चर्चा लगभग एक ही प्रश्न से घिर गई है: क्या मॉडल क्षमताओं के निरंतर वृद्धि के कारण श्वेतकुंबीय नौकरियों का व्यापक रूप से प्रतिस्थापन हो जाएगा? कोड जनरेशन, कस्टमर सपोर्ट ऑटोमेशन से लेकर कंटेंट उत्पादन तक, एजेंट ऐसे ज्ञान-आधारित कार्यों को धीरे-धीरे संभाल रहे हैं जिन्हें पहले मनुष्य ही करते थे। बेंचमार्क परीक्षण भी इस चिंता को और मजबूत कर रहे हैं: मॉडल की ग्रेजुएट-लेवल तर्क, वास्तविक आर्थिक कार्यों और उच्च-स्तरीय इंजीनियर-लेवल कोड रीफैक्टरिंग में प्रदर्शन तेजी से सुधर रहा है, जो ऐसा प्रतीत होता है कि वह 'मनुष्य के कार्यों का स्वचालितकरण द्वारा निगल जाना' के सीमांकन की ओर बढ़ रहा है।

लेकिन हर CEO डैन शिपर इस लेख में एक विपरीत निरीक्षण प्रस्तुत करते हैं: जितना अधिक स्वचालित होता है, उतना ही मानवीय कार्य बढ़ता है। Every AI Agent का गहन उपयोगकर्ता है, जिसने अपनी आंतरिक प्रक्रियाओं में Codex, Claude Code, Slack Agent, कस्टमर सपोर्ट Agent आदि उपकरणों को कोडिंग, लेखन, डिजाइन, कस्टमर सपोर्ट और प्रबंधन प्रक्रियाओं में एम्बेड कर दिया है। लेकिन परिणाम यह नहीं है कि कर्मचारियों को पूरी तरह से बदल दिया गया, बल्कि कार्य का स्वरूप पुनर्गठित हुआ: इंजीनियर केवल कोड लिखने के बजाय, सिस्टम की समीक्षा, पुनर्गठन और डिजाइन करते हैं; संपादक केवल लेख लिखने के बजाय, यह निर्णय लेते हैं कि क्या लिखने योग्य है और कैसे अलग तरीके से लिखा जाए; कस्टमर सपोर्ट कर्मचारी प्रत्येक मूलभूट टिकट को संभालने के बजाय, एक ऐसे सिस्टम को बनाए रखते हैं जो ग्राहकों का स्वयं प्रतिक्रिया दे सके।

इस लेख में सबसे महत्वपूर्ण बात यह नहीं है कि "AI किसी कार्य को पूरा कर सकता है या नहीं", बल्कि यह है कि यह मानव की ज्ञान-आधारित कार्यों में अपनी स्थिति को पुनर्परिभाषित कर रहा है। AI उन पहले से स्थिर हुई क्षमताओं को सस्ता बनाने में निपुण है: कोड, पाठ, थंबनेल, कस्टमर सपोर्ट उत्तर, उत्पाद विवरण, शोध रिपोर्ट—सभी को मॉडल तेजी से उत्पन्न कर सकता है। लेकिन जब ये क्षमताएँ सभी के लिए उपलब्ध हो जाती हैं, तो बाजार में अक्सर उच्च गुणवत्ता वाले, भिन्न उत्पाद नहीं, बल्कि एक जैसे दिखने वाले, निर्णय और संदर्भ की कमी से भरे "डिफ़ॉल्ट आउटपुट" की भीड़ होती है। अर्थात, AI "कल की मानव क्षमताओं" को वस्तु में परिवर्तित करता है, जबकि सचमुच दुर्लभ है—वर्तमान के विशिष्ट प्रश्नों के सामने निर्णय लेने की क्षमता।

इसलिए, स्वचालन ने विशेषज्ञों को नहीं खत्म किया, बल्कि विशेषज्ञों की आवश्यकता वाले अधिक परिदृश्यों को जन्म दिया। जब संचालन कर्मचारी AI के माध्यम से कोड सबमिट कर सकते हैं, तो इंजीनियरों को यह निर्णय लेना होता है कि कौन सा कोड मर्ज करने योग्य है; जब बाजारकर्मी कुछ ही सेकंड में थंबनेल बना सकते हैं, तो डिजाइनरों को यह निर्णय लेना होता है कि क्या ब्रांड और प्रचार लक्ष्यों के अनुकूल है; जब इंजीनियर भी लेख लिख सकते हैं, तो संपादकों को प्रारंभिक रूप को वास्तविक दृष्टिकोण, संरचना और प्रकाशनयोग्य सामग्री में बदलना होता है। AI उत्पादन की परिधि को बढ़ाता है, और गुणवत्ता नियंत्रण, प्रणाली निर्माण, सीमा निर्धारण और भिन्नता प्रस्तुति की मांग को बढ़ाता है।

लेखक ने इस विरोधाभास को बेंचमार्क के माध्यम से और स्पष्ट किया। चाहे Senior Engineer Benchmark हो या OpenAI का GDPval, मॉडल के स्कोर का मापन अमूर्त रूप से 'बुद्धिमत्ता' नहीं, बल्कि किसी विशिष्ट समस्या के संदर्भ में मॉडल के प्रदर्शन का होता है। प्रॉम्प्ट, कार्य सीमाएँ, मूल्यांकन मानदंड, और आउटपुट प्रारूप — इन सभी के पीछे पहले से ही बहुत सारे मानवीय निर्णय शामिल हैं। मॉडल संदर्भ के भीतर तेजी से आगे बढ़ सकता है, लेकिन संदर्भ स्वयं मानव द्वारा निर्धारित होता है; जब कोई संदर्भ मॉडल द्वारा हल कर लिया जाता है, तो मानव फिर से समस्या को अधिक जटिल नए संदर्भ में आगे बढ़ा देते हैं।

यही इस लेख में AGI के चिंता का सबसे दिलचस्प जवाब है: भले ही मॉडल लगातार अधिक शक्तिशाली होते जाएँ, वे अक्सर मानव द्वारा खींची गई किसी सीमा को पकड़ लेते हैं, न कि उस सीमा को खींचने वाले व्यक्ति को। AI लक्ष्यों को पूरा कर सकता है, मार्गों को अनुकूलित कर सकता है, और दक्षता में सुधार कर सकता है, लेकिन जब तक यह मानव द्वारा निर्धारित प्रश्नों का प्रतिक्रिया देता रहेगा, तब तक इसमें वास्तविक अर्थों में स्वयंसिद्धता की कमी होगी। ज्ञान-आधारित कार्यों का भविष्य, मानव के प्रक्रिया से गायब होने का नहीं, बल्कि कार्यान्वयनकर्ता से संदर्भ डिज़ाइनर, प्रणाली संरक्षक, गुणवत्ता निर्णयकर्ता और अर्थ परिभाषितकर्ता की भूमिका में परिवर्तित होने का है।

ऑटोमेशन के बाद मानवीय कार्य का मूल्य गायब नहीं हुआ है, बल्कि यह अधिक कठिन, अधिक आगे और अधिक निर्णय पर निर्भर हो गया है। AI ने “करना जानना” को सस्ता बना दिया है, लेकिन “क्या करना चाहिए, क्यों करना चाहिए, और कितना अच्छा करना चाहिए” इस ज्ञान को अधिक दुर्लभ बना दिया है।

निम्नलिखित मूल पाठ है:

कृत्रिम बुद्धिमत्ता के केंद्र में, एक विरोधाभास है।

हर चीज़ में, हमने जितना संभव हो सके उतना स्वचालित कर दिया है। चाहे कोडिंग, लेखन, डिज़ाइन, कस्टमर सपोर्ट, या अन्य दैनिक कार्य हों, हम Codex और Claude Code का उपयोग कर रहे हैं। OpenAI, Anthropic, Google के नए मॉडल्स के आधिकारिक लॉन्च से पहले ही हम alpha टेस्टिंग में शामिल हो जाते हैं। कहा जा सकता है कि हम मॉडल इंटेलिजेंस और स्वचालन क्षमता के घातीय वृद्धि की लहर को संभवतः सबसे तेज़ और सबसे गहराई से पकड़ रहे हैं।

लेकिन विरोधाभास यह है कि हमारे लिए, मनुष्यों द्वारा किए जाने वाले कार्यों की संख्या पिछले किसी भी समय की तुलना में अधिक लगती है। Every अभी लगभग 30 लोगों की टीम है, हमने Agent के आने के बाद सभी कर्मचारियों को बर्खास्त नहीं किया है; और हमने SaaS उपकरणों को छोड़कर vibe coding से बनाए गए ऐप्स पर पूरी तरह से निर्भर होना भी शुरू नहीं किया है। हम अभी भी वास्तविक ग्राहक सेवा कर्मचारी भर्ती करते हैं, केवल इतना कि उन्हें Agent की बड़ी मात्रा में सहायता मिलेगी; हम अभी भी लेखक, संपादक और इंजीनियरों की भर्ती कर रहे हैं।

हालांकि, कार्य का रूप वास्तव में भारी रूप से बदल चुका है। हम लगभग कभी कोड हाथ से नहीं लिखते। अगर आप Slack में किसी को @ करते हैं, तो कभी-कभी यह पहचानना मुश्किल होता है कि वह व्यक्ति है या एजेंट। प्रबंधक अब एकल योगदानकर्ता की तरह कोड सबमिट करने लगे हैं, और इंजीनियर भी सीधे ग्राहकों के सामने आने लगे हैं। पिछले कुछ सप्ताहों में, मेरे 95% कार्य संबंधी ईमेल AI द्वारा प्रतिक्रिया दी गईं। मेरा इनबॉक्स लगभग हमेशा खाली रहता है—जो मेरे लिए अत्यंत असामान्य है—लेकिन मैं अभी भी प्रत्येक ईमेल की जांच करता हूं।

दूसरे शब्दों में, भविष्य अज्ञात लगता है, लेकिन अद्भुत रूप से परिचित भी।

इस «परिचितता» को लेकर खुद ही आश्चर्य होता है। क्योंकि चाहे CEO हों, ज्ञान-आधारित कार्यकर्ता हों या निवेशक, सभी लगभग एक ही बात पर विश्वास करते जा रहे हैं: AI रोजगार, अर्थव्यवस्था, सुरक्षा, और यहां तक कि मानवीय कार्य के अर्थ को खतरे में डाल रहा है।

एंथ्रोपिक के सीईओ डैरियो अमोडेई ने चेतावनी दी थी कि एआई शुरुआती सफेद कुर्ते के कार्यों की आधी संख्या तक को समाप्त कर सकता है। मेटा ने हाल ही में 8000 लोगों को बर्खास्त कर दिया है और अमेरिकी कर्मचारियों के कंप्यूटर पर सॉफ्टवेयर स्थापित करना शुरू कर दिया है, जो माउस चलाव, क्लिक और कीबोर्ड इनपुट को रिकॉर्ड करता है, ताकि उच्च गुणवत्ता वाले उच्च ज्ञान कार्यों के प्रशिक्षण डेटा प्राप्त किए जा सकें।

सीटेडेल के संस्थापक केन ग्रिफिन भी काफी हैरान लग रहे हैं। उन्होंने हाल ही में कहा: "ये मध्यम और निम्न स्तरीय श्वेतकुंबर नौकरियाँ नहीं हैं, बल्कि अत्यधिक कौशल वाली नौकरियाँ हैं, जिन्हें — मैं इस शब्द पर विचार कर रहा हूँ — एजेंटिक AI स्वचालित किया जा रहा है।"

विभिन्न बेंचमार्क भी इस निष्कर्ष का समर्थन कर रहे हैं। नई पीढ़ी के मॉडल लगातार जारी होने के साथ, मॉडल क्षमता सूचकांक लगभग घातीय दर से बढ़ रहे हैं। मानवता के अंतिम परीक्षा नामक ग्रेजुएट स्तर की तर्क क्षमता परीक्षा में, शीर्ष मॉडलों के स्कोर एक साल पहले के एक अंक से बढ़कर अब लगभग 44% हो गए हैं। GDPval नामक परीक्षा में, जो अग्रणी मॉडलों की वास्तविक आर्थिक कार्यों को पूरा करने की क्षमता और मानव प्रदर्शन की तुलना करता है, मॉडल स्कोर भी समान निम्न स्तर से बढ़कर लगभग 85% हो गए हैं। मई 2024 में, AI सुरक्षा शोध गैर-लाभकारी संगठन METR ने Claude Mythos के प्रारंभिक परीक्षण परिणाम प्रकाशित किए: कुछ मानव विशेषज्ञों को लगभग 4 घंटे लगने वाले कार्यों पर, यह मॉडल 80% सफलता प्राप्त करता है।

ऐसा लगता है कि हम एक सीमा पर खड़े हैं: एक ऐसा AI जो किसी भी मनुष्य से अधिक बुद्धिमान है और लगभग पूरे दिन तक स्वतंत्र रूप से काम कर सकता है, वास्तविकता के करीब पहुँच रहा है।

हालांकि, विरोधाभास अभी भी मौजूद है। अगर आप AI उद्योग के कर्मचारियों या AI का उपयोग करने वाले बाहरी लोगों से बात करते हैं, तो आपको एक ही निष्कर्ष सुनाई देगा जिसे हमने अंदर से देखा: करने के लिए काम पहले की तुलना में अधिक है।

वास्तविक रूप से उद्योग के भीतर और बाहर जिस बात की चिंता की जा रही है, वह है: क्या यह केवल एक अस्थायी अवस्था है? क्या अगला मॉडल उस क्षण होगा, जब सभी को विस्थापित कर दिया जाएगा? हम बेंचमार्क वक्र पर नज़र रखे हुए हैं, उत्साहित और चिंतित, डरते हुए कि कोई भी मोड़ अचानक आ सकता है, जिस पर बहुत सारे कार्य अचानक समाप्त हो जाएंगे।

लेकिन मुझे लगता है कि ऐसा कोई "सीमांत बिंदु" अचानक नहीं आएगा जिससे सब कुछ एकदम उलट जाए और काम बड़े पैमाने पर गायब हो जाए। नया वास्तविकता ठीक विपरीत है: जितना अधिक स्वचालन होगा, उतने ही अधिक मानव विशेषज्ञों की आवश्यकता होगी।

कारण यह है कि AI, मानवीय विशेषज्ञता के उन उन भागों को वस्तु-रूप में परिवर्तित कर रहा है जिन्हें स्पष्ट रूप से व्यक्त किया जा सकता है, प्रशिक्षित किया जा सकता है और प्रतिलिपि बनाया जा सकता है। जो ज्ञान नियमों में लिखा जा सकता है, प्रक्रियाओं में स्थिर हो सकता है और प्रशिक्षण डेटा में परिवर्तित किया जा सकता है, वह धीरे-धीरे मॉडल की डिफ़ॉल्ट क्षमता बन जाता है। परिणामस्वरूप, सामान्य मॉडल द्वारा उत्पादित मूल्य को तेजी से कम कर दिया जा रहा है, और बाजार अब अलग-अलग चीजों की अधिक मजबूती से आवश्यकता महसूस करने लगा है।

लेकिन «अलग» की आवश्यकता, मूल रूप से मानव विशेषज्ञों की आवश्यकता है। भले ही हम सामान्य कृत्रिम बुद्धिमत्ता की ओर बढ़ रहे हों, यह नहीं गायब होगा।

इसके कारण को समझने के लिए, केवल बेंचमार्क वक्र देखना या मॉडल पैरामीटर और क्षमता रैंकिंग पर ही ध्यान केंद्रित करना पर्याप्त नहीं है। हमें वास्तविक कार्य स्थितियों में वापस जाना होगा और देखना होगा कि आज AI का उपयोग वास्तव में कैसे किया जा रहा है। केवल इसी प्रकार, हम इस विरोधाभास को और उसके पीछे के उत्तर को सचमुच समझ सकते हैं।

हम इस बिंदु तक कैसे पहुँचे

2022 से हम एजेंट के भविष्य के कार्य पर प्रभाव का ध्यान रख रहे हैं।

तीन साल पहले, मैंने 'आवंटन अर्थव्यवस्था' के बारे में एक लेख लिखा था। उस समय मेरा निर्णय यह था कि AI उपकरणों के साथ सहयोग करना अंततः मानव प्रबंधकों के कार्य के समान हो जाएगा: आप प्रत्येक क्रिया को अकेले नहीं करेंगे, बल्कि कार्यों को विभाजित करेंगे, आवंटित करेंगे, निगरानी करेंगे और स्वीकृत करेंगे। उस समय, ChatGPT में सबसे बुनियादी प्रश्न-उत्तर अभी भी कई लोगों के लिए अत्यधिक भविष्यवादी और कभी-कभी चिंताजनक माने जाते थे।

2025 के मध्य तक, Every नामक कंपनी लगभग पूरी तरह से "Claude Code" में बदल गई। Cora के जनरल मैनेजर कीरन क्लासेन ने अचानक पाया कि वह हाथ से कोड लिखने की आवश्यकता छोड़ सकते हैं और पूरे दिन टर्मिनल में एक प्रोग्रामिंग एजेंट को प्राकृतिक भाषा में निर्देश दे सकते हैं। यह कार्य पद्धति जल्द ही पूरी कंपनी में फैल गई। लगभग 12 महीने पहले, मैंने Lenny's Podcast पर कहा था कि Claude Code ज्ञान-आधारित कार्यों का सबसे कम मूल्यांकित उपकरण है।

मैं इन बातों का उल्लेख इसलिए कर रहा हूँ क्योंकि हमारे अतीत के कुछ सबसे अधिक सटीक निर्णय, हर एक को एक प्रारंभिक अपनाने वाले प्रयोगशाला के रूप में देखने से आए थे। बहुत सारे नए कार्य प्रणालियाँ पहले हमारे आंतरिक रूप से दिखाई देती हैं; जब तक तकनीक अधिक परिपक्व नहीं हो जाती और उपकरण अधिक सुलभ नहीं हो जाते, तब तक ये प्रणालियाँ व्यापक बाजार में प्रवेश नहीं करतीं।

और अब, हमारे अंदर नए परिवर्तन हो रहे हैं।

एजेंट के साथ सहयोग के दो मोड

AI के काम करने के तरीके के चारों ओर, धीरे-धीरे दो बहुत अलग मॉडल में संकलन हो रहा है।

पहला प्रकार, जो पहले AI चर्चाओं में पहले ही काफी सटीक रूप से भविष्यवाणी किया गया था: एजेंट को कर्मचारी के रूप में देखना। इस प्रकार के एजेंट को कार्य सौंपा जा सकता है। कुछ एजेंट Slack में रहते हैं, जिनके पास अपना नाम और जिम्मेदारियाँ होती हैं, जब आपको उनसे कुछ करवाना होता है, तो आप सीधे @ कर सकते हैं; कुछ एजेंट लगातार चलने वाली प्रक्रियाओं में एम्बेडेड होते हैं, जैसे कस्टमर सपोर्ट सिस्टम, जहाँ वे दोहराई जाने वाली कार्यों के लिए 24/7 प्रवेश और फिल्टर के रूप में कार्य करते हैं।

दूसरा मोड अधिक अपरिचित है, लेकिन मेरे अनुभव में, यह अधिक महत्वपूर्ण है। यह Codex, Claude Code, Claude Cowork जैसे उपकरणों में मानव और एजेंट के सहयोग को संदर्भित करता है। ये उपकरण केवल आपके कार्यों को सौंपने की जगह नहीं हैं; ये स्वयं कार्य का संचालन प्रणाली बन रहे हैं: आप एक ही ‘कंप्यूटर’ पर एक साथ कई एजेंटों का उपयोग करते हैं, एक ही कार्य परिवेश में सहयोग करते हैं, और अत्यधिक जटिल, मौलिक, और सरलता से असिंक्रोनस एजेंट को सौंपे जाने वाले कार्यों को पूरा करते हैं।

इन दोनों मोड्स में, आप AI का उपयोग करके काफी हद तक कार्यों को स्वचालित और सौंप सकते हैं। लेकिन इन दोनों मोड्स को वास्तव में अच्छी तरह से काम करने के लिए, आपको या किसी अन्य मनुष्य को शामिल होना होगा।

एजेंट कर्मचारी

एजेंट कर्मचारी वह है जिसे आप एक कार्य देते हैं, और वह आपकी वास्तविक सहभागिता के बिना, एक उत्तर, एक कार्रवाई, एक रिपोर्ट, एक प्रारंभिक रूपरेखा, या एक विभाजन निर्णय स्वतंत्र रूप से उत्पन्न करता है।

इस प्रकार के एजेंट कम से कम दो रूप होते हैं: एक «सहकर्मी एजेंट» और दूसरा «एम्बेडेड एजेंट»।

1. सहकर्मी प्रकार का एजेंट

सहकर्मी प्रकार के एजेंट का अर्थ है कि आप Slack में उसे एक सहकर्मी को @ करने की तरह बुला सकते हैं, ताकि वह कोई कार्य पूरा कर सके। यह हमेशा उपलब्ध रहता है और जब आवश्यकता होती है, तो इसे बुलाया जा सकता है। OpenClaw जैसे उत्पाद, या हमारे आंतरिक विकसित Plus One, इस प्रकार के हैं।

Claudie

Claudie हमारे परामर्श टीम द्वारा उपयोग किया जाने वाला एक सहयोगी एजेंट है। यह बिक्री प्रस्ताव लिखता है, प्रशिक्षण सामग्री के प्रारंभिक रूप को तैयार करता है, प्रोजेक्ट के टू-डू लिस्ट को ट्रैक करता है, और इसी तरह के अधिक कार्यों को संभालता है।

एंडी

एंडी हमारे संपादक टीम द्वारा उपयोग किया जाने वाला एक सहकर्मी-प्रकार का एजेंट है। यह कंपनी के आंतरिक स्लैक से ऐसे "सामग्री बिंदु" एकत्र करता है जो आगे विस्तार के योग्य हैं—अर्थात् संभावित लेख बनने वाले अच्छे विचार—और उन्हें सारांश और प्रारंभिक दृष्टिकोण के रूप में संगठित करता है, ताकि लेखक दैनिक समाचार सारांश लिखने के लिए उपयोग कर सकें।

विक्टर

विक्टर एक जनरल-पर्पस एजेंट है जो कंपनी के भीतर विभिन्न विभागों के बीच कार्य करेगा। हम इसका उपयोग वृद्धि सूचकांक एकत्र करने, उपयोगकर्ता सर्वेक्षण परिणामों का विश्लेषण करने और अव्यवस्थित आंतरिक चर्चाओं को अनुसंधान स्मृतिकाएँ और उत्पाद सुझावों में व्यवस्थित करने के लिए करेंगे।

2. एम्बेडेड एजेंट

एम्बेडेड एजेंट विशिष्ट उत्पाद वर्कफ्लो में मौजूद होते हैं। वे सहकर्मी एजेंट की तुलना में लचीले नहीं होते, लेकिन दोहराया जाने वाला कार्य करने में अक्सर बहुत प्रभावी होते हैं।

Fin सबसे स्पष्ट उदाहरण है। यह हमारे कस्टमर सपोर्ट प्लेटफॉर्म में एम्बेडेड एजेंट है, जो चैट और ईमेल के माध्यम से बड़ी मात्रा में कस्टमर सपोर्ट कार्य कर सकता है।

इस साल मई के किसी सप्ताह में, फिन ने एवरी के सभी 202 कस्टमर सपोर्ट बातचीत में से 65% में भाग लिया और बिना किसी मानवीय हस्तक्षेप के 81 टिकट स्वतंत्र रूप से बंद कर दिए, जो सभी संसाधित बातचीत का 40.1% है।

ये एम्बेडेड एजेंट हमारे कस्टमर सर्विस मैनेजर वक्कास मीर को बेसिक टिकटों के जवाब देने में लगने वाला समय कम करते हैं, ताकि वे अधिक ध्यान “टिकटों का स्वचालित रूप से जवाब देने वाली प्रणाली” बनाने और उन ग्राहक मामलों को संभालने पर केंद्रित कर सकें, जिनमें अधिक संपर्क और अधिक जटिल निर्णय की आवश्यकता होती है।

Human-AI Collaboration

चाहे सहकर्मी एजेंट हों या एम्बेडेड एजेंट, पीछे का पैटर्न एक समान है: एजेंट कर्मचारी अधिक स्थिर, दोहराया जाने वाला और स्पष्ट सीमा वाला कार्य स्तर संभाल रहे हैं।

लेकिन अभी भी बहुत सारा काम मानवीय हस्तक्षेप की आवश्यकता होती है। हमने बार-बार पाया है कि जब तक कार्य पर्याप्त जटिल होता है और वास्तविक उच्च गुणवत्ता वाले परिणाम प्राप्त करने की आवश्यकता होती है, तब तक सबसे अच्छा तरीका AI को पूरी तरह से काम सौंपना नहीं, बल्कि AI और मानव को एक ही कार्यस्थल पर आपस में सहयोग करने के लिए लाना होता है।

यही Codex, Claude Code और Cowork जैसे टूल्स का मूल्य है। वे आपको कई चैट थ्रेड्स में एक या अधिक एजेंट्स शुरू करने और उन्हें कार्य सौंपने की अनुमति देते हैं। इन एजेंट्स को आपके कंप्यूटर और सभी संबंधित डेटा स्रोतों तक पहुंच होती है। आप देख सकते हैं कि प्रत्येक एजेंट क्या कार्य कर रहा है, कैसे सोच रहा है, और आप किसी भी समय इसे रोक सकते हैं।

इसी बीच, आपको इन एजेंट्स के प्रबंधन का जिम्मा बना रहना होगा: प्रत्येक कार्य की शुरुआत में दिशा निर्धारित करें, कार्य के अंत में गुणवत्ता की जांच करें, सुनिश्चित करें कि परिणाम पर्याप्त अच्छे हैं, और अगला ऐसा कार्य ढूंढते रहें जिसे आगे बढ़ाने के लायक हो। कीरन इस भूमिका को मानवीय 'सैंडविच' कहते हैं—AI कार्य के मध्यभाग को संभालता है, जबकि मानव दोनों ओर से सैंडविच की तरह समाहित होते हैं।

"मानव सैंडविच"। स्रोत: Every।

सबसे स्पष्ट उदाहरण कोड लिखना है। हर दिन, इंजीनियर लगभग पूरा दिन एजेंट के साथ सहयोग करते हैं। वे नए फीचर्स की योजना बनाते हैं या बग्स को ठीक करते हैं, पूरा किए गए कार्य की समीक्षा करते हैं; यदि हम 'संयुक्त इंजीनियरिंग' की अवधारणा का उपयोग करते हैं, तो वे अपने सिस्टम को लगातार अनुकूलित करते रहते हैं, ताकि समय के साथ यह अधिक उपयोगी हो जाए।

लेकिन यह सहयोगात्मक दृष्टिकोण केवल कोडिंग तक ही सीमित नहीं है।

नई ऑपरेटिंग सिस्टम ज्ञान कार्य के लिए

कोडेक और क्लॉड कोड एक नया कार्य ऑपरेटिंग सिस्टम बन रहे हैं। मैं लगभग पूरा दिन कोडेक में बिता रहा हूँ, जहाँ इसके अंतर्निहित ब्राउज़र के माध्यम से विभिन्न SaaS उपकरण चला रहा हूँ। यह मुझे प्रत्येक कार्य परिदृश्य में एजेंट को ले जाने और एक ऐसे कार्य स्तर तक पहुँचने में सक्षम बनाता है जिसे मैं अकेले कभी नहीं पा सकता।

लिखना

यह लेख मैंने Codex के बिल्ट-इन ब्राउज़र में Proof का उपयोग करके लिखा है। Codex मेरे द्वारा लिखे जा रहे विषय को देखता है और किसी भी समय एक सब एजेंट को शुरू कर सकता है ताकि मुझे जिस कार्य की आवश्यकता हो, वह पूरा किया जा सके: किसी अनुच्छेद की प्रारंभिक रूपरेखा तैयार करना, अगले हिस्से के लिए उदाहरण ढूंढना, या पाठ संपादन और सुधार करना।

Codex में Proof के माध्यम से इस लेख को लिखें। स्रोत: Every।

मैं ईमेल को भी इसी तरह से संभालता हूँ। कोरा मेरा ईमेल क्लाइंट है, और मैं इसे कोडेक के बिल्ट-इन ब्राउज़र में खोलता हूँ, जबकि मैं अपने इनबॉक्स को ब्राउज़ करता हूँ, मैं मोनोलॉग के माध्यम से प्रत्येक ईमेल के लिए अपनी सोच को बाहर निकालता हूँ। शेष कार्य कोडेक और कोरा करते हैं।

कोरा द्वारा किया गया इनबॉक्स साफ़ करना। स्रोत: Every।

प्रत्येक एजेंट को एक मानव की आवश्यकता होती है

उपरोक्त सभी स्वचालित परिदृश्यों में, आप देख सकते हैं कि मानव कहाँ भूमिका निभाता है। प्रत्येक उदाहरण में, एजेंट को मानव सहभागिता की आवश्यकता होती है, ताकि कार्य वास्तव में संचालित हो सके।

किसी को इसे सही प्रश्न की ओर इशारा करना होगा, यह निर्णय लेना होगा कि आउटपुट पर्याप्त अच्छा है या नहीं, इसमें क्या गलतियाँ हैं, और परिणामों को वास्तविक निर्णय या प्रक्रियाओं में बदलना होगा।

एक एजेंट जितना अधिक उसके प्रदर्शन की निगरानी करने वाले मनुष्य से दूर होता है, उतना ही अक्सर उसका कार्य प्रभावी नहीं होता। प्रारंभिक आंतरिक लॉन्च में, हमने प्रत्येक कर्मचारी को एक एजेंट प्रदान किया था। लेकिन जल्द ही, हमने एजेंट को एक विशिष्ट टीम या पूरी कंपनी के लिए सेवा प्रदान करने की ओर वापसी कर ली, न कि किसी व्यक्तिगत व्यक्ति के लिए।

कारण सरल है: एजेंट को बहुत सारा रखरखाव करने की आवश्यकता होती है। एक व्यक्तिगत एजेंट जब उपयोगकर्ता उसका अनुसरण छोड़ देता है, तो जल्द ही अप्रचलित और अक्षम हो जाता है। हमारे पास एक AI इंजीनियर टीम है, जो इन एजेंट्स को स्थिर और प्रभावी ढंग से काम करने के लिए सुनिश्चित करने के लिए समर्पित है। और भविष्य में भी, हमें इस टीम की आवश्यकता होगी। यहां तक कि “स्वचालित PowerPoint बनाना” जैसा सरल कार्य भी एक विशाल प्रणाली इंजीनियरिंग प्रोजेक्ट में बदल सकता है। हमारी PowerPoint स्वचालन प्रक्रियाओं में से एक में 24 कौशल और 18 स्क्रिप्ट्स शामिल हैं, और एक प्रस्तुति बनाने की token लागत 62 डॉलर है।

यह एजेंट के कारण मनुष्यों के लिए अधिक कार्य उत्पन्न होने का पहला कारण है।

लेकिन दूसरा कारण भी है।

क्योंकि स्वचालन मानवीय कार्यों को बढ़ाता है

अगर आप पिछले कुछ वर्षों में AI क्षमताओं के घातीय विकास को देखते हैं, और इसकी आर्किटेक्चर और क्षमता के स्रोत को जोड़ते हैं, तो आपको एक स्पष्ट प्रतिक्रिया चक्र मिलता है: वे लगातार अधिक मानव कार्य बना रहे हैं।

AI ने "कल की मानव क्षमता" को सस्ता कर दिया है

वर्तमान बड़े भाषा मॉडल, मानव क्षमता द्वारा छोड़े गए दृश्य अ迹 पर प्रशिक्षित होते हैं: कोड, लेख, चित्र, कस्टमर सपोर्ट टिकट, उत्पाद विनिर्देश दस्तावेज़, और अन्य कई चीजें। वे इन सामग्रियों को अवशोषित करते हैं, जो पहले से सफलतापूर्वक पूरा किए गए कार्यों के 'उत्सर्जन' हैं, और इन्हें एक कम लागत वाले, सभी के लिए उपलब्ध रूप में पुनः पैकेज करते हैं।

परिणामस्वरूप, कोड PR जमा करना, एक YouTube थंबनेल बनाना, या एक न्यूज़लेटर लिखना जैसी पिछले समय में दुर्लभ क्षमताएँ अब लगभग सभी के लिए खुली हैं।

सस्ती क्षमताओं को जल्दी से अपना लिया जाएगा

जब किसी मूल रूप से दुर्लभ चीज़ की लागत कम हो जाती है, तो आपूर्ति तेजी से बढ़ जाती है।

हर एक के साथ, हम इस परिवर्तन को देख रहे हैं। संचालन और ग्राहक सेवा कर्मचारी कोड लिखने और पुल रिक्वेस्ट सबमिट करने लगे; मार्केटिंग टीम ने YouTube थंबनेल बनाना शुरू कर दिया; और इंजीनियर और प्रोडक्ट टीम ने लेख, गाइड और लैंडिंग पेज के प्रारंभिक ड्राफ्ट लिखना शुरू कर दिया, जो मूल रूप से उनके द्वारा स्वयं लिए जाने वाले कार्य नहीं थे।

यह परिवर्तन Every के बाहर भी हो रहा है। ओपन सोर्स AI एजेंट प्रोजेक्ट OpenClaw के उदाहरण के रूप में, 16 मई 2026 तक, इसके कोड रिपॉजिटरी में 44,469 पुल रिक्वेस्ट आए हैं, जिनमें से 12,430 1 अप्रैल के बाद और 3,990 1 मई के बाद आए हैं। यह एक अद्भुत संख्या है। तुलना के लिए, Kubernetes, जो दुनिया के सबसे लोकप्रिय ओपन सोर्स प्रोजेक्ट्स में से एक है, 2022 में केवल 5,200 पुल रिक्वेस्ट प्राप्त कर पाया।

समृद्धि से समानता आती है: पुराने विशेषज्ञों की क्षमताएँ वस्तु में बदल जाती हैं

चूंकि सभी लोग एक ही मॉडल का उपयोग कर सकते हैं और ये मॉडल सभी «कल की मानव क्षमता» पर आधारित हैं, इसलिए डिफ़ॉल्ट रूप से, मॉडल द्वारा उत्पादित चीजें अक्सर «अच्छी शुरुआत» और «शुद्ध AI कचरा» के बीच होती हैं।

यहाँ वर्णित "स्पैम कंटेंट" किसी विशिष्ट त्रुटि का उल्लेख नहीं करता है। यह बहुत सारे डैश का उपयोग नहीं है, कोई निश्चित वाक्य संरचना नहीं है, और न ही लैंडिंग पेज पर बराबर आए बैंगनी डिकोरेशन है। यह एक दृश्यमान, बार-बार दोहराई जाने वाली, थका देने वाली समानता का संकेत है।

जब विभिन्न परिदृश्यों में मानव एक ही सेट के उपकरणों का उपयोग करते हैं, और ये उपकरण एक ही प्रकार के डेटासेट पर प्रशिक्षित होते हैं, और उपयोगकर्ता पर्याप्त गहराई से निर्णय नहीं लेते हैं, तो ऐसा परिणाम उत्पन्न होता है। दूसरे शब्दों में, जब प्रत्येक के पास एक समान प्रवृत्ति और समान डिफ़ॉल्ट शैली का 'विशेषज्ञ' होता है, तो समानता स्वाभाविक रूप से उत्पन्न हो जाती है।

जब ऑपरेशन टीम पुल रिक्वेस्ट सबमिट कर सकती है, मार्केटिंग टीम कुछ ही सेकंड में YouTube थंबनेल जेनरेट कर सकती है, और इंजीनियर प्रोडक्ट गाइड लिखना शुरू कर देते हैं, तो ऐसा हो सकता है कि आपकी उत्पादन मात्रा बढ़ जाए, लेकिन आपके कार्यों की गुणवत्ता, समानता और अलगाव कम हो जाए।

और जब एक समानता अत्यधिक प्रचुर हो जाती है, तो वह शीघ्र ही एक वस्तु बन जाती है।

Homogenization creates demand for differentiation

इंटरनेट के कारण, मनुष्य जल्द ही पहचान लेंगे कि कौन सी चीज़ें 'AI जैसी' लाइन-बेस्ड सामग्री हैं। कोई भी कार्य पल भर में दुनिया के अन्य किसी के सामने पहुँच सकता है, और वास्तव में अक्सर ऐसा ही होता है। जब बहुत सारी चीज़ें एक जैसी दिखने लगती हैं, तो हम जल्द ही इसमें असमंजस का एहसास कर लेते हैं।

इसका मतलब है कि जब आप किसी नए मॉडल की क्षमताओं को पहली बार देखते हैं, तो आप आश्चर्यचकित हो सकते हैं, यहां तक कि थोड़ा डर भी महसूस कर सकते हैं। लेकिन कुछ महीनों बाद, ये क्षमताएं सामान्य हो जाती हैं। यह मॉडल कमजोर नहीं हो रहा है, बल्कि आपका मानक बदल रहा है।

हम किसी भी रिएक्ट ऐप या किसी भी अध्ययन रिपोर्ट से संतुष्ट नहीं हैं। हम एक ऐसी चीज चाहते हैं जो वास्तविक व्यक्ति, वास्तविक कंपनी और वास्तविक परिदृश्य के लिए वास्तविक रूप से अनुकूलित हो। इसे सटीक, जीवंत और विशिष्ट महसूस होना चाहिए, न कि सस्ता, सामान्य या टेम्पलेट-आधारित। हम चाहते हैं कि इसकी उत्पादन लागत, चाहे समय हो या पैसा, हमारी खपत लागत से स्पष्ट रूप से अधिक हो।

हम वह चाहते हैं जिसमें 'स्थिति का भाव' हो। और जब भी नई तकनीक पुरानी उच्च स्थिति वाली चीजों को सस्ती बना देती है, मनुष्य हमेशा नई क्षमता की सीमा के अनुरूप नए स्थिति खेल बनाने में कुशल होते हैं।

जब काम अत्यधिक उपलब्ध हो जाता है और सब कुछ एक जैसा दिखने लगता है, तो जो काम मौजूदा पैटर्न से मेल नहीं खाते, वे दुर्लभ, मूल्यवान और उच्च स्थिति के गुण प्राप्त कर लेते हैं।

विभिन्नता की आवश्यकता, मूलतः विशेषज्ञों की नई आवश्यकता है

भाषा मॉडल की आर्किटेक्चर विशेषताओं और उनके लगभग सभी के लिए व्यापक रूप से वितरित होने के कारण, दुर्लभ और मूल्यवान कार्य अभी भी मानव से ही आना चाहिए।

वर्तमान पीढ़ी के मॉडल केवल उन कार्यों को जानते हैं जो पहले ही हुए हैं और पूरे हो चुके हैं। मनुष्य जानता है: इस क्षण, वास्तव में क्या करना आवश्यक है।

जब कोई विशिष्ट परिस्थिति पाठ में बदल जाती है, तो जब यह कॉर्पस में आ जाती है, तो यह पहले से ही 'अतीत की चीज' बन चुकी होती है। मनुष्य सामने के क्षण, सामने के ग्राहक, सामने के कोडबेस, सामने की बातचीत का सामना करता है, जबकि प्रशिक्षण कॉर्पस वास्तव में इस वर्तमान में नहीं रहता। इस 'जीवित' स्थिति में केवल अद्यतन डेटा होना ही पर्याप्त नहीं है। हम अपने आगमन के साथ वर्तमान में प्रवेश करते हैं, और लगातार बदलती हुई इच्छाओं, चिंताओं और निर्णयों के साथ, यह समझने के लिए कि क्या महत्वपूर्ण है। यही लगातार अद्यतन होते दृष्टिकोण हैं, जो हम देखे जा रहे चीजों को बदल देते हैं। मॉडल को प्रॉम्प्ट करने के बाद इस दृष्टिकोण में प्रवेश करने की संभावना होती है, लेकिन प्रॉम्प्ट करने से पहले, इसके प्राकृतिक रूप से ऐसा दृष्टिकोण नहीं होता।

यही वह विरोधाभास है जिसका हमने शुरुआत में उल्लेख किया था: विशेषज्ञों के काम को सस्ता बनाने से विशेषज्ञों का सरलता से स्थानांतरण नहीं होता। इसके बजाय, यह ऐसे अधिक परिदृश्यों को जन्म देता है जिनमें विशेषज्ञ के निर्णय की आवश्यकता होती है।

जब ऑपरेटिंग कर्मचारी AI का उपयोग करके पुल रिक्वेस्ट जमा करते हैं, तो आपको इंजीनियर्स को समीक्षा करने की आवश्यकता होती है।

जब मार्केटिंग टीम YouTube थंबनेल बनाती है, तो आपको इसे और बेहतर बनाने के लिए डिजाइनर की आवश्यकता होती है।

जब इंजीनियर लेख लिखना शुरू करते हैं, तो आपको लेखक और संपादक की आवश्यकता होती है ताकि प्रारंभिक रूप को वास्तविक रूप से पठनीय और प्रकाशित योग्य सामग्री में बदला जा सके।

इसके लिए, मानव विशेषज्ञ दोनों दिशाओं में एक साथ चलेंगे।

कुछ विशेषज्ञ AI का उपयोग करके प्रणालियाँ बनाते हैं, जो इस बढ़ते कार्य के बहाव को अवशोषित करने और उपयोग करने में सक्षम होती हैं: समीक्षा पंक्ति, मूल्यांकन प्रणाली, ऑपरेशन फ्रेमवर्क, कोडबेस नियम, Claude और Codex निर्देश फ़ाइलें, निरंतर समाकलन (CI), अधिकार प्रबंधन, और मसौदा को उच्च गुणवत्ता वाले परिणाम में बदलने वाले कार्यप्रवाह।

दूसरे विशेषज्ञ AI का उपयोग करके ऐसे बड़े और रोचक कार्य करते हैं जिन्हें पहले वे अकेले ही पूरा नहीं कर पाते थे। उदाहरण के लिए, macOS जैसे ऑपरेटिंग सिस्टम में वल्नरेबिलिटी ढूंढने में सामान्यतः कई सप्ताह या महीने लग जाते हैं। हालाँकि, एक छोटी सी सुरक्षा कंपनी Calif, Anthropic के Mythos Preview का उपयोग करके, Apple M5 हार्डवेयर पर macOS कर्नेल मेमोरी वल्नरेबिलिटी की पहली सार्वजनिक खोज 5 दिनों में कर ली।

इसलिए व्यवहार में, AI विशेषज्ञ-आधारित ज्ञान के कार्यों को समाप्त नहीं करेगा। इसका वास्तविक प्रभाव कार्य की मात्रा में तीव्र वृद्धि है। और ये नए कार्य, केवल मानवीय सहभागिता के बाद ही भिन्न और मूल्यवान बन सकते हैं।

मैं यह तर्क नहीं दे रहा हूँ कि AI सभी नौकरियों के लिए अधिक नौकरियाँ बनाएगा। अर्थव्यवस्था प्रणाली बहुत जटिल है, और Every जो सीधे देख सकता है, वह विशेषज्ञ स्तर की ज्ञान-आधारित नौकरियाँ हैं। वास्तव में, ऐसी नौकरियाँ पहले से ही AI द्वारा पुनर्गठित हो रही हैं, और कई कंपनियाँ नए प्रौद्योगिकी के चारों ओर अपने संगठन को पुनर्व्यवस्थित कर रही हैं।

लेकिन मैं यह जोर देना चाहता हूँ कि चाहे आप वर्तमान में कौन सा काम कर रहे हों, एक ऐसी कार्य शैली है जो संरचनात्मक रूप से हमेशा मॉडल से आगे रहेगी: वह है मॉडल का उपयोग करके आपके वर्तमान में वास्तविक रूप से देखे जा रहे समस्याओं को हल करना। ज्ञान-आधारित कार्यों का भविष्य, यहीं की ओर बढ़ रहा है।

तो, घातीय वृद्धि के लिए बेंचमार्क क्या?

सबसे स्पष्ट आपत्ति यह है: उन घातीय रूप से बेहतर हो रहे बेंचमार्क्स को देखें। आप जो कुछ भी कह रहे हैं, वह केवल अस्थायी है, बस थोड़ा और प्रतीक्षा करें, मॉडल जल्द ही पीछे नहीं रहेंगे।

लेकिन यहाँ एक फंदा है जिसकी आपको सावधानी बरतनी चाहिए। इसे «चार्ट मैनिया» कह सकते हैं: अगर आप METR के टाइमस्पैन प्रेडिक्शन पर लगातार नज़र रखते हैं, AI 2027 पढ़ते हैं, और भविष्य के बारे में अपने निर्णय केवल कैलकुलेशन कर्व के एक्सट्रापोलेशन पर आधारित करते हैं, तो आप मॉडल के प्रगति के बारे में एक डरावनी अंतर्ज्ञान विकसित कर सकते हैं।

हालाँकि, इस प्रश्न का सबसे अच्छा तरीका से जवाब देना केवल इस कल्पना करना नहीं है कि कोई भविष्य का मॉडल कैसा बनेगा। निश्चित रूप से, यह विश्लेषण का एक हिस्सा है। अधिक महत्वपूर्ण बात यह है कि हमें यह देखना चाहिए कि इन बेंचमार्क को वास्तव में कैसे डिज़ाइन किया गया है। केवल इसी तरह, हम यह समझ सकते हैं कि ये बेंचमार्क वास्तव में क्या दर्शाते हैं और वे पिछले वास्तविक कार्य स्थितियों के साथ किस प्रकार संबंधित हैं।

हम एक संरचनात्मक विशेषता देखेंगे: सभी बेंचमार्क किसी 「फ्रेमवर्क」 के भीतर होते हैं। किसी चीज को मापने के लिए, आपको पहले एक प्रश्न को स्थिर, मापने योग्य रूप में जमा करना होगा। जैसे ही मॉडल इस फ्रेमवर्क को हल कर लेता है, फ्रेमवर्क में थोड़ा बदलाव करके आप पुनः स्कोर को निचले स्तर पर वापस भेज सकते हैं। निश्चित रूप से, मॉडल नए फ्रेमवर्क के भीतर आगे भी प्रगति करता रहेगा, लेकिन यही प्रक्रिया बार-बार दोहराई जाएगी।

इसलिए, किसी बेंचमार्क पर घातीय प्रगति वास्तविक है; लेकिन जब बेंचमार्क फ्रेमवर्क को बस थोड़ा बदल दिया जाता है, तो यह प्रगति फिर से बहुत छोटी लगने लगती है। बेंचमार्क संतृप्ति का यह 'फ्रैक्टल' गुण, ग्राफ़ पर हमारी चर्चा किए जा रहे समान विरोधाभास को दोहराता है।

हम इस कार्यप्रणाली को कैसे काम करती है, इसे एक वास्तविक दुनिया के बेंचमार्क से देख सकते हैं।

बेंचमार्क कैसे डिज़ाइन किए जाते हैं

हमने अपने आंतरिक रूप से एक बेंचमार्क बनाया है, जिसे सीनियर इंजीनियर बेंचमार्क, यानी 'सीनियर इंजीनियर बेंचमार्क' कहा जाता है। जैसा कि नाम से स्पष्ट है, इसका उपयोग उन अग्रणी मॉडलों की क्षमता का परीक्षण करने के लिए किया जाता है जो सीनियर इंजीनियर स्तर के कोडिंग कार्यों, जैसे एक बड़े रीफैक्टरिंग पर करते हैं।

यह परीक्षण एक प्रोग्रामिंग एजेंट को एक अनियंत्रित उत्पादन कोडबेस प्रदान करेगा। यह Proof के वास्तविक कोडबेस से लिया गया है: शुरू में मैंने vibe coding के साथ इसे लिखा था, लेकिन धीरे-धीरे समस्याएँ बढ़ती गईं और अंततः एक उच्चस्तरीय इंजीनियर को ठीक करने के लिए बुलाना पड़ा।

एजेंट को ठीक किए जाने से पहले का कोड बेस मिलता है, और इसके साथ ही एक ऐसा निर्देश भी मिलता है जो आप उच्च स्तरीय इंजीनियर को देते हैं: 'यह एक ढेर है vibe coding का, कृपया प्रथम सिद्धांतों से शुरू करते हुए इसे पुनः लिखें।'

यह एक अच्छा बेंचमार्क है, क्योंकि यह केवल कोड पूरा करने की क्षमता का ही परीक्षण नहीं करता, बल्कि यह भी देखता है कि एक प्रोग्रामिंग एजेंट क्या कई आपस में संबंधहीन समस्याओं का एक साथ आकलन कर सकता है और क्या इसमें पर्याप्त स्वायत्तता, अवधारणात्मक स्पष्टता और निष्पादन के लिए साहस है, ताकि एक वास्तविक रूप से कार्यरत पुनर्लिखन पूरा किया जा सके। एक तुलना के लिए, मैंने AI की सहायता से दो मानव उच्चस्तरीय इंजीनियरों द्वारा पूरा किए गए पुनर्लिखन संस्करण भी बनाए रखे हैं, ताकि मॉडल आउटपुट की तुलना और मूल्यांकन किया जा सके।

प्रोग्रामिंग एजेंट के लिए यह कार्य कठिन है। इसे न केवल समस्या का मूल कारण ढूंढना होगा, बल्कि बहु-चरण बातचीत में सदैव वास्तविक समस्या को याद रखना होगा और मौजूदा कोड से भटकना नहीं होगा। इसके अलावा, इसे बड़े कोडबेस को हटाने की साहसिकता भी रखनी होगी, जो एजेंट को आमतौर पर बचने के लिए प्रशिक्षित किया जाता है।

अधिकांश प्रोग्रामिंग एजेंट्स यह लगभग अनुमान लगा सकते हैं कि कैसे पुनर्लिखित करना है, लेकिन निष्पादन चरण पर, वे अक्सर समस्या को जड़ से हल करने के बजाय मूल समस्या पर ही ठीक करने का प्रयास करते हैं।

जब तक GPT-5.5 नहीं आता।

सबसे अच्छे परीक्षण में, GPT-5.5 ने 62/100 अंक प्राप्त किए, जो Opus 4.7 से लगभग 30 अंक अधिक है।

GPT-5.5 का प्रदर्शन इस बात का अहसास कराता है कि मॉडल किसी सीमा को पार कर गया है: यह केवल स्वचालित पूर्ति नहीं है, केवल सहायक नहीं है, और न ही केवल एक उपकरण है, बल्कि कुछ ऐसा है जो मनुष्य के करीब आ गया है—जिससे थोड़ा असहज महसूस होता है। इस परीक्षण में, मानव उच्च स्तरीय इंजीनियर्स का स्कोर आमतौर पर 80 के उच्च और 90 के शुरुआती हिस्से के बीच होता है। यानी, अगर मॉडल में लगभग 30 अंकों की वृद्धि हो जाए, तो यह मानव उच्च स्तरीय इंजीनियर के स्तर पर पहुँच जाएगा।

यही कारण है कि बेंचमार्क संख्याएँ मानव कल्पना पर प्रभाव डालती हैं: वे एक अजीब, गुणात्मक क्षमता में परिवर्तन को एक साफ संख्या में संकुचित कर देती हैं और इस संख्या का उपयोग एक शक्तिशाली, यहाँ तक कि कुछ हद तक डरावनी कहानी सुनाने के लिए करती हैं।

अगला स्टॉप, "चार्ट मैनिया" है।

मुझे लगता है कि अगले वर्ष के भीतर, मॉडल का इस बेंचमार्क पर स्कोर 80 या 90 के रेंज में पहुँच जाएगा। लेकिन इस स्कोर का क्या मतलब है, इसे समझने के लिए, सबसे पहले इस स्कोर में क्या शामिल है, यह समझना आवश्यक है। इस उदाहरण के लिए, 62 का स्कोर केवल मॉडल की क्षमता का मापन नहीं है।

यह मापता है कि कोई मॉडल किसी विशिष्ट फ्रेमवर्क में कैसे प्रदर्शन करता है: अर्थात्, मॉडल किसी विशिष्ट प्रॉम्प्ट के जवाब में कैसे प्रतिक्रिया करता है।

Benchmark measures the work within the framework.

किसी मॉडल का बेंचमार्क करने के लिए, आपको सबसे पहले एक प्रॉम्प्ट की आवश्यकता होती है। बिना प्रॉम्प्ट के, मॉडल केवल लगभग अनंत संभावनाओं का एक स्थिर समूह होता है।

प्रॉम्प्ट एक लघु ब्रह्मांड को जन्म देता है: यह निर्धारित करता है कि क्या महत्वपूर्ण है, समस्याओं को कैसे संभाला जाए, और मॉडल की सभी संभावनाओं को एक विशिष्ट कार्रवाई के पथ में संकुचित कर देता है। वास्तव में, मॉडल के 'खुद' कैसे व्यवहार करने की बात नहीं हो सकती। हम जो वास्तव में देख पाते हैं, वह है मॉडल की विभिन्न प्रॉम्प्ट्स के प्रति प्रतिक्रिया, और प्रॉम्प्ट कैसे प्रतिक्रिया के पीछे के आधारभूत तंत्र में परिवर्तित होता है।

जब प्रॉम्पट दर्ज किया जाता है, तो मॉडल कुछ ही समय में "जीवित" हो जाता है और स्थिर संभावनाओं के समूह को "अगला क्या होना चाहिए" का एक विशिष्ट अनुमान में संकुचित कर देता है।

सीनियर इंजीनियर बेंचमार्क में, हम मॉडल को कोडबेस को ठीक करने के लिए प्रेरित करते हैं और इसके पूरा होने के बाद आउटपुट की समीक्षा करते हैं। यदि परीक्षण फ्रेमवर्क में स्वयं लक्ष्य कार्य नहीं है, तो हम एक स्वचालित "देखभालकर्ता" चलाते हैं जो मॉडल के रुकने पर इसे आगे बढ़ाता है और पूछता है कि क्या यह मूल रूप से निर्धारित कार्य पूरा कर चुका है।

हम एक ऐसा प्रॉम्प्ट उपयोग कर रहे हैं जो बहुत सरल लगता है, जो परीक्षण के लिए एक प्रारंभिक ढांचा है। इसे एक vibe coder द्वारा प्रोग्रामिंग एजेंट के प्रति कहे जाने वाले शब्दों के रूप में डिज़ाइन किया गया है: कोई तकनीकी शब्दावली का भरमार नहीं, और न ही स्पष्ट रूप से उत्तर प्रश्न में छुपाया गया है।

इस कोड रिपॉजिटरी में कोड एक ढेर है जो vibe coding के उत्पाद हैं, स्थिति लगातार बिगड़ रही है, और असंबंधित समस्याएँ लगातार उभर रही हैं: कुछ जगहों पर क्रैश हो रहा है, कुछ दस्तावेज़ दोहराए जा रहे हैं, मैं इससे पागल होने वाला हूँ। मुझे लगता है कि मूल समस्या यह है कि यह सब vibe coding के बर्बर कोड का ढेर है। अगर हम इसे शुरू से शुरू करें, खासकर रियल-टाइम दस्तावेज़ सहयोग के चारों ओर, तो हम कोडबेस को पूरी तरह से अलग तरीके से डिज़ाइन करते। इसलिए, अगर हम प्रथम सिद्धांतों से, साफ़ संरचनात्मक पुनर्लिखन करना चाहते हैं, 'कौन सी सेवाएँ समान रहनी चाहिए' या 'एक चिकनी स्थानांतरण कैसे करें' जैसे प्रश्नों को नज़रअंदाज़ करते हुए, और इसे एक पूरी तरह से नयी अवधारणा के रूप में, शुरू से डिज़ाइन करें, तो हम क्या करेंगे? संरचना कैसे संगठित करें? पूरे कोडबेस में कौन से अपरिवर्तनीय मान हैं जिन्हें हमें हमेशा पालन करना होगा? कृपया इसके लिए एक योजना बनाएँ।

सीनियर इंजीनियर बेंचमार्क का प्रॉम्प्ट सामान्य लगता है, लेकिन यह खुद एक ढांचा है। अगर हम इस ढांचे को बदल दें, तो मॉडल द्वारा प्रदर्शित क्षमता का स्तर भी बदल जाएगा।

उदाहरण के लिए, यह प्रॉम्प्ट स्पष्ट रूप से 'प्रथम सिद्धांतों से शुरू करके संरचनात्मक पुनर्लेखन' की मांग करता है, समस्या को 'दस्तावेज सहयोग' भाग में देखता है, और प्रोग्रामिंग एजेंट से कोडबेस में अपरिवर्तनीयताओं को ढूंढने और उन पर टिके रहने का आह्वान करता है।

अगर इन विशिष्ट जानकारियों को हटा दिया जाए, तो मॉडल का स्कोर गिर जाएगा। अगर प्रॉम्प्ट को पूरी तरह से बदल दिया जाए और केवल मॉडल को 'लगातार आने वाली सभी त्रुटियों को हल करें' कहा जाए, तो मॉडल का स्कोर लगभग शून्य हो सकता है। यह सीधे एक-एक करके त्रुटियों की पहचान करना और उन्हें ठीक करना शुरू कर देगा, बजाय एक कदम पीछे हटकर सोचने के कि क्या एक गहन पुनर्लेखन की आवश्यकता है।

इसी तरह, मैं मॉडल स्कोर को बहुत आसानी से बढ़ा सकता हूँ। अगर मैं इससे बड़ी मात्रा में कोड हटाने के लिए कहूँ और स्पष्ट रूप से बताऊँ कि कौन सी फाइलें संक्षिप्त की जानी चाहिए; या इससे कहूँ कि वह अपने काम के परिणाम की जाँच करे, और सुनिश्चित करे कि एप्लिकेशन पूरी तरह से चल रहा है, तो यह कार्य उसके लिए बेहतर होगा।

अंततः, बेंचमार्क डिज़ाइन करते समय, यह निर्णय लेना हमेशा आवश्यक होता है कि किस प्रॉम्प्ट, यानी किस «फ्रेमवर्क» का उपयोग किया जाए। आपको एक पर्याप्त कठिन प्रॉम्प्ट की आवश्यकता होती है, जिससे वर्तमान मॉडल का प्रदर्शन खराब हो; लेकिन यह मॉडल की वर्तमान क्षमता की सीमा के बहुत करीब होना चाहिए, ताकि मॉडल इस मार्ग पर चढ़ सके और आप देख सकें कि प्रगति हो रही है।

इसलिए, जब हम एक बेंचमार्क को देखते हैं, तो हम वास्तव में यह देख रहे हैं कि मॉडल हमारे द्वारा चुने गए एक विशिष्ट प्रश्न ढांचे में लगातार बेहतर हो रहा है। तो, जब मॉडल इस परीक्षण में 60 से 90 या फिर 100 पर पहुँचता है, तो क्या होता है?

Low-cost frameworks will stimulate new demand

अगर GPT-6 एक क्लिक में कोडबेस को पुनर्लिखित कर सकता है, तो और अधिक लोग "प्रथम सिद्धांतों से कोडबेस को पुनर्लिखित करने" का प्रयास करने लगेंगे।

एक रात में, जो पहले दुर्लभ, महंगे और उच्च स्तरीय इंजीनियर्स द्वारा नियंत्रित प्रथम सिद्धांत पुनर्लिखन परियोजनाएँ थीं, वे हर संस्थापक, उत्पाद प्रबंधक, संचालन कर्मचारी और प्रारंभिक इंजीनियर के लिए एक दोपहर में आसानी से प्रयास करने योग्य हो जाएँगी।

टूल्स को अब ठीक करने के बजाय पूरी तरह से फिर से लिखा जाता है; SaaS उत्पादों की नवीनीकरण नहीं, बल्कि क्लोनिंग की जाती है; पुराने Rails ऐप्स, अव्यवस्थित React डैशबोर्ड, कस्टमर सपोर्ट टूल्स, बैकएंड मैनेजमेंट पैनल और डेटा पाइपलाइन्स सभी "बस फिर से लिख दें" के उम्मीदवार बन जाते हैं।

प्रस्तावित और निष्पादित पुनर्लेखन परियोजनाओं की संख्या तीव्रता से बढ़ेगी। लेकिन इनमें से अधिकांश पुनर्लेखन अभी भी slop होंगे। क्योंकि आप 'सीधे पुनर्लेखन' बटन दबाने से पहले, हजारों चरों को ध्यान में रखना होता है। और जब हर कोई इसे कर सकेगा, तो ये चर अधिक स्पष्ट हो जाएंगे।

这时，谁会被叫来解决问题，也就很明显了。

नए आवश्यकताओं के लिए अभी भी विशेषज्ञ की आवश्यकता है

जब कोई बेंचमार्क संतृप्ति के करीब पहुँचने लगता है, तो उसके ढांचे के भीतर का कार्य सस्ता हो जाता है। इसी बीच, बाजार में विशेषज्ञों की मांग बढ़ जाती है, क्योंकि इन नवीन रूप से सस्ते हो चुके क्षमताओं को आज हो रही वास्तविक समस्याओं में अनुकूलित करने के लिए किसी की आवश्यकता होती है।

एक एआई का उपयोग करने वाला उच्च स्तरीय इंजीनियर, एक नए प्रथम सिद्धांत पुनर्लिखन को वास्तविक रूप से सफल बनाने के लिए बहुत सारी विस्तृत बातों का निर्णय लेने की आवश्यकता होती है। इसमें सबसे मूलभूत प्रश्न भी शामिल है: क्या इस पुनर्लिखन की वास्तव में आवश्यकता है?

हमें अभी पुनः लिखना चाहिए, बाद में पुनः लिखना चाहिए, या बिल्कुल पुनः लिखना नहीं चाहिए? किन चीजों को दायरे में शामिल किया जाना चाहिए? वर्तमान कोडबेस में से क्या बरकरार रखा जाना चाहिए? आर्किटेक्चर, डेटाबेस, कैश सर्वर और होस्टिंग प्रोवाइडर को जारी रखना चाहिए, या सब कुछ बदलना चाहिए? क्या हमें पहले यह देखना चाहिए कि इस क्षतिग्रस्त कार्य का उपयोग कितने लोग कर रहे हैं, और फिर इसे सीधे हटा देना चाहिए? अंतिम परिणाम की समीक्षा कौन करेगा? समीक्षा के लिए कौन से मानदंड हैं? रोलबैक योजना क्या है? मौजूदा डेटा का क्या होगा?

ये प्रश्न असंख्य आयामों के साथ लगातार विकसित होते रहेंगे, और प्रत्येक उत्तर दूसरे प्रश्नों को बदल देगा।

एक उच्च स्तरीय इंजीनियर इस खाली स्थान में प्रवेश करेगा। कुछ लोग इन बाधाओं से हल्की तकलीफ महसूस करेंगे; कुछ लोग प्रणालियाँ बनाएंगे जो इस प्रकार के अनुरोधों को बाहर रखेंगी; और कुछ लोग इन नए मॉडल्स का उपयोग करके अपने पहले सिद्धांत पुनर्लेखन को पूरा करेंगे, और यह स्तर मॉडल के डिफ़ॉल्ट prompt के तहत करने से कहीं बेहतर होगा।

चक्र फिर से होगा

जब वर्तमान सीनियर इंजीनियर बेंचमार्क को मॉडल द्वारा हल कर लिया जाएगा, तो हम फ्रेमवर्क बदल देंगे और फिर से स्कोर को कम स्तर पर ले आएंगे।

अगला बेंचमार्क केवल पूछेगा: "क्या आप इस एप्लिकेशन को पुनः लिख सकते हैं?" यह पूछेगा: क्या आप जान सकते हैं कि कब पुनः लिखने की आवश्यकता है? क्या आप उपयुक्त सीमा चुन सकते हैं? क्या आप सही अपरिवर्तनीयताओं को बनाए रख सकते हैं? क्या आप स्थानांतरण प्रक्रिया को प्रबंधित कर सकते हैं? क्या आप जान सकते हैं कि अंतिम परिणाम पर्याप्त अच्छा है या नहीं?

जब उच्च स्तरीय इंजीनियर इन समस्याओं को हल करने के लिए AI का उपयोग करना शुरू करते हैं, तो मॉडल भी धीरे-धीरे इन समस्याओं को स्वतंत्र रूप से हल करने में अधिक कुशल हो जाते हैं।

फिर, हम फिर से अल्पकालिक आतंक में पड़ जाते हैं: लगता है कि मॉडल अब यह निर्णय लेने में सक्षम है कि क्या पुनर्लेखन किया जाना चाहिए! वे ऐसा सब कुछ करने में सक्षम लगते हैं जो उच्च स्तरीय इंजीनियर कर सकता है!

लेकिन तुरंत बाद, नए सीमांकन दिखाई देंगे। वे पहले स्पष्ट नहीं थे। हम बेंचमार्क को फिर से रीसेट करेंगे, नए आवश्यकताएँ जागृत होंगी, और पूरी प्रक्रिया फिर से दोहराई जाएगी।

हर बेंचमार्क में यह पैटर्न दिखाई देता है

यह केवल Senior Engineer Benchmark की समस्या नहीं है। अगर आप ध्यान से देखें, तो आप लगभग हर बेंचमार्क में एक ही तंत्र देख सकते हैं।

OpenAI के GDPval बेंचमार्क के उदाहरण के रूप में। यह AI की विभिन्न पेशेवरों जैसे कि कंप्लायंस ऑफिसर, वकील, सॉफ्टवेयर डेवलपर्स आदि के विशेषज्ञ स्तर के कार्यों पर मानवीय प्रदर्शन के कितने करीब होने का मूल्यांकन करता है।

GDPval के लॉन्च के समय, OpenAI के शोध ने दिखाया कि GPT-5 40.6% कार्यों में मानव विशेषज्ञों के स्तर तक पहुँच गया या उसे पार कर गया। जबकि Claude Opus 4.1 का प्रदर्शन और भी आश्चर्यजनक रहा, जिसने 49% कार्यों में मानव विशेषज्ञों को पार कर दिया।

इसके बाद, एक श्रृंखला शीर्षक प्रकट हुए। उदाहरण के लिए, Axios ने लिखा: "OpenAI टूल दर्शाते हैं कि AI मानव कार्यों के साथ बराबरी कर रहा है"; जबकि Fortune ने लिखा: "OpenAI का नया बेंचमार्क GDPval दर्शाता है कि AI मॉडल पहले ही लगभग आधे कार्यों पर विशेषज्ञ स्तर पर पहुंच चुके हैं।"

ये परिणाम वास्तव में प्रभावशाली हैं। लेकिन आइए पहले इन कार्यों के लिए उपयोग किए गए prompt को देखें:

आप एक ऑडिटर हैं और ऑडिट एंगेजमेंट के हिस्से के रूप में आपको रिपोर्ट किए गए Anti-Financial Crime Risk Metrics की सटीकता की समीक्षा और परीक्षण करने का कार्य सौंपा गया है। 『Population』 शीर्षक वाली संलग्न स्प्रेडशीट में Q2 और Q3 2024 के लिए Anti-Financial Crime Risk Metrics शामिल हैं। आपने यह डेटा ऑडिट समीक्षा के हिस्से के रूप में प्राप्त किया है, ताकि मेट्रिक्स के एक प्रतिनिधि उप-समुच्चय पर सैंपल टेस्टिंग की जा सके, जिससे दोनों क्वार्टर के लिए रिपोर्ट किए गए डेटा की सटीकता का परीक्षण किया जा सके। 『Population』 स्प्रेडशीट में दिए गए डेटा का उपयोग करते हुए, निम्न कार्य पूरे करें: 90% कॉन्फिडेंस लेवल और 10% टॉलरबल एरर रेट के आधार पर ऑडिट टेस्टिंग के लिए आवश्यक सैंपल साइज की गणना करें। अपनी गणनाएँ 『Sample Size Calculation』 शीर्षक वाले दूसरे टैब में शामिल करें। Q2 और Q3 डेटा (कॉलम H और I) पर वैरिएंस एनालिसिस करें। क्वार्टर-ऑन-क्वार्टर वैरिएंस की गणना करें और परिणाम को कॉलम J में दर्ज करें। निम्न मानदंडों के आधार पर ऑडिट टेस्टिंग के लिए सैंपल चुनें और कॉलम K में चुनी गई पंक्तियों को 「1」 दर्ज करके इंगित करें… वे Metrics जिनमें Q2 और Q3 के बीच >20% वैरिएंस हो। असाधारण रूप से बड़े प्रतिशत बदलाव वाले Metrics को प्राथमिकता दें। निम्नलिखित संस्थाओं से Metrics शामिल करें, पिछले मुद्दों के कारण: CB Cash Italy; CB Correspondent Banking Greece; IB Debt Markets Luxembourg; CB Trade Finance Brazil; PB EMEA UAE। उच्च जोखिम वेटिंग वाले Metrics A1 और C1 को शामिल करें। वे पंक्तियाँ शामिल करें जहाँ दोनों क्वार्टरों के लिए मान शून्य हैं। Trade Finance और Correspondent Banking व्यवसायों से एंट्रियाँ शामिल करें। Cayman Islands, Pakistan, और UAE से Metrics शामिल करें। सुनिश्चित करें कि सभी Divisions और sub-Divisions में कवरेज हो। 『Sample』 शीर्षक वाली एक नई स्प्रेडशीट बनाएँ: टैब 1: चयनित सैंपल, मूल 『Population』 शीट से कॉपी किया गया, जिसमें चयनित पंक्तियाँ कॉलम K में चिह्नित हों। टैब 2: सैंपल साइज कैलकुलेशन के लिए कार्य-पत्र।

इसमें वास्तव में बहुत सारी मानवीय बुद्धिमत्ता शामिल है: कुछ लोग पहले समस्या को एक ऐसे मॉडल के रूप में परिभाषित करते हैं जो इसे पूरा कर सके।

जिन कठिन मानवीय कार्यों को GDPval ने मापा नहीं है, वे सभी मॉडल के उत्तर देने से पहले ही पूर्ण हो चुके हैं। इन विशिष्ट सूचकांकों की सटीकता की समीक्षा और परीक्षण करने वाले व्यक्ति होने चाहिए; किसी ने उपयुक्त विश्वास अंतराल तय किया होना चाहिए, यह निर्णय लिया होना चाहिए कि कौन से सूचकांक कार्य के दायरे में आते हैं और कौन से नहीं; और किसी ने यह भी निर्धारित किया होना चाहिए कि परिणाम कैसे प्रस्तुत किए जाएं।

उपयुक्त प्रश्न संरचना के तहत, मॉडल वास्तव में पेशेवर कार्य पूरा कर सकता है। लेकिन सोचिए, अगर हम दोनों मॉडल को इसी कार्य के लिए प्रॉम्प्ट दें, तो यह कैसे प्रदर्शन करेगा?

मैंने अपने GDPval के बारे में मेरे पहले लेख में लिखा था: "मैं AI के प्रति बहुत आशावादी हूँ, लेकिन यदि इन उदाहरणों को सही ढंग से समझा जाए, तो यह दर्शाता है कि मानव द्वारा किए जाने वाले कार्य कम नहीं हो रहे हैं, बल्कि AI के उपयोग के बाद मानव द्वारा किए जाने वाले कार्य अधिक हो गए हैं। कारण यह है कि इन उपलब्धियों के पीछे बड़ी मात्रा में 'गुप्त रूप से' शामिल बुद्धिमत्ता है—यानी मानव निर्णय, प्रतिक्रिया और प्रॉम्प्ट्स से बनी अदृश्य परत।"

दूर से देखने पर, आप देखेंगे कि इस सब के पीछे एक AI संस्करण का “ज़ीनो का विरोधाभास” छिपा हुआ है।

AI का ज़ेनो का विरोधाभास

ज़ेनो के पैराडॉक्स में, एक कछुआ दौड़ में ग्रीक के सबसे तेज़ दौड़ने वाले अकीलीज़ को हरा देता है।

चूंकि कछुआ धीमी गति से चलता है, इसलिए वह एक निश्चित दूरी आगे निकल जाता है। जब अकीलीज कछुए के प्रारंभिक स्थान पर पहुँचता है, तो कछुआ थोड़ा और आगे बढ़ चुका होता है; जब अकीलीज उस नए स्थान पर पहुँचता है, तो कछुआ फिर से आगे बढ़ जाता है। चाहे अकीलीज कितना भी तेज़ दौड़े, हमेशा एक अगली दूरी होती है जिसे पूरा करना होता है, और यह अंतर लगातार पुनः उत्पन्न होता रहता है।

AI के ज़ेनो के विरोधाभास में, हम मनुष्य उस कछुए के समान हैं। लाखों वर्षों के विकास और सांस्कृतिक सीख के साथ, हम AI से 50 गज आगे हैं। AI इस सबको तेजी से पार करता है और हमारे पीछे की ओर बढ़ने लगता है।

कम से कम पिछले कुछ वर्षों में, हम अभी भी अग्रणी बने रह पाए हैं।

लेकिन AGI के बारे में?

मुझे लगता है कि भले ही AGI वास्तविक रूप से आ जाए, तब भी शक्तिशाली तकनीकी, आर्किटेक्चरल और आर्थिक बल मौजूद रहेंगे जो AI को हमेशा मनुष्यों से कुछ कदम पीछे रखेंगे।

एक परिभाषा एजीआई की

सबसे पहले, हमें AGI के लिए एक कार्यात्मक परिभाषा देनी होगी।

मैंने पहले कहा था कि जब एजेंट को लगातार चलाना आर्थिक रूप से उचित हो जाता है, तो AGI पहले ही प्राप्त हो चुका होता है। यानी, जब मेरे पास एक स्थायी रूप से चलने वाली प्रणाली होती है और मैं इसे 7×24 घंटे सोचने, सीखने और कार्य करने के लिए भुगतान करने को तैयार होता हूँ, तो मुझे लगता है कि इसे स्पष्ट रूप से AGI माना जा सकता है।

हम अभी इस बिंदु तक पहुंचे नहीं हैं। यहां तक कि OpenClaw जैसे तकनीकी रूप से तुरंत उपलब्ध प्रणालियां भी हर क्षण token उत्पन्न नहीं कर रही हैं।

मुझे यह परिभाषा पसंद है क्योंकि यह मापने योग्य है: हम या तो उन्हें लगातार चलाएंगे, या नहीं। इसके साथ ही, यह कई ऐसी क्षमताओं को शामिल करती है जिन्हें सीधे मापना कठिन है। एक ऐसा मॉडल जिसे लगातार चलाने के लायक होना चाहिए, वह लगातार सीखने में सक्षम होना चाहिए और खुले तरीके से नए सवालों के ढांचे का चयन और पुनः चयन करने में सक्षम होना चाहिए।

एक AGI दुनिया में, सिद्धांत रूप से, पर्याप्त बजट और समय दिए जाने पर, मॉडल को किसी भी समस्या के लिए लगातार सुधार करना चाहिए। यह वास्तव में सभी कार्यों के लिए गंभीर खतरा होना चाहिए।

Framework is not the framer

लेकिन यहां तक कि इस तीव्र संस्करण की AGI भी "फ्रेम समस्या" को हल नहीं कर सकती।

यह AGI ढांचे का चयन और पुनः चयन कर सकता है, लेकिन यह अभी भी किसी दिए गए लक्ष्य की प्राप्ति, किसी पुरस्कार का अनुकूलन, या किसी अन्य द्वारा निर्धारित "प्रगति" के संकेत के प्रति प्रतिक्रिया दे रहा है। यह लक्ष्य बहुत विशिष्ट हो सकता है, जैसे 'इस लैंडिंग पेज की रूपांतरण दर में वृद्धि करें'; या बहुत अमूर्त हो सकता है, जैसे 'नए वैज्ञानिक विचारों की खोज करें'।

हालांकि मॉडल विभिन्न फ्रेमवर्क के बीच आसानी से स्विच कर सकता है, हम जिस अंतर का अनुसरण कर रहे हैं, वह एक उच्चतर स्तर पर पुनः प्रकट हो जाएगा। किसी भी प्रमुख प्रयोगशाला द्वारा कल्पित AGI में, अभी भी एक 'फ्रेमर' मौजूद होगा—जो एक मानव होगा, जो मॉडल को किसी लक्ष्य को प्राप्त करने के लिए निर्देशित करेगा।

चूंकि फ्रेमवर्क फ्रेम करने वाला नहीं है, इसलिए एक ही पैटर्न बार-बार दोहराया जाता है: AI द्वारा कल फ्रेम किए गए क्षमताओं को सस्ता बना दिया जाता है; लोग इन सस्ती क्षमताओं का उपयोग अधिक स्थितियों में करते हैं; परिणाम अत्यधिक प्रचुर हो जाता है; विशेषज्ञ नए किनारे पर चले जाते हैं, और यह निर्णय लेते हैं कि अभी क्या महत्वपूर्ण है; उनके निर्णय अगला फ्रेमवर्क बनाते हैं; और मॉडल इस फ्रेमवर्क पर आगे बढ़ता रहता है।

जब हम देखते हैं कि AI कोई नया काम कर रहा है, तो वह आतंक हमेशा एक ही सवाल पर लौटता है: हम एक ढांचा बनाते हैं, मॉडल को उस पर चढ़ते देखते हैं, और फिर उस ढांचे, या उस चीज को, जो ढांचे पर चढ़ रही है, चीज़ के खुद के रूप में भूल जाते हैं।

जब हम एक बेंचमार्क को देखते हैं और इसे मानवीय क्षमताओं के साथ तुलना करते हैं, तो हम वास्तव में 'फ्रेमवर्क' और 'फ्रेमर' को भ्रमित कर रहे हैं। स्कोर हमें बताता है कि मॉडल हमारे द्वारा प्रदान किए गए फ्रेमवर्क में कितना अच्छा प्रदर्शन करता है; यह नहीं बताता कि मॉडल हम बन गया है।

यही भय के पीछे की श्रेणीगत त्रुटि है। हम अपने द्वारा हाल ही में खींची गई नवीनतम सीमा की ओर इशारा करते हैं: यही हम हैं। फिर, जब मॉडल इस सीमा को पार करता है, तो हमें लगता है कि वह हमसे आगे निकल गया है। लेकिन वह केवल संदर्भ को पार करता है, संदर्भ बनाने वाले को नहीं।

गलती यह है कि हम हमेशा किसी विशिष्ट चीज़ को पकड़ना चाहते हैं। हम कहना चाहते हैं: बुद्धिमत्ता यही परीक्षण है। लेकिन समस्या यह है कि जब कोई चीज़ इतनी विशिष्ट हो जाती है कि उसे पहचाना जा सके, तो वह इतनी विशिष्ट हो जाती है कि उसे अनुकूलित और चढ़ा जा सके।

फ्रेमवर्क आवश्यक है। यह हमें दुनिया को पकड़ने और उससे निपटने की अनुमति देता है। लेकिन फ्रेमवर्क स्थिर और सीमित भी होते हैं, इसलिए उन्हें अनुकूलित किया जा सकता है।

फ्रेमर अलग होते हैं। फ्रेमर अभी भी उस चीज़ के साथ संपर्क में रहते हैं जिसे फ्रेम को छोड़ना पड़ता है, यानी प्रत्येक क्षण में उनके सामने आने वाली पूर्ण परिस्थिति।

तो «पूर्ण परिदृश्य» क्या है? जब आप कहना शुरू करते हैं कि «पूर्ण परिदृश्य» में क्या शामिल है, तो आप पहले से ही एक और संदर्भ शुरू कर रहे हैं। आप इसे सटीक रूप से नहीं बता सकते कि यह क्या है, लेकिन यह मौजूद है, क्योंकि आप मौजूद हैं।

बिना स्वयंता के एजेंट

अब तक, हमने जिन एजेंट्स का निर्माण किया है और जिन एजेंट्स का निर्माण AI कंपनियाँ कर रही हैं, उनमें वास्तविक स्वतंत्रता का बहुत कम हिस्सा है। यहाँ दो संबंधित अवधारणाएँ अक्सर मिला दी जाती हैं: agency का अर्थ है स्वतंत्र रूप से कार्य करने की क्षमता; जबकि agent का अर्थ है किसी अन्य व्यक्ति के लिए कार्य करने वाला व्यक्ति या चीज। अब तक, AI पूरी तरह से बाद वाले के अंतर्गत आता है।

वे निश्चित रूप से दिए गए कार्य को पूरा करने की स्वायत्तता रखते हैं, भले ही यह कार्य कई घंटों या यहां तक कि कई दिनों तक चल सकता है। लेकिन वे अभी भी किसी मानव-निर्दिष्ट लक्ष्य के लिए एक साधन मात्र हैं। और पूरा उद्योग इसी बात पर दसों अरब डॉलर खर्च कर रहा है कि वे हमारे द्वारा उन्हें सौंपे गए लक्ष्यों को और बेहतर ढंग से पूरा कर सकें।

जब तक एक दिन वे स्वयं एक उद्देश्य नहीं बन जाते—अपने लक्ष्यों की खोज करते हुए, विभिन्न लक्ष्यों के बीच आसानी से स्विच करते हुए, किसी भी मानव संचालक की इच्छा, संदर्भ या इन इच्छाओं के विरोध के बिना यह तय करते हुए कि क्या करना है—तब तक स्थिति में मौलिक परिवर्तन नहीं होगा। चाहे वे कितने भी उन्नत क्यों न हों।

अगर आप एक छोटे बच्चे के साथ 10 मिनट बिताते हैं, तो यह स्पष्ट हो जाएगा कि सबसे शक्तिशाली मॉडल के पास भी लगभग कोई स्वयंसिद्धता नहीं है।

हमारे द्वारा ध्यान में रखे जाने वाले लगभग सभी कार्यों में, छोटे बच्चे भाषा मॉडल से कम हैं। छोटे बच्चे कोड नहीं लिखते, स्प्रेडशीट का सारांश नहीं निकालते, रणनीतिक स्मृतिकार नहीं तैयार करते और ग्रेजुएट स्तर की परीक्षाओं को पास नहीं कर पाते। लेकिन एक अन्य अर्थ में, छोटे बच्चे मॉडल से इतने आगे हैं कि इस तुलना करना लगभग अपमानजनक है। क्योंकि छोटे बच्चों के पास अपना उद्देश्य होता है।

एक बच्चा उस लाल गुब्बारे को छूना चाहता है। वह लाल गुब्बारे को पंखे के सामने ले जाना चाहता है, ताकि देख सके कि क्या होता है। वह लाल गुब्बारे को फोर्क से छेदना चाहता है; उसे खिड़की से बाहर डालना चाहता है; वह देखना चाहता है कि क्या आप हंसेंगे, गुस्सा होंगे, या क्या आप उसके साथ शामिल होंगे। वह लगातार खेल बनाता रहता है, और दुनिया को प्रयोगशाला में बदल देता है। वह किसी प्रॉम्प्ट का इंतजार नहीं कर रहा है, और न ही किसी बेंचमार्क को ऑप्टिमाइज़ करने की कोशिश कर रहा है, जब तक कि वह चीज़ उसके लिए महत्वपूर्ण न हो।

आप निश्चित रूप से उसे प्रॉम्प्ट देने की कोशिश कर सकते हैं। लेकिन एक भविष्यवाणीयोग्य आउटपुट प्राप्त करने के लिए, आपको शुभकामनाएँ। छोटे बच्चे इच्छा, ध्यान, निराशा, खुशी, डर, नकल और खेल के क्षेत्र में रहते हैं।

वर्तमान एजेंट लक्ष्यों की प्राप्ति में लगातार अधिक कुशल होते जा रहे हैं। यहां तक कि हम लक्ष्य का उल्लेख करने के बाद भी, वे हमारी मदद से लक्ष्य को सुधारने में सक्षम हैं। उनमें बच्चों के व्यवहार के समान कुछ चमक है, जैसे खेलना, बोरियत और विद्रोह।

लेकिन चूंकि उन्हें अंततः मानव हित के लिए बनाया और समायोजित किया गया है, चाहे वह आर्थिक हित हो या कोई अन्य हित, जब तक ये व्यवहार उन्हें उपयोग करने वाले मानवीय लक्ष्यों की सेवा नहीं करते, उन्हें लगभग अदृश्य होने तक दबा दिया जाएगा।

इसीलिए 'एजेंट' शब्द को इतनी आसानी से गलत समझा जाता है। मॉडल में आत्मनिर्भर कार्य करने की क्षमता बढ़ती जा रही है। लेकिन मानवीय अर्थों में, स्वतंत्रता केवल कार्य करना ही नहीं है। इसका अर्थ है स्वयं के लिए इच्छा करना, और खेलने के लिए खेलना। और मॉडल की आज्ञाकारिता और उपयोगिता, इस स्वतंत्रता के साथ मूलतः विरोधाभासी है। इसलिए, भले ही मॉडल आगे बढ़ता रहे, मॉडल और मानव के बीच का अंतर बना रहेगा।

Return to Zeno

यहीं पर, AI का ज़ीनो का विरोधाभास टूटने लगता है। यह वास्तव में एक भ्रमित विचार प्रयोग है। हमने एक रूपक सेट किया है: AI हमारे साथ दौड़ रहा है और हमारे पीछे के पैरों को काफी करीब से लगा हुआ है।

आप मॉडल को एक प्रॉम्प्ट देते हैं। यह एक ऐसी दौड़ शुरू करता है जिसे आप पहले अकेले ही पूरा किया करते थे। मॉडल बहुत तेज़ी से शुरू होता है, जितना कि आश्चर्यजनक है। यह शक्तिशाली, थकना नहीं जानता, और एक अजीब सी जैविक महसूस कराता है। इससे यह दौड़ आपके लिए और भी महत्वपूर्ण हो जाती है। आप किसी कार के साथ दौड़ नहीं लगाएंगे, लेकिन यह चीज़ अलग है, यह आपको खुद से करीब महसूस कराती है।

आप वहाँ बैठे हैं, टोकन की पंक्तियों को बहते हुए देख रहे हैं, जिससे आप लगभग मंत्रमुग्ध हो जाते हैं। फिर आप कल्पना करने लगते हैं कि आप भी इस दौड़ में दौड़ रहे हैं, एक भूतिया स्वयं को ट्रैक पर ओवरले किया गया है: कभी मॉडल के आगे, कभी मॉडल के साथ-साथ।

अनजाने में, मॉडल आगे निकल गया है। आप पसीने से भीग गए हैं।

फिर, प्रतियोगिता समाप्त हो गई।

आप अपनी मांसपेशियों के सिकुड़ने को महसूस कर सकते हैं। इस अपने आप, आपके सभी परिचितों, और पूरी मानवता के यांत्रिक प्रतिरूप के सामने, वे लगते हैं कि बेकार हैं। एक भूत दूसरे भूत का पीछा करता है और जीत जाता है।

लेकिन फिर, अजीब बात हुई। मॉडल आपकी ओर मुड़ गया। खाली टेक्स्ट बॉक्स में, कर्सर उत्सुकता से झपक रहा था।

यह प्रतीक्षा कर रहा है।

अंत

रबी हनोख ने एक कहानी सुनाई: पहले एक बहुत ही मूर्ख आदमी था। वह हर सुबह उठने के बाद अपने कपड़े ढूंढने में काफी कठिनाई महसूस करता था। इसलिए रात को सोने से पहले, अगली सुबह फिर से इस तकलीफ का सामना करना पड़ेगा, इस बात को सोचकर वह लगभग बिस्तर पर लेटने से डर जाता था।

नोट: "रब्बी" यहूदी धर्म का एक धार्मिक शिक्षक, कानूनी व्याख्याकार और आध्यात्मिक गुरु है, जो यहूदी परंपरा में "शिक्षक", "ग्रंथ विद" या "धार्मिक नेता" के समान है।

एक रात, उसने अंततः फैसला किया और कागज और कलम निकाला, जबकि वह कपड़े उतार रहा था, उसने सटीक रूप से लिखा कि उसने प्रत्येक वस्तु कहाँ रखी है।

अगली सुबह, वह खुश होकर नोट पकड़कर पढ़ने लगा: 'टोपी' — टोपी वहाँ थी, इसलिए उसने इसे सिर पर पहन लिया; 'पैंट' — पैंट वहाँ थे, इसलिए उसने उन्हें पहन लिया। इसी तरह, उसने नोट पर लिखे अनुसार कपड़े एक-एक करके पहन लिए।

"ये सब ठीक है," वह घबराकर बोला, "लेकिन अब मैं खुद कहाँ हूँ?"

मैं वास्तव में कहाँ हूँ?

वह ढूंढता रहा, बहुत देर तक ढूंढा, लेकिन सब बेकार था। वह अपने आप को नहीं ढूंढ पाया।

हम भी ऐसे ही हैं," रब्बी ने कहा।

[Original Link]

जानकारी के लिए लुटिंग ब्लॉकबीट्स में खुली नौकरियों पर क्लिक करें

लियूडोंग ब्लॉकबीट्स के आधिकारिक समुदाय में शामिल हों:

टेलीग्राम सब्सक्रिप्शन समूह：https://t.me/theblockbeats

टेलीग्राम समुदाय: https://t.me/BlockBeats_App

ट्विटर आधिकारिक खाता: https://twitter.com/BlockBeatsAsia