परिचय: जब AI क्षमताएं लगातार उछलती रहती हैं, तो निवेश समुदाय में एक नया निराशावादी मूल्यांकन उभर रहा है: यदि मॉडल लगातार अधिक शक्तिशाली होते जा रहे हैं, तो सभी एप्लिकेशन कंपनियाँ अंततः Anthropic, OpenAI, Nvidia जैसी मॉडल और कैलकुलेशन स्तरों द्वारा निगल ली जाएंगी, और बाजार में केवल अग्रणी मॉडल, कैलकुलेशन और कुछ बुनियादी ढांचे ही बचेंगे। लेकिन सैरा गुओ का मानना है कि यह मूल्यांकन केवल आधा सही है। वे «thin wrapper» (पतला आवरण, यानी मॉडल का सरल आवरण) वास्तव में अवशोषित हो जाएंगे, और जो कार्य सभी benchmark (बेंचमार्क) से मापे जा सकते हैं, सार्वजनिक डेटा से प्रशिक्षित किए जा सकते हैं, और कम लागत से सत्यापित किए जा सकते हैं, वे धीरे-धीरे कमोडिटी में परिवर्तित हो जाएंगे।
वास्तविक प्रश्न यह है: AI द्वारा सभी प्रशिक्षणयोग्य चीजों को निगल लिए जाने के बाद, क्या अभी भी प्रशिक्षणयोग्य नहीं है?
इस प्रश्न का उत्तर उन मूल्यों में है जो वास्तविक संगठनों के भीतर मौजूद होते हैं और जिन्हें बाहर से आसानी से नकल नहीं किया जा सकता: व्यावसायिक निजी डेटा, जटिल कार्य प्रवाह, उपयोगकर्ता विश्वास, सिस्टम अधिकार, उद्योग की निर्णय क्षमता, अनुपालन की जिम्मेदारी, और लंबे समय तक संचालन में जमा हुई अनुभव। मॉडल अधिक बुद्धिमान हो सकते हैं, लेकिन वे स्वयं बैंक के उत्पादन प्रणाली में प्रवेश नहीं कर सकते; वे चिकित्सा उत्तर उत्पन्न कर सकते हैं, लेकिन डॉक्टरों के विश्वास और अस्पताल की निर्णय प्रक्रिया को सीधे प्राप्त नहीं कर सकते; वे कानूनी पाठ लिख सकते हैं, लेकिन अनुभवी वकीलों की जिम्मेदारी को स्वीकार नहीं कर सकते और न ही स्वयं से परिभाषित कर सकते हैं कि कानूनी कार्य किसे माना जाए।
इसलिए, भविष्य की वास्तविक रक्षात्मक दीवार वाली AI कंपनियाँ बस सामान्य मॉडल से अधिक बुद्धिमान नहीं होंगी, बल्कि किसी विशिष्ट उद्योग के भीतर गहराई से घुसकर कठिन लेकिन महत्वपूर्ण 'अनुवाद' का कार्य पूरा करेंगी: ग्राहकों के निजी वास्तविकता, उपकरण, प्रक्रियाओं और निर्णय मानदंडों को ऐसे सिस्टम में संगठित करना जिसे मॉडल कार्रवाई कर सके, और दीर्घकालिक सेवा के दौरान धीरे-धीरे 'अच्छा परिणाम' की परिभाषा लिखते जाएँ। AI जितना अधिक शक्तिशाली होगा, उतना ही मापने योग्य, पुनरावृत्ति योग्य कार्यों का मूल्य कम होता जाएगा; और इतिहास, संबंध, अधिकार और पेशेवर निर्णय से जुड़े 'अनुकूलनयोग्य नहीं' चीजों को और अधिक प्रकट करेगा। यही मॉडल के निगल जाने के बाद भी संभवतः बचे रहने वाला वास्तविक मूल्य है।
निम्नलिखित मूल पाठ है:
2026 के मध्य में, AI पागलपन का निवेशक संस्करण, एक ऐसी निराशा है जिसमें लगता है कि अब कुछ भी निवेश के लायक नहीं है: हमें लगता है कि हमें सारा पैसा Anthropic और Nvidia में लगा देना चाहिए, और घर चले जाना चाहिए। लेकिन मुझे कभी ऐसा महसूस नहीं हुआ। पिछले कई छोटे संस्करणों से, मुझे यकीन है कि मॉडल मुझसे अधिक बुद्धिमान हो चुके हैं; अगर मैं Anthropic और Nvidia को बाजार की कीमत पर खरीदूं, तो मुझे बहुत खुशी होगी; मेरे पास सबसे बुद्धिमान दोस्त भी काफी आत्मविश्वास से मानते हैं कि मॉडल का स्वयं सुधार जल्द ही सचमुच काम करने लगेगा—लेकिन मुझे अभी भी यह निराशा महसूस नहीं होती।
यह निराशा बुद्धिहीन नहीं है। इसका तर्क ऐसा है: यदि मॉडल हर चीज में लगातार मजबूत होता रहता है, तो मॉडल पर आधारित सभी कंपनियाँ केवल मॉडल द्वारा अवशोषित होने का इंतजार कर रही पतली छिलके की तरह हैं; अंततः केवल कैलकुलेशन क्षमता और अग्रणी मॉडल वेट्स ही बचेंगे।
एक सॉफ्टवेयर के उदाहरण के साथ, यह निराशा की भावना का सबसे अधिक आधारित मामला है। जब 2024 में डेविन लॉन्च हुआ, तो यह मानक सॉफ्टवेयर बेंचमार्क में केवल 13% कार्यों को हल कर पाया, इसलिए बाजार द्वारा लगभग नजरअंदाज कर दिया गया। एक और डेढ़ साल बाद, सबसे शक्तिशाली एजेंट 80% से अधिक के उच्च स्कोर प्राप्त करने लगे हैं और गोल्डमैन सैक्स और अमेरिकी सेना के भीतर वास्तविक कार्यों को संभालना शुरू कर चुके हैं। लगभग सभी ने एक ही गलत निष्कर्ष पर पहुँचना शुरू कर दिया: मॉडल ने सॉफ्टवेयर इंजीनियरिंग को निगल लिया।
लेकिन जब मॉडल ने सॉफ्टवेयर इंजीनियरिंग के सबसे आसानी से मापे जा सकने वाले हिस्से को निगल लिया, तो हमने कई टीमों को पहले से ही जानने वाली बात को फिर से समझा: इंजीनियरिंग मूल रूप से हमेशा से मापने का विरोध करती रही है, और सबसे आसानी से मापे जा सकने वाले हिस्से एकमात्र महत्वपूर्ण हिस्सा नहीं होते।
MIT के मर्ट डेमिरर और उनके सहयोगियों ने अंततः इसे मापा है: 100,000 से अधिक डेवलपर्स में, नवीनतम पीढ़ी के कोडिंग एजेंट ने कोड लिखने की मात्रा में लगभग 180% की वृद्धि की, लेकिन वास्तविक रूप से लाइव किए गए कोड में केवल लगभग 30% की वृद्धि हुई। कोड लिखना सस्ता हो गया है, लेकिन शेष चरणों के लिए अभी भी मानव हस्तक्षेप की आवश्यकता है, और ये चरण महत्वपूर्ण हैं। निश्चित रूप से, कुल शुद्ध प्रभाव अभी भी आश्चर्यजनक है।
बेंचमार्क एक ऐसी चीज है जिसे आप माप सकते हैं; और जिसे भी मापा जा सके, उसे प्रशिक्षित किया जा सकता है। इसलिए, कोडिंग एजेंट सबसे पहले परिपक्व होते हैं: कंपाइलर मुफ्त वैलिडेटर हैं, और टेस्ट सूट भी मुफ्त वैलिडेटर हैं। जब उत्तर की स्व-जांच लगभग शून्य लागत पर संभव हो, तो आप इस जांच सिग्नल के चारों ओर इतना सुधार कर सकते हैं कि इसे पूरी तरह से पार कर जाएं।
लेकिन परीक्षण से गुजरना इस बात का अर्थ नहीं है कि यह परिवर्तन एक दशक से अधिक समय से चल रहे कोडबेस के लिए सही है। उस मॉड्यूल के मौजूद होने के पीछे शायद तीन कारण हैं जिन्हें किसी ने दस्तावेज़ में नहीं लिखा है; डिप्लॉयमेंट पाइपलाइन संभवतः एक क्रॉन जॉब पर निर्भर है जिसे कोई भी अपना नहीं मानना चाहता।
इस सटीकता को रैंकिंग सूची से नहीं पढ़ा जा सकता, और न ही किसी भी चीज़ से सीधे पढ़ा जा सकता है। आपको एक इतने जटिल प्रणाली को वास्तविक दुनिया में काफी लंबे समय तक चलाना होगा, ताकि आप जान सकें कि क्या यह वास्तव में कारगर है। और अधिक बुद्धिमान मॉडल, वास्तविक दुनिया को तेज़ नहीं बनाते। कोई भी Google जैसे विशाल प्रणाली के लिए यूनिट टेस्ट चलाकर, हरे टिक मार्क देखकर पूरी तरह से विश्वास नहीं करता। आप इस पर इतना विश्वास करते हैं क्योंकि यह कई सालों तक वास्तविक लोड का सामना कर चुका है।
यह सटीकता केवल निजी नहीं है, बल्कि एक धीमे से विकसित होने वाली रक्षा है, जिसे पूंजी सीधे समय को संकुचित नहीं कर सकती। यहां तक कि सकारात्मक दृष्टिकोण रखने वाले भी मानते हैं कि यह घड़ी कूद नहीं सकती। OpenAI के निष्कर्ष मॉडल के प्रारंभिक विकासकर्ता नोम ब्राउन ने हाल ही में लिखा: "एजेंट के प्रदर्शन का एक वर्ष की अवधि में एकमात्र विश्वसनीय तरीका संभवतः इसे वास्तव में एक वर्ष तक चलाना है।"
गेब पेरेयरा के शब्दों में, वास्तविक स्वचालन केवल इतना नहीं है कि मॉडल मजबूत हो जाएं। यह उत्पाद, मॉडल, कार्यप्रवाह और कंपनी संगठन के साथ-साथ बदलाव है, और इन चारों में से तीन कंपनी की गति से आगे बढ़ते हैं।
让人行动起来,是任何基准测试都无法触及的部分:说服一位持怀疑态度的合伙人改变她处理事务的方式,让一支团队在重建过程中保持凝聚力。这也是为什么我们在招聘 CEO 时,重视其处理人的能力,至少不亚于分析能力。模型变得更聪明,并不会改变这一权重。
यहाँ फीडबैक अस्पष्ट है, समय अवधि वर्षों में है, और विश्वास किसी विशिष्ट व्यक्ति से संबंधित है। मुझे जिन कंपनियों की पहचान है, उन सभी ने प्रत्येक इंजीनियर को अग्रणी कोडिंग मॉडल का उपयोग करने की अनुमति दे दी है, लेकिन किसी भी कंपनी का इंजीनियरिंग संगठन मॉडल की प्रगति के समान गति से नहीं बदला है। उपकरणों को अपनाने में केवल एक तिमाही लगा, और वह कितना अद्भुत तिमाही था token वृद्धि का! लेकिन वास्तविक पुनर्निर्माण में कई वर्ष लगते हैं।
देखा जा सकने वाले कार्य चले जा रहे हैं। वास्तविक रूप से मूल्यवान कार्य संरचनात्मक रूप से अपठनीय होते हैं: जो कुछ भी आप रैंकिंग पर डाल सकते हैं, उसे प्रशिक्षित किया जा सकता है; इसलिए, जो कुछ भी मापा जा सकता है, वह पहले से ही वस्तु की ओर बढ़ रहा है। यह प्रक्रिया समय लेती है और कभी पूरी तरह से पूर्ण नहीं होती, लेकिन दिशा कभी पलटती नहीं है।
मेरे दोस्त, रिप्लिंग के मैट मैकिन्निस के शब्दों में, इसे पैसे की भाषा में बदलें: एक टोकन जो केवल एक सामान्य प्रश्न का उत्तर देने के लिए है, लगभग कुछ भी नहीं है, क्योंकि किसी भी किसी का मॉडल उसका उत्तर दे सकता है; लेकिन एक टोकन जो आपके कंपनी के डेटा पर निष्कर्ष निकालता है, वह काफी मूल्यवान है, क्योंकि यह आपके वास्तविक इच्छित कार्य को करता है, सिर्फ एक तर्कसंगत लगने वाला उत्तर उत्पन्न नहीं करता।
Readable work will be swallowed from both directions.
नीचे से देखें तो, कार्य संतृप्त हो जाएंगे: जब कोई कार्य कम लागत पर जांचा जा सकता है, तो खरीददार इस बात पर ध्यान नहीं देते कि इसे कौन सा मॉडल पूरा कर रहा है, बल्कि वे शुरू कर देते हैं कि इसकी कीमत क्या है। इसलिए, यह कार्य सप्ताह के सबसे सस्ते ओपन सोर्स मॉडल या डिस्टिलेटेड मॉडल के पास चला जाता है। जब तक लाभमार्जिन काम करते हैं, अंततः वे जरूर काम करेंगे।
ऊपर से देखने पर, प्रयोगशाला मॉडल को अपने स्कैफोल्ड को निगलने की कोशिश कर रही है। रिट्रीवल, सस्ते और महंगे कॉल के बीच रूटिंग, टूल उपयोग, और यहां तक कि निष्कर्षण रणनीति—जो सब कुछ पहले मॉडल के बाहर लिपटा हुआ था—वह सब मॉडल वेट्स के भीतर खींचा जा रहा है, जब तक कि 'कवच' स्वयं मॉडल नहीं बन जाता। यही अवशोषण सीमा है।
लाभ का दबाव दूसरी दिशा से भी काम करता है: एक सामान्य एजेंट को हमेशा किसी भी चीज़ को संभालने के लिए तैयार रहना पड़ता है, इसलिए इसकी लागत अधिक होती है; जबकि एक केंद्रित एप्लिकेशन एक वर्कफ्लो को बेहतरीन ढंग से अनुकूलित कर सकता है, जिससे केवल थोड़े ही टोकन का उपयोग होता है। और, इन टोकन को बेचने वाले प्रयोगशालाओं के विपरीत, एप्लिकेशन कंपनियाँ मध्यवर्ती अंतर को अपने पास रख सकती हैं।
इसलिए, हम किसी भी कार्य के लिए दो प्रश्न पूछ सकते हैं: क्या इसकी सहीता निजी और महंगी है, और क्या यह केवल किसी कंपनी के डेटा के भीतर अस्तित्व में रहने वाला सत्य है? क्या इसे एक ऐसे सिस्टम में अलग कर दिया गया है जिसमें बाहरी लोगों के लिए पहुँच नहीं है? इन प्रश्नों को कार्य की संतृप्ति के साथ जोड़कर, हमें एक 2×2 मैट्रिक्स प्राप्त होती है।
जो कार्य संतृप्त हो चुके हैं और उनके उत्तर सार्वजनिक हैं, वे वस्तु-रूपी टोकन के क्षेत्र हैं, जिन पर ओपन सोर्स मॉडल हावी हो जाएंगे। अग्रणी लेकिन उत्तर सार्वजनिक कार्य, जैसे कोडिंग बेंचमार्क, उन स्थानों पर होंगे जहाँ प्रयोगशालाएँ जीतेंगी, क्योंकि जब मूल्यांकन मुफ्त होता है, तो उसे हासिल करना स्वयं मूल्यहीन हो जाता है।
असली पुरस्कार, अंतिम कोना है, जिसे "अनुकूलित नहीं किया जा सकता" कहा जाता है: अग्रणी कार्य, लेकिन उनकी सहीता केवल निजी परिवेश में मौजूद होती है। आप इसे AI-नेटिव प्रथम आविष्कारकों के लिए सेवा प्रदान करने वाले रीजनिंग क्लाउड पर देख सकते हैं: अधिकांश टोकन कस्टम मॉडल द्वारा उत्पन्न किए जाते हैं, न कि सामान्य ओपन-सोर्स मॉडल द्वारा।
इस अंतिम कोने तक पहुँचने की दीवारें ऊँची और नीची हैं। एक डेवलपर का टूल कोड बेस चलाने योग्य और मानकीकृत होता है, इसलिए अंदर घुसना आसान है। लेकिन एक बैंक की उत्पादन प्रणाली चलाने योग्य और मानकीकृत नहीं होती। आप SWE-Bench Verified पर 2% स्मार्ट होने से इसका root अधिकार प्राप्त नहीं करते।
क्षमता कई चीजों को निगल जाएगी, लेकिन बेहतर मॉडल निजी वास्तविक मानकों को जनता के मानकों में नहीं बदलेगा। यह लाइसेंस नहीं रखता, जिम्मेदारी के लिए हस्ताक्षर नहीं करता, और कंपनी के दस्तावेज़ों का मालिक नहीं है; जब उत्तर गलत होता है, तो इसे कानूनी जिम्मेदारी का सामना करना नहीं पड़ता। यहाँ संकट बुद्धिमत्ता नहीं, बल्कि अधिकार और जिम्मेदारी है। आप एक ऐसे मॉडल की कल्पना कर सकते हैं जो किसी से भी कहीं अधिक बुद्धिमान है, लेकिन फिर भी इसे प्रवेश करने की अनुमति मिलनी होगी, और इसके कार्यों के लिए किसी को अपना हस्ताक्षर करना होगा।
उस दरवाजे पर एक ताला और एक बार है।
वह ताला परिस्थिति है: आप केवल तभी सत्यापित कर सकते हैं कि AI वास्तव में उपयोगी काम कर रहा है, जब आपने एक प्रणाली के भीतर विश्वास प्राप्त कर लिया हो, सुरक्षा समीक्षा पूरी कर ली हो, एकीकरण पूरा कर लिया हो, और परिणामों की जिम्मेदारी वाला अनुबंध पर हस्ताक्षर कर लिए हों।
उस ताला का उपयोगकर्ता है। आजकल, अधिकांश अमेरिकी डॉक्टर रोज़ाना OpenEvidence खोलते हैं, जिसे कोई भी कंप्यूटेशनल पावर खरीद नहीं सकती। एक प्रयोगशाला कल ही एक आदर्श चिकित्सा मॉडल ट्रेन कर सकती है, लेकिन फिर भी वह डॉक्टरों की उपयोग की आदतों और UCSF की निर्णय प्रक्रिया में प्रवेश नहीं कर सकती। क्योंकि विश्वास धीरे-धीरे, संबंधों और उपयोगकर्ता के सहमति से बनता है, ग्रेडिएंट डिसेंट से इन्हें मिटाकर नहीं।
यही एप्लिकेशन कंपनियों का काम है। एक एप्लिकेशन उन अनुकूलित नहीं किए जा सकने वाले कोनों में स्थान पाता है, जिसमें वे अपनी कंपनी के निजी वास्तविकता को व्यवस्थित करते हैं, ताकि मॉडल उस पर आधारित कार्रवाई कर सके; मॉडल को कार्रवाई के उपकरण प्रदान करते हैं; और ग्राहकों के साथ मिलकर उनकी श्रमशक्ति के वास्तविक संचालन को बदलते हैं।
ऐसी 「अनुवाद」 करने में सक्षम कंपनी को नकल करना मुश्किल है, और यह अनुवाद कभी समाप्त नहीं होगा। एकीकरण और रखरखाव ग्राहक संबंधों के साथ जारी रहेगा। इसमें जीतने वाले वे टीमें होती हैं जो क्षेत्र-विशेषज्ञ इंजीनियरों और उपकरणों को ग्राहक के पास रखती हैं।
उदाहरण के लिए, एक शीर्ष स्तरीय पुराने समय के कानूनी फर्म में, केवल एकीकरण और अधिग्रहण के कार्य ही हर साल लगभग हजारों लेनदेन करते हैं। आप नहीं कर सकते कि सैकड़ों वकील सहायक अपने डेस्कटॉप पर ग्राहक के दस्तावेज़ डाउनलोड करें और फिर एक सामान्य एजेंट को उन्हें पढ़ने के लिए दें। गोपनीयता के कारण ऐसा करना ही असंभव है, और इसके अलावा दर्जनों अन्य समस्याएँ हैं। यहां तक कि अगर ऐसा करना संभव होता, तो आपको मिलने वाली जानकारी केवल टुकड़े-टुकड़े होती: एक सहायक एक बार में एक छोटा सा सुधार करता है, कोई भी पूरे लेनदेन की प्रवाह प्रक्रिया को नहीं देख पाता।
सच्चे महत्वपूर्ण संकेत व्यापार के स्तर पर मौजूद होते हैं। एक व्यापार की अपनी आकृति होती है: एमएए के लिए, यह NDA, शर्तों की सूची, ड्यू डिलिजेंस, खरीद समझौता, सहायक दस्तावेज, और बंदोबस्त सूची होती है; बौद्धिक संपदा मुकदमे के लिए, यह अनुरोध, जानकारी का आदान-प्रदान, पूर्वतः प्रचलित प्रौद्योगिकी, और अधिक अनुरोध होते हैं। प्रत्येक व्यापार क्षेत्र की अपनी संरचना होती है, जिसमें वकील और उपकरण आज़ादी से बदले नहीं जा सकते।
लेकिन इस कानूनी फर्म को हल करने की वास्तविक चुनौती और भी ऊपर है: कैसे प्रत्येक व्यावसायिक क्षेत्र को एक साथ चलाया जाए, जैसे कि टॉप पार्टनर सैकड़ों मामलों का समानांतर प्रबंधन करते हुए नए मामले आकर्षित करें और सहायक वकीलों को प्रशिक्षित करें। ऐसी कंपनी को बदलना एक ऐसी समस्या नहीं है जिसे आप केवल एक परीक्षण कार्य के रूप में लिख सकते हैं। इसके लिए एक ऑपरेटर की आवश्यकता होती है, जो इसे "डेटा बेसबॉल" की तरह संभाले: मध्यवर्ती लक्ष्य अत्यंत अस्पष्ट होते हैं, प्रतिक्रिया अपूर्ण होती है, चक्र बहुत लंबे होते हैं, और परिवेश स्वयं स्थिर नहीं होता।
दुर्भाग्यवश, अपठनीय मूल्य को बेचना भी कठिन है, क्योंकि इसका व्यावसायिक रूपांतरण कठिन होने का कारण ही यही है: एक कंपनी बाहरी रूप से निर्धारित नहीं कर सकती कि AI वास्तव में बेंचमार्क दर्शाते हुए उसके संचालन को कैसे बदल सकता है। इसलिए, सबसे मजबूत कंपनियाँ बाहरी साबित करने की कोशिश करना बंद कर देती हैं और बजाय इसके, ग्राहकों के अंदर प्रवेश करती हैं और परिणामों के लिए मूल्य निर्धारित करती हैं।
सिएर्रा केवल तभी शुल्क लेती है जब इसका एजेंट ग्राहक की समस्या को हल कर देता है; यदि समस्या मानव को सौंप दी जाती है, तो यह शुल्क नहीं लेती। इसलिए, मूल्य स्वयं एक मूल्यांकन तंत्र बन जाता है। और यह इसलिए काम करता है क्योंकि सिएर्रा के पास 'हल हो चुका' की परिभाषा का अधिकार है। सॉफ्टवेयर क्षेत्र में Cognition के डेविन ने इसी तरह 'प्रदर्शन गारंटी' लॉन्च की। केवल तभी आप इस प्रकार की गारंटी प्रदान करने के पात्र होते हैं जब आपको प्रणाली के अंदर विश्वास के साथ प्रवेश करने की अनुमति मिलती है।
यहां तक कि टोकन सेवा के स्तर पर—जिसे सभी साधारण वस्तु कहते हैं—इसका व्यवहार वस्तु की तरह नहीं है। सर्वश्रेष्ठ एआई-नेटिव कंपनियां सेवाओं को एक या दो आपूर्तिकर्ताओं पर केंद्रित करती हैं, जैसे Baseten या Fireworks। क्योंकि प्रति टोकन लागत समय के साथ वस्तु की ओर बढ़ेगी, लेकिन वास्तविक ट्रैफ़िक के तहत विश्वसनीयता और दुर्लभ कैलकुलेशन पर स्थिर पहुंच वस्तु नहीं होगी। निष्कर्षण सेवा कहां प्रदान की जाए, और कौन से मॉडल का उपयोग किया जाए, यह दो अलग-अलग चयन हैं। निष्कर्षण में एकमात्र वास्तविक रूप से वस्तु की तरह हिस्सा, कीमत है।
एक सामान्य आपत्ति है: लैब आपका आपूर्तिकर्ता है, तो यह अपने स्वयं के प्रथम पक्ष उत्पाद को लागत से कम मूल्य पर बेचकर आपको बाहर नहीं निकाल सकता? या सीधे आपकी API तक पहुँच रद्द करके इस बाजार को अपने हाथ में नहीं ले सकता? यही वास्तविक निराशा का संस्करण है। लेकिन यह केवल तभी सत्य है जब मॉडल स्तर पर एकल-खिलाड़ी का खेल हो।
स्पष्ट रूप से, ऐसा नहीं है। मॉडल स्तर एक तीन और आधे खिलाड़ियों की मृत्यु प्रतियोगिता की तरह है, जिसके पास लगभग छह महीने पीछे रह गए अंतरराष्ट्रीय खिलाड़ी हैं, और पिछले साल की तुलना में पांच गुना बड़ा विकास लीग है। ग्राहक अपने आपूर्तिकर्ताओं के बीच प्रतिस्पर्धा चाहते हैं, और प्रयोगशालाएं किसी विशिष्ट एप्लिकेशन को मारने के बजाय मार्केट शेयर चाहती हैं।
आप इसे लैब के सामने के प्रतिस्पर्धी बाजार में देख सकते हैं। उपभोक्ता चैट स्थितियों में, सर्वश्रेष्ठ मॉडल कभी सरलता से पूरे बाजार को नहीं जीतते। ChatGPT ने कई वर्षों तक वास्तविक प्रतिस्पर्धा में अग्रणी स्थिति बनाए रखी है; इसका जो हिस्सा अब खोया जा रहा है, वह Gemini की ओर जा रहा है, और कारण Android और सर्च की वितरण क्षमता है, न कि मॉडल की बेहतरी। Anthropic को वर्तमान में प्रेडिक्शन मार्केट और इंटरनेट के माहौल में सर्वश्रेष्ठ मॉडल रखने वाला माना जाता है, लेकिन यह उपभोक्ता चैट में लगभग मुख्य खिलाड़ी नहीं है, बल्कि यह उद्योग और कोडिंग स्थितियों में अपना कारोबार स्थापित कर चुका है।
अगर एक बेहतर मॉडल अपने सबसे मूलभूत अनुप्रयोग में प्रतिद्वंद्वी के उपयोगकर्ताओं को नहीं ले सकता, तो यह किसी अस्पताल के मरीज के रिकॉर्ड सिस्टम या किसी बैंक की जिम्मेदारी प्रणाली को एकीकृत करके आसानी से नहीं जीत सकता। आज, जनता उत्पाद का चयन करने के लिए केवल कोडिंग क्षमता ही नहीं, बल्कि अन्य कारकों पर भी निर्भर करती है। यदि अग्रणी मॉडल स्तर अभी भी भीड़भाड़ वाला है, तो उसके ऊपर का एप्लिकेशन स्तर मूल्यवान होगा।
यदि किसी कार्य का बाहरी रूप से मूल्यांकन नहीं किया जा सकता, तो आंतरिक रूप से किसी को यह तय करना होगा कि अच्छा उत्तर क्या है। और यह निर्णय, पूरा खेल ही है। इस तरह के पर्याप्त निर्णयों को लिख लिया जाए, तो वे बेंचमार्क बन जाएंगे। हैरवे ने कानूनी क्षेत्र के लिए बेंचमार्क प्रकाशित किया, सिएरा ने वॉइस एजेंट के लिए बेंचमार्क प्रकाशित किया। आपको एक क्षेत्र में 'अच्छा' का अर्थ परिभाषित करने का अधिकार इसलिए मिला है, क्योंकि यह क्षेत्र पहले से ही आपका उपयोग कर रहा है। और ये कंपनियाँ, वास्तविक अपनाने की प्रक्रिया में कठिन संघर्षों से इस अधिकार को प्राप्त करती हैं।
निर्धारित करने वाला वास्तविक मूल्यांकन, निजी और प्रति कंपनी आधारित है: इस कंपनी के लिए, इस मामले में, क्या एक अच्छा काम माना जाएगा। और यह मामला अभी तक पूरा नहीं हुआ है, क्योंकि कानून की गहराई किसी भी सार्वजनिक परीक्षण से कहीं अधिक है। OpenEvidence यह समझ रहा है कि सुरक्षित नैदानिक उत्तर क्या हैं।
यह सब वास्तव में किसी भी तरह का «मापन» नहीं है, बल्कि यह यह निर्णय करने के बारे में है कि क्या सच है और क्या अच्छा है। इन निर्णयों को लिखा जाता है, जब तक कि वे दूसरों द्वारा स्वीकार किए जाने वाले मापदंड नहीं बन जाते। चाहे बेस मॉडल लैब कितना भी बुद्धिमान क्यों न हो, यह इन मापदंडों को खाली से नहीं लिख सकता, क्योंकि ऐसी स्थिति केवल क्षेत्र के भीतर ही मौजूद होती है।
ऐसी अधिकारिता अक्सर उसी स्थान पर पड़ती है जहाँ वह मूल रूप से मौजूद होती है। अनुभवी वकील कानूनी मानक तैयार करते हैं। सुरक्षित चिकित्सा उत्तर की परिभाषा डॉक्टर द्वारा निर्धारित की जाती है। 'हल किया गया' का क्या अर्थ है, इसका निर्णय उस कंपनी द्वारा किया जाता है जिसके पास पहले से ही ग्राहक संबंध हैं।
अवशोषण सीमा आगे बढ़ती रहेगी, क्योंकि हम लगातार अधिक कार्यों को मापने का तरीका सीखते रहेंगे, और जो कुछ मापा जा सकता है, वह निगल लिया जाएगा। अनुकूलनयोग्य भूमि उस पर खड़े लोगों के नीचे लगातार सिकुड़ती रहेगी, इसलिए आप किसी एक सुरक्षित स्थिति को पाकर रुक नहीं सकते। आपको लगातार उन क्षेत्रों की ओर बढ़ते रहना होगा जिन्हें अभी तक मूल्यांकन नहीं किया जा सकता, और लगातार पुनः बीमा करते रहना होगा, जोखिम का पुनः मूल्यांकन करते रहना होगा।
एक संकीर्ण कार्य पर, अपने निजी डेटा और अपने स्वयं के मूल्यांकन प्रणाली के साथ, आप अग्रणी स्तर तक प्रशिक्षित कर सकते हैं और महत्वपूर्ण परिदृश्यों में सामान्य मॉडल को हरा सकते हैं; यह विशिष्ट मॉडल सुरक्षा का एक हिस्सा बन जाएगा। दूसरी ओर, यदि आप सामान्य मॉडल क्षमताओं पर प्रतिस्पर्धा कर रहे हैं, तो यह एक पूंजी युद्ध है, और आप उन लोगों को हार जाएंगे जिनके पास सबसे अधिक कैलकुलेशन क्षमता है। यही वह जाल है जिसमें केवल सतही पहुंच और अत्यधिक पठनीय कार्यों वाली कंपनियां सबसे आसानी से फंस जाती हैं।
जब कोई कंपनी अपने अस्तित्व के लिए एक विशाल सामान्य कार्य पर अग्रणी मॉडल से अधिक क्षमता वाला मॉडल ट्रेन करने का फैसला करती है, तो विजय आमतौर पर डेटासेंटर के आकार से तय हो जाती है। अंतिम परिणाम अक्सर एक स्वतंत्र विजेता का उभार नहीं, बल्कि किसी अपर्याप्त कैलकुलेशन संसाधन वाले खिलाड़ी को बेचना होता है।
ये सभी रक्षात्मक हैं। अधिक कठिन बात है आक्रमण: सबसे पहले यह तय करना कि आखिरकार क्या बनाना है। यही वह चीज़ है जिसे मैंने इस साल पूरी तरह ढूंढ़ने की कोशिश की है, और मुझे शायद केवल तीन बार ही मिली। मॉडल इस मामले में कोई मदद नहीं कर सकता। आप इसे कहाँ इशारा करते हैं, वही करता है; लेकिन यह आपको यह नहीं बता सकता कि क्या इशारा करने लायक है। आप इसके लिए कोई बेंचमार्क नहीं बना सकते, और इसलिए इसे प्रशिक्षित नहीं कर सकते।
इसीलिए बड़े खिलाड़ी सब कुछ नहीं ले जाएंगे: वे अपने पहले से कब्जा किए गए क्षेत्र को बनाए रखेंगे, और अगली चीज किसी ऐसे व्यक्ति से आएगी जिसने दूसरों से पहले इसका उपयोग खोज लिया हो। शायद, इरादा गणना क्षमता से अधिक दुर्लभ एक इनपुट है।
इस निराशा का आधा हिस्सा सही है। पतली छिलके की परत वास्तव में अवशोषित हो रही है, और आज जो बहुत सारी चीजें कंपनी जैसी दिखती हैं, वे वास्तव में केवल पतली छिलके हैं। लेकिन यह निर्णय कि "अवशोषण के बाद क्या बचता है" — यह गलत है। क्रियाविधि स्पष्ट है, लेकिन अंत नहीं।
मैं इस दिशा में बेट लगाने को तैयार हूँ: बुद्धि अधिक से अधिक सस्ती होती जाएगी, जबकि मूल्य उन कुछ मॉडल्स तक नहीं पहुँचेगा जो असमर्थ होंगे। अनुक्रमणीय चीजें, ऐतिहासिक मूल्य वाली होती हैं।
इसलिए, इनमें से किसी एक क्षेत्र में प्रवेश करें, उन अनाकर्षक अनुवाद कार्यों को करें, और फिर वहाँ "अच्छे" की परिभाषा लिखना शुरू कर दें। क्योंकि कोई न कोई ऐसा करेगा ही। इस साल सबसे अधिक संदर्भित बेंचमार्क स्कोर, वास्तव में एक ऐसा नक्शा है जो जल्द ही बेकार हो जाएगा, और एक सूचना है: कुछ लोगों को यह सूचित करने के लिए कि वे अब "अच्छे" की परिभाषा देने का अधिकार खोने वाले हैं।
[原文链接]
Lüdong BlockBeats
