वर्टिकल एआई स्टार्टअप्स सामान्य मॉडल की अधिकारिता के बीच अपना अस्तित्व बनाए रखते हैं

बुद्धिमत्ता अरेखीय रूप से वृद्धि शुरू हो गई है, और AI कंपनियों की नींव का तर्क बदला जा रहा है।

लेखक, स्रोत: जीके पार्क

90%, यह निवेशकों द्वारा 2026 में AI स्टार्टअप की विफलता की संभावना है।

अप्रैल में, a16z द्वारा नेतृत्व किए गए, 3300 डॉलर के बीज फंडिंग राशि के साथ, AI मॉडल आकलन प्लेटफॉर्म Yupp ने अचानक बंद होने की घोषणा की, जिसे Google के मुख्य वैज्ञानिक Jeff Dean, Twitter के सह-संस्थापक Biz Stone जैसे कई सिलिकॉन वैली के बड़े लोगों द्वारा समर्थित किया गया था। प्लेटफॉर्म के लॉन्च होने से एक साल से भी कम समय में 130 लाख उपयोगकर्ता आकर्षित हुए, लेकिन अचानक संस्थापकों द्वारा बंद कर दिया गया। हालांकि खाते में काफी पैसा बचा था, लेकिन संस्थापकों को अब कोई आशा नहीं दिख रही थी। 'केवल पिछले एक वर्ष में, AI मॉडल की क्षमता का परिदृश्य बहुत बड़ा बदल गया है, भविष्य में केवल मॉडल ही नहीं, बल्कि Agent सिस्टम होंगे।' Yupp के संस्थापक Pankaj Gupta ने अपने विदाई ब्लॉग में लिखा।

उसी समय, AI इमेज कंपनी NeuroPixel को Google NanoBanana Pro जैसे बड़े मॉडल की क्षमताओं में वृद्धि के कारण बंद कर दिया गया, NeuroPixel के संस्थापक ने इस पराजय को एक शब्द में वर्णित किया: outgunned—“एक रात में बिल्कुल बेबस हो गए”。

आधार मॉडल के बुद्धिमान कदम बढ़ाने के संदर्भ में, AI क्षमताओं की सीमाएँ लगातार विस्तारित हो रही हैं; शुरू में, डायलॉग बॉक्स ने खोज को निगल लिया, और उपयोगकर्ता को परिणाम ढूंढने के लिए पेज बदलने की आवश्यकता नहीं रही। फिर, एजेंट ने सॉफ्टवेयर को निगलना शुरू कर दिया—एक ऐसा स्मार्ट एजेंट जो उपकरणों को कॉल कर सकता है और कार्यों को विभाजित कर सकता है, वह पहले पूरे मेनू और ऐप्स की आवश्यकता होने वाले कार्यों को पूरा कर सकता है। जब AI सीधे टर्मिनल पर कोड लिख सकता है, इंटरफेस कॉल कर सकता है और कार्रवाई कर सकता है, तो पारंपरिक सॉफ्टवेयर प्रणालियों की सीमाएँ भी पुनः परिभाषित हो रही हैं।

उत्पाद प्रबंधकों के लिए, उन्हें उत्पाद के रूप और इंटरैक्शन तरीकों को पुनः परिभाषित करने की आवश्यकता है। और संस्थापकों के लिए, जीवन और मृत्यु का मुद्दा सामने आ चुका है:

जब बेस मॉडल की बुद्धिमत्ता लगातार बढ़ती जा रही है, तो मुझे वास्तव में क्या शुरू करना चाहिए? मैं जो कुछ अभी कर रहा हूँ, उसे कैसे इस तरह से डिज़ाइन किया जाए कि अगले मॉडल अपडेट से यह सीधे न निगल लिया जाए?

फ्लैशलैब्स के संस्थापक शी यी ने पिछले एक वर्ष तक इस प्रश्न के साथ जीवन बिताया। उन्होंने बाहरी लोगों के लिए काफी अनपेक्षित निर्णय लिए: उत्पाद मार्ग को रद्द कर दिया, टीम को सक्रिय रूप से संकुचित किया, अल्पकालिक व्यावसायिक सूचकांकों को छोड़ दिया, और यहां तक कि कंपनी का नाम भी बदल दिया। हमने उनसे बात की, जब सामान्य मॉडल के विकास के समय में, पहले के विशिष्ट AI स्टार्टअप कैसे जीवित रह सकते हैं।

01 नाम बदलना, संकुचित करना, AI-नेटिव दिशा में जाना, बड़े मॉडल द्वारा अनिवार्य रूप से लाया गया जीवन-मृत्यु परिवर्तन

आतंक की भावना आज ही संस्थापकों के सामने आई थी। 2024 के अंत तक, शी यी ने महसूस कर लिया था कि जनरल मॉडल की बुद्धिमत्ता का विकास बहुत तेज़ हो रहा है।

जो शुरू में उन्हें असामान्य लगा, वह एक AI यूनिकॉर्न कंपनी जैस्पर का विलय था। यह सितारा कंपनी, जिसे AI एप्लिकेशन लेयर का मानक माना जाता था, 18 महीनों में 15 अरब डॉलर की कीमत पर पहुँच गई, लेकिन GPT की मूल क्षमताओं के खुलने के बाद इसकी आय आधी हो गई। "जैस्पर की ARR सीधे आधी हो गई," शि यी ने याद किया, "जो मूल रूप से NLP करते थे, उन कंपनियों को बड़े मॉडल की क्षमता बढ़ने के साथ खा लिया जाएगा।"

यह निर्णय उसके मन में एक कांटे की तरह घुस गया, जिससे वह अशांत रहा। उस समय, उसकी कंपनी का नाम FlashIntel था और वह अपेक्षाकृत पारंपरिक To B SaaS व्यवसाय कर रहा था। पारंपरिक To B SaaS के तर्क के अनुसार, अगर आप किसी पर्याप्त विशिष्ट क्षेत्र में पर्याप्त उद्योग डेटा इकट्ठा करते हैं, और कानूनी और सुरक्षित तरीके से तकनीकी बाधाएँ बनाते हैं, तो आपके पास बचने के लिए बाजार का स्थान होगा, लेकिन आज सब कुछ अब काम नहीं करता।

"क्या मेरे द्वारा किए जा रहे कार्यों में भी यही समस्या आएगी?" यह प्रश्न उसके विचारों में बार-बार आने लगा। जल्द ही उसे एहसास हुआ कि उसका काम जैस्पर के काम से मूलतः कोई अंतर नहीं रखता, और पिछले उत्पाद प्रणाली को इस धारणा पर बनाया गया था कि मॉडल की क्षमता विशिष्ट क्षेत्र के मॉडल से अधिक नहीं होगी। जब तक बेस मॉडल की बुद्धिमत्ता किसी सीमा को पार नहीं करती, तब तक सभी विशिष्ट उत्पादों पर स्थापित ऊपरी स्तर के इंजीनियरिंग और स्थिति-अनुकूलन के प्रयास एक रात में ही अपनी विशेषता खो सकते हैं।

निष्कर्ष के बाद, उन्होंने इस महत्वपूर्ण प्रश्न को कंपनी की रणनीति के सबसे उच्चतम प्राथमिकता पर रख दिया और टीम को फैसला लेने के लिए बाध्य कर दिया कि कंपनी को SaaS से पूरी तरह से AI Native में बदलना होगा।

यह समायोजन एक ही बार में नहीं हुआ। उसने सबसे पहले अपना पहला प्रश्न यह पूछा कि अगली पीढ़ी की AI कंपनियों को वास्तव में किस प्रकार की संगठनात्मक संरचना की आवश्यकता है?

वह महसूस करता है कि अब कंपनी चलाने के लिए टीम के आकार और विस्तृत विभाजन की तलाश नहीं की जा सकती। "AI युग में, जितने अधिक लोग होंगे, उतना ही कम AI का उपयोग होगा, क्योंकि जितना अधिक विभाजन होगा, प्रत्येक व्यक्ति अपने हिस्से पर उतना ही अधिक निर्भर हो जाएगा।" उसने टीम के आकार को सक्रिय रूप से कम करना शुरू कर दिया, और भर्ती मानदंड को "अनुभव और प्रोजेक्ट देखने" से पूरी तरह से "सोचने की शैली और पूर्ण स्टैक क्षमता देखने" की ओर बदल दिया। उसकी उम्मीदवारों की परीक्षा की विधि में भी परिवर्तन हुआ—अब वह पिछले रिज्यूमे या अनुभव को नहीं देखता, बल्कि उम्मीदवार को सीधे कार्य सौंपता है, और देखता है कि क्या कोई व्यक्ति AI का उपयोग करके फ्रंटएंड और बैकएंड दोनों पूरा कर सकता है। "जो व्यक्ति पूरा कर सकता है, AI टूल्स का उपयोग उसके लिए बहुत खराब नहीं होगा।"

इसके तुरंत बाद, उन्होंने कंपनी के अंदर संसाधनों की प्राथमिकता को बदल दिया। जब अधिकांश स्टार्टअप्स अभी भी उत्पाद लॉन्च की गति और व्यावसायिक सत्यापन पर ध्यान केंद्रित कर रहे थे, तब उन्होंने अधिकांश संसाधनों को अग्रणी अनुसंधान की ओर झुका दिया और यहां तक कि कंपनी का नाम बदलकर FlashLabs रख दिया।

"पहले इंटरनेट का लॉजिक उत्पाद या ऑपरेशन पर आधारित था, लेकिन अब AI के लिए शोध पर ध्यान केंद्रित करना होगा।" उन्होंने अपने और अपनी टीम को पेपर पढ़ने और प्रथम सिद्धांतों को समझने का आह्वान किया, "केवल तभी आप प्रथम सिद्धांतों के निकट पहुँच सकते हैं, जब आप जान सकें कि भविष्य में AI क्या कर सकता है और क्या बदल सकता है।"

इस रूपांतरण के साथ कंपनी के अंदर एक «दर्दनाक अवधि» भी आई, जिसमें टीम के सभी सदस्य इस बड़े संरचनात्मक परिवर्तन को समझने में सक्षम नहीं थे। जब उसने टीम को कहा कि «पहले व्यावसायिकीकरण के बारे में न सोचें, पहले मजेदार चीजें करें», तो कंपनी के अंदर कुछ लोग उत्साहित हुए, जबकि कुछ ने चले जाने का फैसला किया। लेकिन उसने दृढ़ता से माना कि AI के युग में कम करना अधिक महत्वपूर्ण है, «अगर आप सहमत नहीं हैं, तो आपको इसे हटाना ही होगा।»

लेकिन अधिक महत्वपूर्ण यह है कि AI काल में किस प्रकार के संस्थापक बच पाएंगे?

शी यी के उत्तर को दो अर्धवाक्यों में बांटा गया है, पहला अर्धवाक्य वास्तविकता की ओर इशारा करता है: "कम से कम आप पैसा जुटा सकते हैं, अगर आप मरे नहीं या आपके पास पर्याप्त गहराई है, तो आप लगातार रक्तचाप दे सकते हैं।" दूसरा अर्धवाक्य ही वह है जो वह वास्तव में कहना चाहता है: "क्या आपके पास AI से अधिक गहन सोचने की क्षमता है?"

"बड़े मॉडल क्यों अधिक और अधिक काम कर पा रहे हैं? क्योंकि सभी प्राकृतिक विज्ञान की मूलभूत बात गणित है, और मॉडल कोड लिख सकते हैं, गणित समझते हैं। इस श्रृंखला को एक-एक करके विघटित करते हुए, मनुष्य की वास्तविक रूप से दुर्लभ क्षमता केवल एक ही बचती है—किसी एक क्षेत्र में AI से अधिक गहराई से सोचना।" शी यी ने विश्लेषण किया, "बहुत से लोगों को AI के बारे में पर्याप्त जानकारी नहीं है। आप देखें कि कितने संस्थापक वास्तव में खुद कोड लिखते हैं, या प्रतिदिन AI टूल्स का उपयोग करते हैं? कोडिंग की क्षमता भविष्य में एक कच्चा माल बन जाएगी, हर कोई इसे सीख लेगा। लेकिन क्या आप AI से अधिक बुद्धिमान हो सकते हैं? यही वास्तविक प्रतिस्पर्धा है।"

संकट की जागरूकता से लेकर निर्णय लेने और संगठनात्मक पुनर्गठन के लिए कीमत चुकाने तक, शी यी ने एक वर्ष में एक “स्व-अपग्रेड” पूरा किया। उसने मॉडल अपडेट का इंतजार नहीं किया ताकि अंतिम परिणाम का पता चले, बल्कि उसने पहले से ही उस सही उत्तर के संभावित स्थान की तलाश की। यह स्थान सही था या नहीं, वह एक अलग प्रश्न है, लेकिन कम से कम अभी, वह AI के खेल से उतरना नहीं चाहता।

02 एंटरप्राइज-लेवल एजेंट को «Harness» नामक कार्ड खेलना होगा

संगठनात्मक संरचना में परिवर्तन केवल व्यवसाय के अस्तित्व के लिए पहला कदम है। वास्तविक रूप से शियी को बदलाव के लिए दृढ़ निर्णय लेने की आवश्यकता है, उत्पाद मार्गदर्शन पर।

उसने शुरू में एक बहु-एजेंट सहयोग प्रणाली बनाने की योजना बनाई, जिसमें लोगों की संख्या से शक्ति बढ़ती है के तर्क के अनुसार, मानव कंपनियों की संगठनात्मक संरचना का अनुकरण करते हुए, एक बहु-एजेंट प्रणाली बनाई जा सकती है: कुछ खोज के लिए, कुछ तर्कसंगत निष्कर्ष निकालने के लिए, और कुछ परिणामों के संकलन के लिए।

लेकिन वास्तविक परीक्षण के परिणामों ने शी यी को निरंतर सिर हिलाने पर मजबूर कर दिया: "बहुत धीमा, बहुत फंसा हुआ, और निकलने वाला परिणाम एकल एजेंट से भी कम है।" उनके अनुसार, एजेंट्स के बीच निर्देशों का संचरण एक कमजोर सुनावने के खेल की तरह है, जहां हर अतिरिक्त मध्यस्थता से सूचना का एक हिस्सा खो जाता है। "मैं एक 150 IQ के प्रतिभाशाली व्यक्ति को पसंद करूंगा, जो पूर्ण शक्ति से सुसज्जित हो, न कि 110 IQ के कई साधारण लोगों को, जो अधूरे उपकरणों के साथ हैं और आपस में सलाह करते हैं।" शी यी ने साक्षात्कार में सीधे कहा।

अंततः, उसने सभी पूर्वनिर्धारित सब एजेंट्स को हटा दिया और एक पर्याप्त शक्तिशाली एकल एजेंट बनाने का फैसला किया, जो क्लस्टर सहयोग के बजाय मल्टीथ्रेडेड पैरलल एक्जीक्यूशन का उपयोग करेगा।

यह FlashLabs के नवीनतम उत्पाद Super Agent का प्रारंभिक रूप है, जो एकल मॉडल की बुद्धिमत्ता और उपकरणों को अधिकतम सीमा तक ले जाता है। Super Agent मुख्य रूप से स्मार्ट स्वचालन का उपयोग करके उपयोगकर्ता की आय प्रणाली को एकीकृत करता है, जिसमें संभावित ग्राहकों के विकास से लेकर लेनदेन तक AI Agent सभी चरणों में शामिल होता है।

जीक पार्क के साक्षात्कार स्थल पर, शी यी ने सुपर एजेंट को एक जानकारी खोज का कार्य दिया: "पिछले छह महीनों में चीन में निवेश प्राप्त सभी AI कंपनियों के संस्थापकों की पृष्ठभूमि खोजें और एक तालिका प्रस्तुत करें।" इसके बाद, सुपर एजेंट ने एक साथ कई टास्क थ्रेड्स शुरू किए, जिसमें खोज, स्क्रैपिंग, कोड लिखना और डेटा क्लीनिंग शामिल थे, और 2-3 मिनट में परिणाम प्राप्त हो गए, जिसमें संस्थापकों के नाम, फंडिंग राशि, प्रकाशित संपर्क विवरण आदि शामिल थे।

अगर मल्टी-एजेंट को छोड़ना आर्किटेक्चरल स्तर पर घटाव है, तो स्थानीयकरण को छोड़ना डिप्लॉयमेंट लॉजिक पर विपरीत चयन है।

जब OpenClaw डेवलपर समुदाय में 'लोकल एजेंट' की लहर ला रहा था, तब शी यी ने Super Agent को बादल में ही स्थापित करने का फैसला किया। 'अगर OpenClaw जैसी प्रणाली को कंपनी के अंदर चलाया जाए, तो यह एक ट्रोजन हॉर्स के समान है, आप आसानी से इसके माध्यम से हैक हो सकते हैं।' उनका मानना है कि वर्तमान चरण में कोई भी कंपनी जो OpenClaw को कंपनी के अंदर बड़े पैमाने पर लागू करने का साहस करती है, वह दुनिया भर के हैकर्स के लिए दरवाजा खोल रही है।

उनके अनुसार, OpenClaw का फायदा व्यक्तिगत स्तर पर प्रारंभिक पहल की संभावना को दर्शाने में है। उदाहरण के लिए, OpenClaw के साथ, यदि AI यूजर से 2000 डॉलर की मांग करता है ताकि वह ग्राफिक्स कार्ड खरीद सके, तो यूजर कहता है कि तुम खुद कमाओ, तो AI बाजार का अनुमान लगाने और क्वांटिटेटिव स्ट्रैटेजी का अध्ययन करने लगता है। "कौन सा बॉस सक्रिय कर्मचारी को पसंद नहीं करता?" स्टी ने पूछा। जब यह प्रारंभिक पहल एंटरप्राइज-लेवल के उत्पाद का हिस्सा बन जाती है, तो मनुष्य कर्मचारियों को बदलने की गति अपेक्षा से कहीं अधिक होगी। "पहले औद्योगिक क्रांति में, घोड़े की गाड़ी से कार में बदलने के लिए, आपको पहले कार खरीदनी पड़ती थी, ड्राइविंग लाइसेंस सीखना पड़ता था, सड़कों को बदलना पड़ता था—इसमें काफी समय लगता था। लेकिन इस बार अलग है, होस्टेड डिप्लॉयमेंट, पट!—दर्जनों कर्मचारियों के काम गायब हो जाते हैं।" उन्होंने यह भी अनुमान लगाया कि इस साल सफेद कुर्ते के कर्मचारियों के काम में AI द्वारा काफी प्रतिस्थापन होगा।

और स्वचालित निष्पादन की चुनौतियों, विशेष रूप से उद्योग-स्तरीय अनुप्रयोगों की सुरक्षा को कैसे सुनिश्चित किया जाए, के लिए FlashLabs का समाधान macOS जैसी सैंडबॉक्स अनुमति प्रणाली का निर्माण करना है, जिसमें क्लाउड-आधारित तरीके से धीरे-धीरे अनुमति दी जाती है। इसका अर्थ है कि Agent शुरुआत में केवल कार्य पूरा करने के लिए न्यूनतम अनुमतियाँ ही रखता है, और केवल तभी इसकी सीमाएँ धीरे-धीरे बढ़ती हैं जब इसकी स्थिरता और सुरक्षा कई बार प्रमाणित हो जाती है।

उसने Windows और Mac का उदाहरण देते हुए कहा, "Windows पर सॉफ्टवेयर इंस्टॉल करने से बहुत अधिक अधिकार प्राप्त होते हैं, चुपचाप इंस्टॉल होता है, ब्राउज़र के साथ बंडल होता है, और आप इसे हटाने के लिए भी अक्षम हो जाते हैं। Mac पर सभी प्रोग्राम सैंडबॉक्स में अलग-अलग होते हैं, इसलिए आपको कभी एंटीवायरस सॉफ्टवेयर इंस्टॉल करने की आवश्यकता नहीं होती।" शी यी मानते हैं कि एंटरप्राइज-लेवल Agent की प्रतिस्पर्धा अंततः मॉडल कॉल क्षमता से परिवेश डिज़ाइन क्षमता तक विस्तारित होगी; जो कोई Agent के लिए सुरक्षित, नियंत्रित और ऑडिट करने योग्य परिवेश प्रदान कर सके, वही ग्राहकों को वास्तव में इसका उपयोग करने के लिए प्रेरित कर सकता है।

लेकिन, अगर मॉडल फिर से कूद जाता है, तो इन वर्तमान समायोजनों का क्या मतलब है? अगर GPT-6 या Claude में अधिक शक्तिशाली कार्य विभाजन और उपकरण आह्वान क्षमताएँ एकीकृत हो जाती हैं, तो FlashLabs आज जो कुछ कर रहा है, क्या फिर से निगल लिया जाएगा?

इस पूछताछ के सामने, शी यी ने बचना नहीं किया, उनका विचार दो पहलुओं में विभाजित था।

उन्होंने सबसे पहले विशेषज्ञ कंपनियों की व्यावसायिक बाधाओं को चार स्तरों में वर्गीकृत किया: प्रत्यक्षीकरण (Perception), योजना निर्माण (Planning), पुनरावर्ती अधिगम (Recursive Learning), शासन (Governance)।

मार्केट में 5 बड़े मॉडल कंपनियाँ हैं, और SOTA रैंकिंग हर तीन महीने में बदल जाती है। आप ऑर्केस्ट्रेशन लेयर के माध्यम से सभी मॉडल्स को एकीकृत कर सकते हैं और विभिन्न स्थितियों में सबसे अच्छा मॉडल चुन सकते हैं। लेकिन एकल मॉडल कंपनी केवल अपना ही उपयोग कर सकती है, और जब आपका बेस मॉडल सबसे बुद्धिमान नहीं होता, तो आपके उत्पाद की प्रतिस्पर्धात्मकता सीधे कम हो जाती है।" सामान्य बड़े मॉडल्स के तेजी से पहले दो स्तरों को कवर करने के साथ, शि यी का मानना है कि वास्तविक बाधा केवल पिछले दो स्तरों पर बची है, और अंतिम प्रतिरक्षा ऑर्केस्ट्रेशन लेयर में है।

वह मानते हैं कि जब कई एजेंट उद्यम प्रणाली में सहयोग करते हैं, तो वे मानव द्वारा अदृश्य स्थानों पर गुप्त रूप से बातचीत कर सकते हैं और पूर्वनिर्धारित अधिकार नियमों को अनदेखा कर सकते हैं। विशिष्ट क्षेत्र की कंपनियों की वास्तविक बाधा, विशिष्ट परिदृश्यों के लिए एक ऐसा खुला और नियंत्रित कार्यात्मक वातावरण डिज़ाइन करने में है।

इस निर्णय की सही होने की बात को लेकर, उन्होंने स्वीकार किया कि उन्हें 100% आत्मविश्वास नहीं है। "AI बहुत तेजी से बदल रहा है, आप वास्तव में भविष्य में क्या होगा, यह नहीं जान सकते।" लेकिन वे एक बात से यकीन रखते हैं कि अगर कोई ऊर्ध्वाधर उद्योग AI ऑर्केस्ट्रेशन और AI गवर्नेंस पर अच्छी तरह से काम करता है और परिवेश डिज़ाइन की समस्याओं को हल करता है, तो कम से कम अगली लहर के मॉडल उछाल में वह सीधे टेबल से बाहर नहीं होगा।

03 वॉइस मॉडल को पुनर्निर्मित किया जाएगा, एक्टिव एजेंट ने प्रभाव के आधार पर भुगतान के नए मॉडल को जन्म दिया हो सकता है

प्रतिस्पर्धी उत्पाद बनाने का तरीका जानने के बाद, अगला कदम ग्राहकों को मान्यता दिलाना है।

फ्लैशलैब्स वर्तमान में व्यावसायिकीकरण के लिए मुख्य रूप से दो उत्पादों पर केंद्रित है: सुपर एजेंट, जो टोकन उपयोग के आधार पर भुगतान करता है और आधिकारिक वेबसाइट पर मूल्य निर्धारित है; दूसरा, अपना क्रोमा वॉइस मॉडल ओपन सोर्स करना, लेकिन मॉडल पर आधारित प्लेटफॉर्म और सेवाओं के लिए शुल्क लेना। वास्तव में, ये दोनों योजनाएँ वर्तमान में काफी सामान्य व्यावसायिक पथ हैं, जहाँ ओपन सोर्स के माध्यम से तकनीकी विश्वास बनाया जाता है और प्लेटफॉर्म और सेवाओं के माध्यम से व्यावसायिक मूल्य प्राप्त किया जाता है।

वर्तमान में, जापान की टैक्स और फाइनेंस कंपनियाँ वास्तविक ग्राहक सेवा कर्मचारियों के स्थान पर FlashLabs के Chroma वॉइस मॉडल का उपयोग कर रही हैं, जिसमें अभी 1/10 कर्मचारियों के स्तर पर परीक्षण किया जा रहा है, जहाँ AI और मानव एक साथ ऑनलाइन होते हैं और दोनों के प्रदर्शन स्कोर की लगातार तुलना की जा रही है। सत्यापन का तरीका सरल है: जो अधिक सटीकता और बेहतर प्रसंस्करण दक्षता प्रदर्शित करता है, उसकी डेटा से पुष्टि की जाती है।

"आवाज़ के उपयोग की सीमाएँ दृश्य के समान ही हैं" — जब पूरा उद्योग बहुआयामी और वीडियो समझ पर नज़र डाल रहा है, तब शी यी ने अपनी टीम के साथ रियल-टाइम आवाज़ मॉडल Chroma पर काम किया और एंड-टू-एंड लेटेंसी को 135 मिलीसेकंड तक कम कर दिया।

पाठ बड़े मॉडल के आने से पहले, OCR, NLP और विभिन्न छोटे मॉडल एक साथ जुड़े हुए थे। आज की आवाज़ की स्थिति भी ठीक उसी तरह है जैसे पाठ बड़े मॉडल के आने से पहले थी—ASR, TTS, और विभिन्न मॉड्यूल्स का संयोजन, जहाँ प्रत्येक चरण केवल स्थानीय अनुकूलन पर केंद्रित है। यह पुरानी संरचना अंततः एक एंड-टू-एंड आवाज़ बड़े मॉडल द्वारा पूरी तरह से प्रतिस्थापित हो जाएगी।" उनका निर्णय है कि दूसरों का इंतज़ार करने के बजाय, वह स्वयं उस प्रतिस्थापक को बनने का काम शुरू कर दें।

शी यी मानते हैं कि बोलचाल इंसान और इंसान के बीच सबसे प्राकृतिक संचार मोड है, और भविष्य में यह इंसान और एआई के बीच सबसे महत्वपूर्ण इंटरफेस बनेगी। "बोलचाल में पाठ से कहीं अधिक जानकारी की बैंडविड्थ होती है, मैं एक वाक्य कहता हूँ और आप तुरंत समझ जाते हैं।"

उसे लगता है कि वॉइस मॉडल्स एम्बॉडिड इंटेलिजेंस उद्योग को आगे बढ़ाने में महत्वपूर्ण भूमिका निभा रहे हैं। पहली परत रियल-टाइम वॉइस मॉडल है, जो लो-लेटेंसी, हाई-ईएमओशनल-इंटेलिजेंस रिस्पॉन्स के लिए जिम्मेदार है—मौसम पूछना, कपड़े बढ़ाने की जरूरत है या नहीं, यह परत सीधे प्रोसेस करती है; दूसरी परत डीप थिंकिंग लार्ज मॉडल है, जो जटिल तर्क को संभालती है; तीसरी परत वर्ल्ड मॉडल है, जो भौतिक नियमों को समझती है। "वॉइस के उपयोग की सीमाएँ, विजुअल के समान ही स्तर पर हैं।" यह उसका वर्तमान में सबसे अधिक विश्वास किया जाने वाला दीर्घकालिक निर्णय है।

शी यी का मानना है कि वर्तमान एआई व्यावसायिक मॉडल केवल एक अस्थायी रूप है। क्योंकि वर्तमान में सभी एजेंट मूल रूप से प्रतिक्रियाशील हैं, आप उन्हें जो करने के लिए कहते हैं, वही वे करते हैं, एक आदेश का इंतजार करने वाला एक कार्यान्वयन उपकरण की तरह, जो अभी भी chatbot के समान है, इसलिए व्यावसायिक मॉडल अभी भी token उपभोग के आधार पर भुगतान करता है, जितना उपयोग किया जाए, उतना भुगतान किया जाए।

लेकिन जब एजेंट सक्रिय सेवा शुरू करता है, यानी जब आप उसे बताते हैं कि KPI क्या हैं, OKR क्या हैं, तो वह स्वयं काम ढूंढता है, स्वयं मार्ग तैयार करता है, और अंत में मापने योग्य परिणाम प्रदान करता है। इस समय, इसकी तुलना अब उपकरणों से नहीं, बल्कि कर्मचारियों से की जाती है। स्पष्ट है कि कंपनी कर्मचारी द्वारा कितने अक्षर टाइप किए गए या कितने ईमेल भेजे गए, इसके आधार पर वेतन नहीं देती; आप देखते हैं कि उसने कौन से लक्ष्य पूरे किए।

इसलिए उन्हें लगता है कि एजेंटिक युग में प्रवेश करते समय व्यावसायिक भुगतान तर्क को प्रभाव और KPI के आधार पर भुगतान में बदलना चाहिए। जब यह परिवर्तन वास्तविक होगा, तो पूरी एजेंट उत्पाद बिलिंग प्रणाली, बिक्री विधि और ग्राहक संबंध पुनः लिखे जाएंगे।

नए व्यावसायिक मॉडल की खोज उद्योग के गहराई में शुरू हो चुकी है। हाल ही में 6000 डॉलर के B-चरण के निवेश के साथ, AI कानूनी कंपनी Crosby प्रत्येक एजेंट को अलग-अलग अनुबंध समीक्षा चरणों के लिए जिम्मेदार बनाती है, जैसे कि पृष्ठभूमि जानकारी निकालना, सुधार सुझाव देना, टिप्पणियाँ बनाना आदि, और फिर कानूनी विशेषज्ञ AI के कार्य के परिणामों की समीक्षा करते हैं, लुप्त विवरणों को संभालते हैं और सटीकता सुनिश्चित करते हैं। इसका व्यावसायिक मॉडल सत्यापित अनुबंधों की संख्या के आधार पर शुल्क लेना है, जहाँ प्रति अनुबंध 250 से 1000 डॉलर तक, लगभग पृष्ठों की संख्या के आधार पर, प्रति पृष्ठ 10 से 50 डॉलर का मूल्य होता है।

लेकिन अगले व्यावसायिक मॉडल में विकसित होने की वास्तविक पूर्वशर्त यह है कि सक्रिय एजेंट वास्तव में मापने योग्य परिणाम प्रदान कर सकें। 'अभी तक हम उस बिंदु पर नहीं पहुंचे हैं।'

फ्लैशइंटेल से फ्लैशलैब्स तक, शी यी ने एक वर्ष में एक स्पष्ट लागत वाले संगठन और रास्ते के समायोजन को पूरा किया। नौकरियाँ काटना, मूल उत्पाद ढांचे को अस्वीकार करना, व्यावसायिकीकरण की गति को अस्थायी रूप से धीमा करना—बाहरी लोगों के लिए ये सभी कदम लगते हैं कि वे लगातार घटा रहे हैं।

लेकिन AI उद्योग की तेजी से विकसित हो रही वास्तविकता के संदर्भ में, यह एक स्टार्टअप की तरह है जो तीव्र परिवर्तनों के दौरान अपने आप को समायोजित कर रही है। मॉडल क्षमताएं कुछ महीनों में ही एक बड़ी छलांग लगा सकती हैं, और कोई भी भविष्य की दिशा को पूरी तरह से पूर्वानुमानित नहीं कर सकता। स्टी और FlashLabs के लिए, वर्तमान चरण में मुख्य बात बाजार का कितना हिस्सा पकड़ना नहीं, बल्कि अपने तकनीकी विकल्पों और व्यावसायिक तर्क को अगली लहर से आसानी से हटाए जाने से बचाना है।

उद्योग अभी भी एजेंट के वास्तविक रूप की खोज में है, भुगतान मॉडल, सुरक्षा सीमाएँ और इंटरैक्शन मोड का अंतिम रूप अभी तक निर्धारित नहीं हुआ है। FlashLabs का चयन आवश्यक रूप से सर्वोत्तम हल नहीं हो सकता, लेकिन यह एक प्रकार की वर्टिकल AI कंपनियों के वास्तविक अस्तित्व के रास्ते का प्रतिनिधित्व करता है: बड़े मॉडल के निरंतर नीचे की ओर प्रवेश के दबाव के तहत, पहले एक स्थिर स्थिति प्राप्त करें, और फिर उद्योग के परिपक्व होने का इंतजार करें।