डेमिस हैसाबिस पर एजीआई टाइमलाइन, वैज्ञानिक उपलब्धियों और डीपमाइंड के भविष्य के बारे में

संगठित और संकलित: शेनचाओ टेकफ्लो

अतिथि: डेमिस हसाबिस (डीपमाइंड के संस्थापक, 2024 के नोबेल पुरस्कार विजेता रसायन विज्ञान, Google DeepMind के प्रमुख)

होस्ट: गैरी तन

पॉडकास्ट स्रोत: Y Combinator

डेमिस हैसबिस: एजेंट, एजीआई और अगला बड़ा वैज्ञानिक उपलब्धि

ब्रॉडकास्ट समय: 29 अप्रैल, 2026

एडिटर्स नोट

गूगल डीपमाइंड के सीईओ और नोबेल पुरस्कार विजेता डेमिस हसाबिस ने Y Combinator में आमंत्रित होकर AGI तक पहुँचने के लिए कौन से महत्वपूर्ण प्रगति कदम आवश्यक हैं, उद्यमियों के लिए अग्रणी बने रहने की सलाह, और अगला बड़ा वैज्ञानिक उपलब्धि कहाँ हो सकता है, इन विषयों पर चर्चा की। गहन प्रौद्योगिकी उद्यमियों के लिए सबसे व्यावहारिक निर्णय यह है कि यदि आप आज एक दशक के गहन प्रौद्योगिकी प्रोजेक्ट की शुरुआत करते हैं, तो आपको AGI के आगमन को अपनी योजना में शामिल करना होगा। इसके अलावा, उन्होंने Isomorphic Labs (DeepMind से स्पिनऑफ हुई AI-फार्मा कंपनी) के आगामी महत्वपूर्ण समाचार का खुलासा किया।

शीर्ष उद्धरण

AGI रोडमैप और टाइमलाइन

इन वर्तमान तकनीकी घटकों में से लगभग सभी AGI के अंतिम आर्किटेक्चर का हिस्सा बन जाएंगे।
"लगातार सीखना, दीर्घकालीन तर्क, और स्मृति के कुछ पहलुओं की समस्याएँ अभी तक हल नहीं हुई हैं, AGI को सभी को सुलझाना होगा।"
अगर आपकी AGI टाइमलाइन मेरी तरह लगभग 2030 है, और आज आप एक डीप टेक प्रोजेक्ट शुरू कर रहे हैं, तो आपको इस बात को ध्यान में रखना चाहिए कि AGI रास्ते में आ जाएगी।

Memory and Context Window

कॉन्टेक्स्ट विंडो लगभग कार्य स्मृति के समान है। मानव कार्य स्मृति का औसतन केवल सात अंक होते हैं, जबकि हमारे पास लाखों या करोड़ों टोकन की कॉन्टेक्स्ट विंडो है। लेकिन समस्या यह है कि हम सब कुछ अंदर भर देते हैं, जिसमें अप्रासंगिक और गलत जानकारी भी शामिल है, और वर्तमान में यह दृष्टिकोण काफी अव्यवस्थित है।
अगर आप रियल-टाइम वीडियो स्ट्रीम को प्रोसेस करना चाहते हैं और सभी टोकन को स्टोर करना चाहते हैं, तो एक मिलियन टोकन केवल लगभग 20 मिनट के लिए काफी होंगे।

तर्क की कमी

मैं जेमिनी के साथ शतरंज खेलना पसंद करता हूँ। कभी-कभी यह एक खराब चाल होने का एहसास करता है, लेकिन बेहतर चाल नहीं ढूंढ पाता, और एक चक्र पूरा करने के बाद फिर से उसी खराब चाल को ही करता है। लेकिन एक सटीक तर्क प्रणाली में ऐसा नहीं होना चाहिए।
यह एक ओर आईएमओ स्वर्ण पदक स्तर के प्रश्नों को हल कर सकता है, दूसरी ओर अगर प्रश्न को अलग तरह से पूछा जाए तो यह प्राथमिक स्तर की गणित की गलतियाँ कर देता है। अपनी विचार प्रक्रिया के आत्म-निरीक्षण में, ऐसा लगता है कि कुछ कम है।

एजेंट और रचनात्मकता

AGI प्राप्त करने के लिए, आपको एक ऐसा सिस्टम चाहिए जो आपके लिए सक्रिय रूप से समस्याओं का समाधान कर सके। एजेंट वह रास्ता है, और मुझे लगता है कि हम केवल शुरुआत कर रहे हैं।
मैंने अभी तक किसी के द्वारा vibe coding का उपयोग करके एप स्टोर चार्ट में शीर्ष स्थान पर पहुंचने वाला एक 3A गेम नहीं देखा है। वर्तमान में लगाए गए प्रयासों के आधार पर, यह संभव होना चाहिए, लेकिन अभी तक ऐसा नहीं हुआ है। इससे पता चलता है कि उपकरणों या प्रक्रियाओं में कुछ कमी है।

Distillation and Small Models

हमारी धारणा है कि एक अग्रणी Pro मॉडल के लॉन्च होने के छह महीने से एक साल के भीतर, इसकी क्षमता बहुत छोटे, एज डिवाइस पर चलने वाले मॉडल में संकुचित हो जाएगी। वर्तमान में हमने तकनीकी सूचना घनत्व की सीमा तक नहीं पहुंचा है।

Scientific Discovery & the "Einstein Test"

मैं कभी-कभी इसे "आइंस्टीन टेस्ट" कहता हूँ, यानी क्या 1901 के ज्ञान के साथ एक सिस्टम को ट्रेन किया जा सकता है, और फिर उसे स्वतंत्र रूप से 1905 में आइंस्टीन द्वारा किए गए परिणामों, जिसमें विशेष सापेक्षता शामिल है, को निकालने की अनुमति दी जा सकती है। एक बार जब यह संभव हो जाए, तो ये सिस्टम वास्तविक रूप से कुछ नया आविष्कार करने के करीब पहुँच जाएँगे।
एक मिलेनियम प्राइज समस्या को हल करना ही काफी अद्भुत है। लेकिन इससे भी कठिन यह है कि क्या आप एक नई मिलेनियम प्राइज समस्याओं की सेट तैयार कर सकते हैं, जो शीर्ष गणितज्ञों द्वारा समान रूप से गहरी और एक जीवन भर अध्ययन के लायक मानी जाएं?

डीप टेक स्टार्टअप सुझाव

कठिन सवालों और आसान सवालों को पूछना असल में लगभग एक जैसा है, बस कठिनाई का तरीका अलग है। जीवन बहुत छोटा है, इसलिए अपनी ऊर्जा उन कामों पर लगाएं जो आप नहीं करेंगे तो कोई और नहीं करेगा।

AGI का लक्ष्य पथ

गैरी तन: आपने AGI के बारे में लगभग सभी से अधिक समय तक सोचा है। वर्तमान परिप्रेक्ष्य को देखते हुए, आपको लगता है कि हमने AGI की अंतिम आर्किटेक्चर का कितना हिस्सा प्राप्त कर लिया है? अभी क्या मूलभूत रूप से अनुपलब्ध है?

डेमिस हैसबिस: बड़े पैमाने पर प्री-ट्रेनिंग, RLHF, थिंकिंग चेन आदि—मुझे बहुत यकीन है कि ये सभी AGI के अंतिम आर्किटेक्चर का हिस्सा बनेंगे। इन तकनीकों ने आज तक बहुत कुछ साबित कर दिया है। मुझे कल्पना भी नहीं होती कि दो साल बाद हमें पता चलेगा कि ये एक मृत पथ है, यह मेरे लिए समझ में नहीं आता। लेकिन मौजूदा चीजों के ऊपर, शायद अभी एक-दो चीजें और कम हैं—लगातार सीखना (continual learning), दीर्घकालिक तर्क (long-term reasoning), स्मृति के कुछ पहलू, और कुछ समस्याएँ अभी अनसुलझी हैं। AGI को सभी को सुलझाना होगा। शायद मौजूदा तकनीकों में कुछ धीमी प्रगति के साथ ही इस स्तर तक पहुँचा जा सकता है, लेकिन शायद अभी भी एक-दो बड़े महत्वपूर्ण बिंदुओं को पार करना होगा। मुझे लगता है कि यह एक-दो से अधिक नहीं होगा। मेरा व्यक्तिगत अनुमान है कि क्या ऐसी अनसुलझी महत्वपूर्ण बातें हैं—इसकी संभावना लगभग 50-50 है। इसलिए Google DeepMind में, हम दोनों मार्गों पर काम कर रहे हैं।

गैरी तान: मैं एजेंट सिस्टम के साथ काम करता हूँ, और मुझे सबसे आश्चर्यजनक बात यह है कि नीचे की स्तर पर हमेशा एक ही वजन आते-जाते रहते हैं। इसलिए निरंतर सीखने की अवधारणा विशेष रूप से दिलचस्प है, क्योंकि अब हम लगभग कागज़ की टेप से अस्थायी रूप से जोड़ रहे हैं, जैसे कि उन "रात्रि स्वप्न चक्र" जैसी चीज़ें।

डेमिस हैसाबिस: हाँ, वे सपनों के चक्र काफी दिलचस्प हैं। हम पहले से ही स्थितिजन्य स्मृति के एकीकरण पर इस समस्या पर विचार कर रहे थे। मेरी डॉक्टरेट की शोध गतिविधि यह थी कि हिप्पोकैम्पस कैसे नए ज्ञान को पहले से मौजूद ज्ञान की प्रणाली में सुंदरता से शामिल करता है। मस्तिष्क इसमें अत्यधिक कुशल है। यह प्रक्रिया नींद के दौरान, विशेष रूप से REM नींद (REM sleep) के दौरान, महत्वपूर्ण अनुभवों को पुनः चलाकर सीखने के लिए पूरी करता है। हमारा सबसे पहला Atari प्रोग्राम, DQN (DeepMind द्वारा 2013 में प्रकाशित डीप क्यू नेटवर्क, जो पहली बार डीप रिइनफोर्समेंट लर्निंग का उपयोग करके Atari गेम में मानव स्तर की प्रदर्शन क्षमता प्राप्त करता है), Atari गेम्स को सीखने का एक महत्वपूर्ण तरीका अनुभव पुनर्खेल (experience replay) था। यह न्यूरोसाइंस से प्रेरित था, जहाँ सफल मार्गों को बार-बार पुनः चलाया जाता है। यह 2013 की बात है, जो AI के क्षेत्र में प्राचीन काल मानी जाती है, लेकिन उस समय यह बहुत महत्वपूर्ण था।

मैं आपके साथ सहमत हूँ, अब हम वास्तव में टेप के साथ सब कुछ चिपका रहे हैं। सब कुछ कॉन्टेक्स्ट विंडो में भर रहे हैं। यह ठीक नहीं लग रहा है। भले ही हम जीवित मस्तिष्क के बजाय मशीनें बना रहे हों, जिनके पास सैकड़ों मिलियन या अरबों कॉन्टेक्स्ट विंडो हो सकती हैं, और स्मृति पूर्ण हो सकती है, लेकिन खोजने और पुनः प्राप्त करने की लागत अभी भी मौजूद है। इस क्षण में, जहाँ विशिष्ट निर्णय लेने की आवश्यकता है, सभी चीजों को संग्रहीत करने के बावजूद, वास्तविक रूप से संबंधित जानकारी को ढूँढना आसान नहीं है। इसलिए मुझे लगता है कि स्मृति के क्षेत्र में अभी भी बहुत सारी नवाचार की संभावनाएँ हैं।

गैरी तान: सच बताऊं तो, मिलियन टोकन का कॉन्टेक्स्ट विंडो मेरी उम्मीद से काफी बड़ा है, और इससे कई काम किए जा सकते हैं।

डेमिस हैसबिस: अधिकांश उपयोग के मामलों के लिए यह पर्याप्त बड़ा है। लेकिन सोचिए, संदर्भ खिड़की लगभग कार्य स्मृति के समान है। मानव कार्य स्मृति औसतन केवल सात अंकों की होती है, जबकि हमारे पास लाखों या करोड़ों के संदर्भ खिड़की स्तर हैं। समस्या यह है कि हम इसमें सब कुछ भर देते हैं, जिसमें अप्रासंगिक और गलत जानकारी भी शामिल है, और वर्तमान में यह दृष्टिकोण काफी अव्यवस्थित है। और यदि आप वास्तविक समय वीडियो स्ट्रीम को संसाधित करना चाहते हैं, तो सभी टोकन को साधारणतया रिकॉर्ड करने पर, एक मिलियन टोकन केवल लगभग 20 मिनट के लिए पर्याप्त होते हैं। लेकिन यदि आप चाहते हैं कि प्रणाली आपके एक-दो महीने के जीवन की स्थिति को समझे, तो यह अभी भी पर्याप्त नहीं है।

गैरी तन: डीपमाइंड ने हमेशा रिइनफोर्समेंट लर्निंग और सर्च में गहरी निवेश किया है, इस दर्शन को आप अब जेमिनी बनाने की प्रक्रिया में कितना गहराई से शामिल कर रहे हैं? क्या रिइनफोर्समेंट लर्निंग अभी भी कम मूल्यांकित है?

डेमिस हैसाबिस: संभवतः वास्तव में कम मूल्यांकित किया गया है। इस क्षेत्र में रुचि उतार-चढ़ाव के साथ रही है। हमने DeepMind की स्थापना के पहले दिन से ही एजेंट सिस्टम पर काम किया है। आटारी और अल्फागो पर किए गए सभी कार्य, मूल रूप से रिइनफोर्समेंट लर्निंग एजेंट हैं, जो स्वतंत्र रूप से लक्ष्य प्राप्त करने, निर्णय लेने और योजना बनाने में सक्षम होते हैं। निश्चित रूप से हमने तब गेमिंग क्षेत्र का चयन किया, क्योंकि इसकी जटिलता नियंत्रित थी, और फिर हमने अधिक जटिल गेम्स पर काम किया, जैसे कि AlphaGo के बाद AlphaStar, जिसमें हमने लगभग सभी संभव गेम्स को कवर कर लिया।

अगला सवाल यह है कि क्या हम इन मॉडल्स को केवल गेम मॉडल्स के बजाय विश्व मॉडल या भाषा मॉडल के रूप में सामान्यीकृत कर सकते हैं। पिछले कुछ वर्षों से हम इसी पर काम कर रहे हैं। आज के सभी अग्रणी मॉडल्स की सोचने की प्रक्रिया और चिंतन श्रृंखला तर्क, मूल रूप से AlphaGo द्वारा पहली बार शुरू किए गए विचारों की वापसी है। मुझे लगता है कि हमने उस समय जो काम किया, वह आज के संदर्भ में अत्यधिक संबंधित है, और हम उन पुराने विचारों को, मोंटे कार्लो ट्री सर्च (Monte Carlo tree search) सहित विभिन्न प्रवर्धन सीखने की विधियों के साथ, बड़े पैमाने और अधिक सामान्य तरीके से पुनः देख रहे हैं। AlphaGo और AlphaZero के विचार आज के बेस मॉडल्स के साथ अत्यधिक संबंधित हैं, और मुझे लगता है कि आगामी कुछ वर्षों में प्रगति का एक बड़ा हिस्सा इसी से आएगा।

Distillation and Small Models

गैरी तान: अब अधिक बुद्धिमान बनने के लिए बड़े मॉडल की आवश्यकता होती है, लेकिन एक साथ विद्युतीकरण तकनीक भी विकसित हो रही है, छोटे मॉडल काफी तेज हो सकते हैं। आपका Flash मॉडल बहुत मजबूत है, यह लगभग अग्रणी मॉडल के 95% परिणाम प्राप्त कर सकता है, लेकिन कीमत केवल दसवां हिस्सा है। क्या ऐसा है?

डेमिस हैसबिस: मुझे लगता है कि यह हमारा एक मुख्य लाभ है। आपको अग्रणी क्षमताएँ प्राप्त करने के लिए सबसे बड़ा मॉडल बनाना होगा। हमारा एक मुख्य लाभ यह है कि हम उन क्षमताओं को तेजी से विलीन करके और छोटे-छोटे मॉडल में संकुचित कर सकते हैं। विलीनीकरण की यह प्रक्रिया मूल रूप से हमारे द्वारा विकसित की गई थी, और हम अभी भी विश्व के शीर्ष हैं। इस कार्य को करने के लिए हमारे पास मजबूत व्यावसायिक प्रेरणा भी है। हम शायद विश्व के सबसे बड़े AI अनुप्रयोग प्लेटफॉर्म हैं। AI Overviews और AI Mode, और Gemini के साथ, Google का प्रत्येक उत्पाद, जिसमें मैप्स, YouTube आदि शामिल हैं, Gemini या संबंधित प्रौद्योगिकी को एकीकृत कर रहा है। इसमें अरबों उपयोगकर्ता और कई अरब-स्तरीय उपयोगकर्ता वाले उत्पाद शामिल हैं। उन्हें अत्यधिक तेज, अत्यधिक कुशल, अत्यधिक कम लागत, और अत्यधिक कम लेटेंसी होनी चाहिए। इससे हमें Flash और छोटे Flash-Lite मॉडल को अत्यधिक कुशल बनाने के लिए भारी प्रेरणा मिलती है, और मुझे आशा है कि यह अंततः उपयोगकर्ताओं के सभी कार्यों को सेवा प्रदान करेगा।

गैरी तान: मुझे जिज्ञासा है कि ये छोटे मॉडल वास्तव में कितने बुद्धिमान हो सकते हैं। डिस्टिलेशन की कोई सीमा है? 50B या 400B के मॉडल क्या आज के सबसे बड़े अग्रणी मॉडल के जितने बुद्धिमान हो सकते हैं?

डेमिस हैसाबिस: मुझे लगता है कि हम अभी तक सूचना सिद्धांत की सीमा तक नहीं पहुंचे हैं, कम से कम अभी तक किसी को नहीं पता कि हम उस सीमा तक पहुंच गए हैं या नहीं। शायद किसी दिन हमें किसी सूचना घनत्व की सीमा का सामना करना पड़ेगा, लेकिन अभी हमारी मान्यता यह है कि एक अग्रणी Pro मॉडल के लॉन्च के छह से बारह महीनों के भीतर, इसकी क्षमता को बहुत छोटे, लगभग किसी एज डिवाइस पर चलाए जा सकने वाले मॉडल में संपीड़ित कर दिया जा सकता है। आप इसे Gemma मॉडल पर भी देख सकते हैं, हमारा Gemma 4 मॉडल समान आकार में बहुत मजबूत प्रदर्शन करता है। इसमें बड़ी मात्रा में डिस्टिलेशन तकनीकों और छोटे मॉडल की दक्षता में सुधार की तकनीकों का उपयोग किया गया है। इसलिए मुझे कोई सैद्धांतिक सीमा नहीं दिख रही है, मुझे लगता है कि हम उस सीमा से बहुत दूर हैं।

गैरी तन: अभी एक बहुत अजीब घटना हो रही है, जिसमें इंजीनियर जितना काम कर सकते हैं, वह छह महीने पहले की तुलना में 500 से 1000 गुना अधिक है। इस कमरे में कुछ लोग लगभग 2000 के दशक के एक Google इंजीनियर के 1000 गुना काम कर रहे हैं। स्टीव येग्ग ने इसके बारे में बात की है।

डेमिस हैसबिस: मुझे बहुत उत्साहित लग रहा है। छोटे मॉडल के कई उपयोग हैं। एक तो लागत कम होती है, और तेज़ी से काम करने से भी फायदा मिलता है। कोड लिखने या अन्य कार्यों में, आप विशेषकर सिस्टम के साथ सहयोग करते समय तेज़ी से इटरेट कर सकते हैं। तेज़ सिस्टम, भले ही यह सबसे अग्रणी न हो, जैसे कि केवल अग्रणी का 90% से 95% हो, लेकिन यह पूरी तरह से पर्याप्त है, और आप इटरेशन की गति में प्राप्त किए गए लाभ उस 10% से कहीं अधिक होते हैं।

एक अन्य प्रमुख दिशा इन मॉडल्स को एज डिवाइसेस पर चलाना है, जो केवल कुशलता के लिए ही नहीं, बल्कि गोपनीयता और सुरक्षा के लिए भी है। विभिन्न अत्यंत निजी जानकारी को संसाधित करने वाले डिवाइसेस और रोबोट्स के बारे में सोचिए; आपके घर के रोबोट के लिए, आप चाहेंगे कि एक कुशल और शक्तिशाली मॉडल स्थानीय रूप से चले, और केवल विशिष्ट परिदृश्यों में ही कार्य को क्लाउड-आधारित मॉडल को सौंपा जाए। ऑडियो और वीडियो स्ट्रीम स्थानीय रूप से संसाधित होते हैं, और डेटा स्थानीय रूप से रहता है—मैं कल्पना कर सकता हूँ कि यह एक उत्तम अंतिम स्थिति होगी।

याददाश्त और तर्क

गैरी तन: संदर्भ और स्मृति पर वापस जाएं। मॉडल वर्तमान में अवस्थाहीन है, अगर इसमें निरंतर अधिगम क्षमता होती, तो डेवलपर्स का अनुभव कैसा होता? आप ऐसे मॉडल को कैसे निर्देशित करेंगे?

डेमिस हैसाबिस: यह एक बहुत दिलचस्प सवाल है। वर्तमान एजेंट्स के पूर्ण कार्य पूरा करने में असमर्थता का एक मुख्य बाधा निरंतर अध्ययन की कमी है। वर्तमान एजेंट्स कार्य के आंशिक पहलुओं के लिए उपयोगी हैं, आप उन्हें जोड़कर कुछ बहुत शानदार चीजें कर सकते हैं, लेकिन वे आपके विशिष्ट परिवेश के साथ अच्छी तरह से अनुकूलित नहीं हो सकते। यही कारण है कि वे अभी भी 'लॉन्च और भूल जाएं' के रूप में काम नहीं कर सकते, उन्हें आपके विशिष्ट परिदृश्य को सीखने की आवश्यकता है। पूर्ण सामान्य बुद्धिमत्ता प्राप्त करने के लिए, इस समस्या का समाधान किया जाना आवश्यक है।

गैरी तन: निष्कर्ष निकालने में कहाँ तक पहुँच गए हैं? मॉडल की अब तर्कशक्ति बहुत मजबूत है, लेकिन कुछ ऐसी गलतियाँ अभी भी करता है जो एक बुद्धिमान अंडरग्रेजुएट नहीं करता। किन बातों को बदलने की आवश्यकता है? निष्कर्ष निकालने में आप किस प्रकार की प्रगति की उम्मीद करते हैं?

डेमिस हैसाबिस: विचार प्रणाली में अभी भी बहुत सारी नवीनता का स्थान है। हम जो कर रहे हैं, वह अभी भी काफी कच्चा और काफी बलपूर्वक है। इसमें कई सुधार के दिशानिर्देश हो सकते हैं, जैसे कि विचार श्रृंखला की प्रक्रिया का निगरानी करना और विचार के मध्य में हस्तक्षेप करना। मुझे अक्सर ऐसा लगता है कि चाहे हमारी प्रणाली हो या प्रतिद्वंद्वी की प्रणाली, वे किसी न किसी तरह से अत्यधिक सोचती हैं और चक्र में फंस जाती हैं।

मुझे कभी-कभी जेमिनी के खेल को देखना पसंद है। सभी अग्रणी बेस मॉडल शतरंज में काफी कमजोर हैं, जो दिलचस्प है। उनके विचार प्रक्रिया को देखना मूल्यवान है, क्योंकि शतरंज एक अच्छी तरह से समझे गए क्षेत्र है, और मैं जल्दी से पहचान सकता हूँ कि क्या वह गलत दिशा में जा रहा है या तर्क प्रभावी है। हम देखते हैं कि कभी-कभी यह एक चाल पर विचार करता है, समझता है कि यह एक खराब चाल है, लेकिन बेहतर चाल नहीं ढूंढ पाता, और एक चक्कर के बाद फिर से उसी खराब चाल को ही करता है। एक सटीक तर्क प्रणाली में ऐसा होना नहीं चाहिए।

यह विशाल अंतर अभी भी मौजूद है, लेकिन इसे सुधारने के लिए केवल एक या दो समायोजन की आवश्यकता हो सकती है। इसीलिए आप 'जैगेड इंटेलिजेंस' देखते हैं, जो एक ओर IMO स्वर्ण पदक स्तर के प्रश्नों को हल कर सकता है, और दूसरी ओर अलग तरह से पूछे गए प्रश्नों पर प्राथमिक स्तर की गणित की गलतियाँ कर सकता है। अपनी सोच की प्रक्रिया पर आत्म-अवलोकन में, कुछ कम लगता है।

एजेंट की वास्तविक क्षमताएँ

गैरी तन: एजेंट एक बड़ा विषय है। कुछ लोग इसे भावनात्मक उत्तेजना मानते हैं। मेरी व्यक्तिगत राय है कि यह अभी शुरू हुआ है। डीपमाइंड के आंतरिक अध्ययन में एजेंट क्षमताओं का वास्तविक मूल्यांकन क्या है, और बाहरी प्रचार से इसका अंतर कितना है?

डेमिस हैसाबिस: मैं आपके साथ सहमत हूँ, हम सिर्फ शुरुआत कर रहे हैं। AGI तक पहुँचने के लिए, आपको एक ऐसा सिस्टम चाहिए जो आपके लिए सक्रिय रूप से समस्याओं को हल करे। यह हमारे लिए हमेशा स्पष्ट रहा है। एजेंट ही वह मार्ग है, और मुझे लगता है कि हम सिर्फ शुरुआत कर रहे हैं। सभी लोग यह खोज रहे हैं कि एजेंट को कैसे बेहतर तरीके से काम में शामिल किया जाए; हमने व्यक्तिगत प्रयोगों में काफी खोज की है, और मुझे लगता है कि आज के सभी उपस्थित लोगों ने भी ऐसा किया है। एजेंट को कार्य प्रवाह में कैसे एकीकृत किया जाए, ताकि वह केवल सजावट न हो, बल्कि वास्तविक रूप से मौलिक कार्य करे। हम अभी प्रयोगात्मक चरण में हैं। संभवतः पिछले दो-तीन महीनों में ही हमने सचमुच मूल्यवान स्थितियाँ पाना शुरू किया है। प्रौद्योगिकी भी ठीक उस स्तर पर पहुँच गई है—अब यह केवल एक खिलौना प्रदर्शन नहीं है, बल्कि वास्तव में आपके समय और कुशलता में मूल्य जोड़ रही है।

मैं अक्सर लोगों को देखता हूँ जो दर्जनों एजेंट्स शुरू करते हैं और उन्हें दर्जनों घंटे तक चलाते हैं, लेकिन मुझे अभी तक यकीन नहीं है कि आउटपुट इस निवेश के बराबर होगा।

हमने अभी तक किसी ने वाइब कोडिंग का उपयोग करके एप स्टोर की शीर्ष सूची में पहुँचने वाला 3A गेम बनाते देखा है। मैंने खुद भी कुछ लिखा है, और आपमें से कई लोगों ने कुछ अच्छे छोटे डेमो बनाए हैं। मैं अब एक ही आधे घंटे में एक 'Theme Park' का प्रोटोटाइप बना सकता हूँ, जबकि 17 साल की उम्र में मुझे इसके लिए छह महीने लगे। मुझे एहसास है कि अगर आप पूरी गर्मियाँ इस पर लगा दें, तो आप वास्तव में अविश्वसनीय चीज़ें बना सकते हैं। लेकिन इसमें अभी भी कला और मानवीय आत्मा, स्वाद की आवश्यकता है, आपको सुनिश्चित करना होगा कि आप जो कुछ भी बना रहे हैं, उसमें ये सब कुछ शामिल हो। वास्तव में, अभी तक कोई भी बच्चा 10 मिलियन प्रतियाँ बेचने वाला हिट गेम नहीं बना पाया है, हालाँकि, वर्तमान साधनों के संदर्भ में, यह संभव होना चाहिए। इसलिए कुछ कम है—शायद प्रक्रिया से संबंधित है, या साधनों से। मुझे उम्मीद है कि अगले 6 से 12 महीनों में हमें ऐसा परिणाम देखने को मिलेगा।

गैरी तान: इसमें कितना हिस्सा पूरी तरह से स्वचालित होगा? मुझे लगता है कि शुरुआत में पूरी तरह स्वचालित नहीं होगा। अधिक संभावित पथ यह होगा कि आज के लोग पहले 1000 गुना की दक्षता प्राप्त करें, फिर कोई इन उपकरणों का उपयोग करके बेहतरीन ऐप्स या बेहतरीन गेम्स बनाएगा, और उसके बाद ही अधिक प्रक्रियाएँ स्वचालित होंगी।

डेमिस हैसाबिस: हाँ, यही आपको पहले देखना चाहिए।

गैरी तन: एक कारण यह भी है कि कुछ लोग वास्तव में ऐसा कर रहे हैं, लेकिन वे खुलकर नहीं कहना चाहते कि एजेंट ने कितनी मदद की है।

डेमिस हैसाबिस: संभवतः। लेकिन मैं कल्पनाशीलता पर बात करना चाहूँगा। मैं अक्सर AlphaGo का उदाहरण देता हूँ, जिसमें दूसरे खेल की 37वीं हरकत सभी जानते हैं। मेरे लिए, मैं हमेशा ऐसे क्षण का इंतजार कर रहा था, और जब वह आया, तो मैंने AlphaFold जैसे वैज्ञानिक प्रोजेक्ट्स को शुरू कर दिया। हमने सीएल से लौटने की अगली ही दिन AlphaFold पर काम शुरू कर दिया, यह दस साल पहले की बात है। मैंने AlphaGo के दशकाब्दी का उत्सव मनाने के लिए इस बार कोरिया की यात्रा की है।

लेकिन केवल Move 37 से बाहर निकलना पर्याप्त नहीं है। यह अच्छा और उपयोगी है। लेकिन क्या यह प्रणाली शतरंज को ही आविष्कार कर सकती है? अगर आप इसे एक उच्च स्तरीय विवरण दें, जैसे 'एक ऐसा खेल जिसके नियम पाँच मिनट में सीखे जा सकते हैं, लेकिन पूरी जिंदगी में भी पूर्णता प्राप्त करना कठिन है, जो सौंदर्य के दृष्टिकोण से शानदार है और जिसका एक खेल एक दोपहर में पूरा हो जाता है', और फिर प्रणाली आपको परिणाम के रूप में शतरंज दे, तो आज की प्रणाली ऐसा करने में सक्षम नहीं है। सवाल यह है कि क्यों?

गैरी तान: यहां बैठे लोगों में से कोई भी इसे कर सकता है।

डेमिस हैसबिस: अगर किसी ने यह किया है, तो समस्या सिस्टम में कमी की नहीं, बल्कि हम इस सिस्टम का उपयोग कैसे कर रहे हैं, इसमें है। शायद यही सही उत्तर है। शायद आज के सिस्टम में इस क्षमता का होना पहले से ही है, बस इसे चलाने के लिए एक पर्याप्त प्रतिभाशाली सृजनकर्ता की आवश्यकता है, जो प्रोजेक्ट की आत्मा प्रदान करे, और जो उपकरणों के साथ इतना घुलमिल जाए कि लगभग उपकरणों के साथ एक हो जाए। अगर आप इन उपकरणों में दिन-रात डूबे रहें और गहन सृजनात्मकता रखते हों, तो शायद आप असंभव से भी अधिक कुछ बना सकते हैं।

Open Source and Multimodal Models

गैरी तन: ओपन सोर्स के बारे में बात करते हैं। हाल ही में गेमा के लॉन्च से बहुत शक्तिशाली मॉडल स्थानीय रूप से चलाए जा सकते हैं। आपका क्या मत है? क्या AI उपयोगकर्ता के अधिकार में आ जाएगी, और केवल क्लाउड पर ही सीमित नहीं रहेगी? क्या इससे यह बदलेगा कि ये मॉडल बनाने के लिए कौन उपयोग कर सकता है?

डेमिस हैसबिस: हम ओपन सोर्स और ओपन साइंस के दृढ़ समर्थक हैं। आपने जिस अल्फाफोल्ड का उल्लेख किया, हमने उसे पूरी तरह से मुफ्त में उपलब्ध करा दिया है। हमारा वैज्ञानिक कार्य अब तक शीर्ष जर्नल्स में प्रकाशित होता रहा है। गेमा के मामले में, हम एक समान पैमाने पर विश्व-नेता मॉडल बनाना चाहते हैं। वर्तमान में, गेमा की डाउनलोड संख्या लगभग 4 करोड़ हो चुकी है, और यह केवल दो सप्ताह और आधा हुआ है।

मुझे लगता है कि ओपन सोर्स क्षेत्र में पश्चिमी टेक स्टैक का मौजूद होना बहुत महत्वपूर्ण है। चीनी ओपन सोर्स मॉडल बहुत उत्कृष्ट हैं और वर्तमान में ओपन सोर्स क्षेत्र में अग्रणी हैं, लेकिन हम मानते हैं कि Gemma समान आकार में बहुत प्रतिस्पर्धी है।

हमारे पास एक संसाधन समस्या भी है, कोई भी दो पूर्ण आकार के अग्रणी मॉडल के लिए अतिरिक्त कंप्यूटिंग पावर नहीं रखता। इसलिए हमारा वर्तमान निर्णय है: एंड्रॉइड, चश्मा, रोबोट आदि के लिए एज मॉडल बनाए जाएँ, और उन्हें खुला मॉडल बनाना सबसे अच्छा है, क्योंकि जब वे डिवाइस पर डिप्लॉय हो जाते हैं, तो वे स्वयं ही प्रकट हो जाते हैं, इसलिए बेहतर है कि उन्हें पूरी तरह से खुला कर दिया जाए। हमने नैनो स्तर पर खुली नीति को समेकित किया है, जो सामरिक रूप से भी समझ में आता है।

गैरी तान: ऊपर आने से पहले मैंने आपको अपना बनाया हुआ AI ऑपरेटिंग सिस्टम दिखाया, मैं सीधे आवाज़ के माध्यम से Gemini के साथ इंटरैक्ट कर सकता हूँ, कुछ दिखाने के लिए मुझे थोड़ा तनाव महसूस हो रहा था, लेकिन यह काम कर गया। Gemini शुरू से ही बहु-मोडल बनाया गया था। मैंने कई मॉडल्स का उपयोग किया है, लेकिन आवाज़ से सीधे मॉडल तक की इंटरैक्शन, टूल कॉलिंग क्षमता की गहराई और संदर्भ समझ के मामले में, अभी तक कोई भी मॉडल Gemini के साथ प्रतिस्पर्धा नहीं कर सकता।

डेमिस हैसाबिस: हाँ। जेमिनी श्रृंखला का एक अभी तक कम समझा गया लाभ यह है कि हमने शुरुआत से ही बहु-मोडल के आधार पर इसे बनाया है। इससे प्रारंभिक चरण में केवल पाठ पर केंद्रित होने की तुलना में कठिनाई बढ़ गई, लेकिन हम मानते हैं कि दीर्घकालिक रूप से हमें इससे लाभ होगा, और अब यह लाभ प्राप्त होना शुरू हो गया है। उदाहरण के लिए, विश्व मॉडल के मामले में, हमने जेमिनी के आधार पर जेनी (डीपमाइंड द्वारा विकसित जनरेटिव इंटरैक्टिव एनवायरनमेंट मॉडल) का निर्माण किया है। रोबोटिक्स के क्षेत्र में भी, जेमिनी रोबोटिक्स बहु-मोडल बेस मॉडल पर स्थापित होगा, और हमारी बहु-मोडल में विशेषज्ञता प्रतिस्पर्धा की सुरक्षा का कार्य करेगी। हम Waymo (Alphabet की स्व-चालित वाहन कंपनी) में भी जेमिनी का उपयोग बढ़ाते जा रहे हैं।

अपने वास्तविक दुनिया में आपके साथ चलने वाले डिजिटल असिस्टेंट की कल्पना करें, जो संभवतः आपके फोन या चश्मे पर होगा, और जिसे आपके चारों ओर की भौतिक दुनिया और परिवेश को समझने की आवश्यकता होगी। हमारी प्रणाली इस क्षेत्र में अत्यंत मजबूत है। हम इस दिशा में निरंतर निवेश करते रहेंगे, और मुझे लगता है कि हमारा इस प्रकार की समस्याओं में अग्रणी लाभ बहुत बड़ा है।

गैरी तन: निष्कर्ष लेने की लागत तेजी से कम हो रही है। जब निष्कर्ष लेना लगभग मुफ्त हो जाए, तो क्या संभव हो जाता है? क्या आपकी टीम की अनुकूलन दिशा इसके कारण बदल जाएगी?

डेमिस हैसबिस: मुझे यकीन नहीं है कि निष्कर्षण वास्तव में मुफ्त हो जाएगा, क्योंकि जेवन्स का विरोधाभास मौजूद है। मुझे लगता है कि सभी लोग अंततः जितनी गणना क्षमता प्राप्त कर पाएंगे, उसे पूरी तरह से उपयोग कर लेंगे। आप कल्पना कर सकते हैं कि लाखों एजेंट सामूहिक रूप से काम करते हैं, या एक छोटा समूह एजेंट एक साथ कई दिशाओं में सोचता है और फिर एकीकृत करता है। हम सभी इन दिशाओं का परीक्षण कर रहे हैं, और ये सभी चीजें उपलब्ध निष्कर्षण संसाधनों को खा जाएंगी।

ऊर्जा के मामले में, अगर हम नियंत्रित नाभिकीय संलयन, कमरे के तापमान पर अतिचालकता, और उत्तम बैटरी जैसी समस्याओं में से कुछ को हल कर लें, तो मुझे लगता है कि सामग्री विज्ञान के माध्यम से हम इसे कर पाएंगे, तो ऊर्जा लागत शून्य की ओर अग्रसर हो सकती है। लेकिन चिप के भौतिक निर्माण जैसे चरणों में अभी भी बाधाएँ हैं, कम से कम आने वाले कई दशकों तक। इसलिए, निष्कर्षण अंत में अभी भी कोटा सीमाएँ होंगी, और हमें अभी भी कुशलता से उपयोग करने की आवश्यकता होगी।

अगली वैज्ञानिक उपलब्धि

गैरी तान: अच्छा है कि छोटे मॉडल धीरे-धीरे बुद्धिमान हो रहे हैं। यहां बहुत सारे जीवविज्ञान और जीव तकनीक के संस्थापक मौजूद हैं। अल्फाफोल्ड 3 अब प्रोटीन के बाहर निकलकर अधिक विस्तृत जैविक अणुओं तक पहुंच गया है। हम पूरे कोशिका प्रणाली का मॉडलिंग करने से कितनी दूर हैं? क्या यह एक संपूर्ण रूप से अलग कठिनाई स्तर का प्रश्न है?

डेमिस हैसाबिस: आइसोमॉर्फिक लैब्स की प्रगति बहुत अच्छी है। अल्फाफोल्ड केवल दवा खोज प्रक्रिया का एक हिस्सा है, हम आसपास के जैवरसायनिक अनुसंधान पर काम कर रहे हैं, सही गुणों वाले यौगिकों का डिज़ाइन कर रहे हैं, जल्द ही बड़ी घोषणाएँ होंगी।

हमारा अंतिम लक्ष्य एक पूर्ण वर्चुअल सेल बनाना है, एक पूर्ण कार्यात्मक सेल सिमुलेटर जिस पर आप विक्षेप लागू कर सकते हैं, जिसका आउटपुट प्रयोगात्मक परिणामों के काफी करीब हो और व्यावहारिक उपयोगिता रखता हो। आप बहुत सारे खोज कदमों को छोड़ सकते हैं, और अन्य मॉडलों को प्रशिक्षित करने के लिए बहुत सारे संश्लेषित डेटा का उत्पादन कर सकते हैं ताकि वे वास्तविक सेल के व्यवहार का अनुमान लगा सकें।

मुझे लगता है कि पूर्ण वर्चुअल सेल तक पहुँचने में लगभग दस साल का समय लगेगा। हम DeepMind के वैज्ञानिक पक्ष पर वर्चुअल कोर के साथ शुरुआत कर रहे हैं, क्योंकि कोर सापेक्ष रूप से स्वतंत्र होता है। इस प्रकार की समस्याओं की मुख्य बात यह है कि क्या आप एक उपयुक्त जटिलता वाला टुकड़ा निकाल सकते हैं, जो पर्याप्त रूप से स्वतंत्र हो, जिसके इनपुट और आउटपुट को आप तर्कसंगत रूप से अनुमानित कर सकें, और फिर इस उप-सिस्टम पर ध्यान केंद्रित कर सकें। कोर इस दृष्टिकोण से बहुत उपयुक्त है।

एक और समस्या डेटा की कमी है। मैंने इलेक्ट्रॉन माइक्रोस्कोपी और अन्य छवि तकनीकों में शीर्ष वैज्ञानिकों से बात की है। यदि हम जीवित कोशिकाओं की छवि उन्हें मारे बिना प्राप्त कर सकें, तो यह क्रांतिकारी होगा। क्योंकि फिर इसे एक दृश्य समस्या में बदला जा सकता है, और हम जानते हैं कि दृश्य समस्याओं को कैसे हल किया जाए। लेकिन मेरी जानकारी के अनुसार, वर्तमान में कोई भी तकनीक नैनोमीटर रिज़ॉल्यूशन पर जीवित, गतिशील कोशिकाओं की छवि प्राप्त करने में सक्षम नहीं है और उन्हें क्षति नहीं पहुँचाती। आप उस रिज़ॉल्यूशन पर स्थिर छवियाँ प्राप्त कर सकते हैं, जो पहले से ही बहुत सूक्ष्म हैं, और यह उत्साहजनक है, लेकिन इसे सीधे एक दृश्य समस्या में बदलने के लिए पर्याप्त नहीं है।

इसलिए दो रास्ते हैं: एक हार्डवेयर-आधारित, डेटा-आधारित समाधान; और दूसरा इन गतिकी प्रणालियों को सिमुलेट करने के लिए बेहतर सीखने योग्य सिमुलेटर बनाना।

गैरी तन: आप केवल जीवविज्ञान ही नहीं देख रहे हैं। सामग्री विज्ञान, दवा खोज, जलवायु मॉडलिंग, गणित, यदि आपको क्रम देना हो, तो अगले पांच वर्षों में कौन सा वैज्ञानिक क्षेत्र सबसे अधिक बदल जाएगा?

डेमिस हैसबिस: हर क्षेत्र उत्साहजनक है, और यही कारण है कि यह मेरी सबसे बड़ी जुनून रही है और मैं 30 सालों से AI पर काम कर रहा हूँ। मैंने हमेशा सोचा है कि AI विज्ञान की समझ, वैज्ञानिक खोज, चिकित्सा और हमारे ब्रह्मांड के प्रति जागरूकता को आगे बढ़ाने के लिए अंतिम उपकरण होगा।

हमने अपने मिशन को शुरू में दो चरणों में व्यक्त किया था। पहला चरण, बुद्धिमत्ता को हल करना, यानी AGI बनाना; दूसरा चरण, इसका उपयोग करके अन्य सभी समस्याओं को हल करना। बाद में हमें इसे फिर से शब्दबद्ध करना पड़ा, क्योंकि कुछ लोग पूछते थे, "क्या तुम सचमुच सभी समस्याओं को हल करने की बात कर रहे हो?" हाँ, हम वास्तव में ऐसा ही कह रहे हैं। अब लोग शुरू कर रहे हैं कि इसका क्या अर्थ है। विशेष रूप से, मैं उन वैज्ञानिक क्षेत्रों की बात कर रहा हूँ, जिन्हें मैं "रूट नोड समस्याएँ" कहता हूँ—ऐसे क्षेत्र जिनमें एक बड़ी प्रगति से पूरी नई खोजों की शाखाएँ खुल सकती हैं। AlphaFold हमारे करना चाहने का प्रारूप है। दुनिया भर में तीन मिलियन से अधिक शोधकर्ता, लगभग हर जीवविज्ञान शोधकर्ता अब AlphaFold का उपयोग कर रहे हैं। मुझे कुछ फार्मास्यूटिकल कंपनियों के प्रबंधक मित्रों से पता चला है कि आगे की हर दवा की खोज प्रक्रिया में AlphaFold का कहीं-न-कहीं प्रयोग होगा। हमें इसके लिए गर्व है, और यही हम चाहते हैं कि AI किस प्रकार का प्रभाव डाले। लेकिन मुझे लगता है कि यह सिर्फ शुरुआत है।

मुझे ऐसा कोई विज्ञान या इंजीनियरिंग क्षेत्र नहीं याद आ रहा है जहाँ AI की मदद न हो। आपके द्वारा उल्लिखित क्षेत्र, मुझे लगता है, लगभग 'AlphaFold 1' के क्षण पर हैं—परिणाम बहुत वाद्यमान हैं, लेकिन अभी तक इन क्षेत्रों की बड़ी चुनौतियों को हल नहीं किया गया है। अगले दो वर्षों में हम सभी क्षेत्रों, जिनमें सामग्री विज्ञान से लेकर गणित तक शामिल है, में कई प्रगति की बात कर पाएंगे।

गैरी तान: यह प्रोमीथियस जैसा महसूस होता है, जो मानवता को एक बिल्कुल नई क्षमता देता है।

डेमिस हैसबिस: हाँ। निश्चित रूप से, प्रोमीथियस की कहानी के संदर्भ में, हमें इस क्षमता के उपयोग, उसके उपयोग के स्थान, और एक ही सेट के उपकरणों के दुरुपयोग के जोखिम के प्रति सावधान रहना चाहिए।

सफलता का अनुभव

गैरी तन: यहां बहुत से लोग ऐसी कंपनियां शुरू करने की कोशिश कर रहे हैं जो AI को विज्ञान में लागू करती हैं। आपके अनुसार, वास्तविक रूप से अग्रिम को आगे बढ़ाने वाली स्टार्टअप्स और केवल बेसिक मॉडल पर API लगाकर खुद को 'AI for Science' कहने वाली स्टार्टअप्स में क्या अंतर है?

डेमिस हैसबिस: मैं सोच रहा हूँ कि अगर आज मैं आपके स्थान पर बैठा होता और Y Combinator में प्रोजेक्ट्स देख रहा होता, तो मैं क्या करता। एक बात यह है कि आपको AI तकनीक की दिशा का पूर्वानुमान लगाना होगा, जो खुद में कठिन है। लेकिन मुझे वास्तव में लगता है कि AI की दिशा को किसी और गहन टेक्नोलॉजी क्षेत्र के साथ जोड़ने में विशाल अवसर है। यह क्रॉसओवर, चाहे सामग्री, चिकित्सा हो या अन्य वास्तविक रूप से कठिन वैज्ञानिक क्षेत्र, विशेष रूप से परमाणु दुनिया से संबंधित, दृश्यमान भविष्य में कोई संक्षिप्त मार्ग नहीं होगा। इन क्षेत्रों को अगले बेस मॉडल अपडेट से नहीं धोया जा सकता। लेकिन अगर आप मजबूत प्रतिरोधी दिशाओं की तलाश कर रहे हैं, तो यही मैं सुझाऊंगा।

मैं हमेशा से डीप टेक को पसंद करता रहा हूँ। वास्तविक रूप से स्थायी और मूल्यवान चीजें आसान नहीं होतीं। मैं हमेशा डीप टेक से आकर्षित रहा हूँ। 2010 में हमने शुरुआत की थी, उस समय AI एक डीप टेक था—निवेशक मुझसे कहते थे, 'हमें पता है कि यह काम नहीं करेगा', और अकादमिक समुदाय भी मानता था कि यह एक 90 के दशक में प्रयास किया गया और विफल हो गया एक निश्चित दिशा है। लेकिन अगर आपके विचार के प्रति आपको विश्वास है—इस बार क्यों अलग होगा, आपके पास क्या अनूठा संयोजन है—आदर्श रूप से, आप स्वयं मशीन लर्निंग और एप्लीकेशन के क्षेत्र में विशेषज्ञ हों, या आप ऐसी संस्थापक टीम का गठन कर सकें—तो इसमें बड़ा प्रभाव और मूल्य सृजित करने का मौका है।

गैरी तान: यह जानकारी महत्वपूर्ण है। एक चीज़ करने के बाद यह स्वाभाविक लगता है, लेकिन इसे करने से पहले सभी आपके खिलाफ होते हैं।

डेमिस हैसबिस: निश्चित रूप से, आपको उसी चीज़ को करना चाहिए जिसके प्रति आपको वास्तविक जुनून है। मेरे लिए, चाहे कुछ भी हो रहा हो, मैं AI करता रहूँगा। मैंने बहुत छोटी उम्र में यह निर्णय ले लिया था कि यही मेरे लिए सबसे प्रभावशाली चीज़ है। और वास्तव में ऐसा भी साबित हुआ है, लेकिन यह ऐसा नहीं भी हो सकता था, हो सकता है हम 50 साल पहले ही पहुँच गए हों। और यह मेरे लिए सबसे दिलचस्प चीज़ भी है। भले ही आज हम एक छोटे से गैराज में बैठे हों, AI अभी तक नहीं बना हो, मैं किसी न किसी तरह से इसे करते रहूँगा। شاید मैं अकादमिक संस्थान में वापस आ जाऊँ, लेकिन मैं किसी न किसी तरह से इसे जारी रखूँगा।

गैरी तन: अल्फाफोल्ड एक ऐसा उदाहरण है जहाँ आपने एक दिशा का पीछा किया और सही अनुमान लगाया। किसी वैज्ञानिक क्षेत्र को अल्फाफोल्ड-जैसी क्रांति के लिए क्या उपयुक्त बनाता है? क्या कोई नियम है, जैसे किसी प्रकार का लक्ष्य फ़ंक्शन?

डेमिस हैसाबिस: मुझे वास्तव में इसे लिखने का समय निकालना चाहिए। अल्फागो और अल्फाफोल्ड जैसे सभी अल्फा प्रोजेक्ट्स से मैंने सीखा है कि हमारी वर्तमान तकनीक निम्नलिखित स्थितियों में सबसे अच्छी तरह काम करती है। पहला, समस्या का संयोजन खोज स्थान विशाल होता है, जितना बड़ा हो सके, उतना बेहतर, इतना बड़ा कि कोई भी ब्रूट-फोर्स एक्सहॉस्टिव या विशेष एल्गोरिदम इसे हल नहीं कर सकता। शतरंज के चालों का स्थान और प्रोटीन के कॉन्फ़िगरेशन का स्थान दोनों ब्रह्मांड में परमाणुओं की संख्या से कहीं अधिक हैं। दूसरा, आप लक्ष्य फ़ंक्शन को स्पष्ट रूप से परिभाषित कर सकते हैं, जैसे प्रोटीन की मुक्त ऊर्जा का न्यूनतमीकरण, या शतरंज में जीतना, ताकि प्रणाली ग्रेडिएंट एसेंड कर सके। तीसरा, पर्याप्त डेटा हो, या एक सिमुलेटर हो जो संश्लेषित डेटा की बड़ी मात्रा को संभाव्यता वितरण के भीतर उत्पन्न कर सके।

अगर ये तीन शर्तें पूरी होती हैं, तो आज की विधि से आप बहुत आगे जा सकते हैं और अपनी आवश्यकता के अनुसार 'घास के ढेर में सुई' ढूंढ सकते हैं। दवा खोज में भी यही तर्क है: कोई ऐसा यौगिक मौजूद है जो इस बीमारी का इलाज कर सकता है और जिसके कोई दुष्प्रभाव नहीं हैं; जब तक भौतिकी के नियम इसके मौजूद होने की अनुमति देते हैं, तब तक एकमात्र प्रश्न यह है कि इसे कैसे कुशलता से और संभवतः ढूंढा जाए। मुझे लगता है कि AlphaFold ने पहली बार साबित किया कि ऐसे प्रणालियाँ विशाल खोज स्थान में ऐसी सुई ढूंढने में सक्षम हैं।

गैरी तान: मैं एक स्तर ऊपर जाना चाहता हूँ। हम बात कर रहे हैं कि मनुष्यों ने इन तरीकों का उपयोग करके AlphaFold बनाया, लेकिन एक अतिरिक्त स्तर भी है, जहाँ मनुष्य AI का उपयोग संभावित परिकल्पनाओं के स्थान की खोज के लिए करते हैं। हम AI प्रणालियों को वास्तविक वैज्ञानिक तर्क (केवल डेटा पैटर्न मैचिंग के बजाय) करने में कितनी दूर हैं?

डेमिस हैसाबिस: मुझे लगता है कि हम बहुत करीब हैं। हम ऐसे सामान्य प्रणालियों पर काम कर रहे हैं। हमारे पास एक एआई को-वैज्ञानिक प्रणाली है, और ऐसे एल्गोरिदम जैसे अल्फा एवोल्व, जो बेसिक जेमिनी से आगे जा सकते हैं। सभी अग्रणी प्रयोगशालाएँ इस दिशा में अनुसंधान कर रही हैं।

लेकिन अब तक, मैंने व्यक्तिगत रूप से इन प्रणालियों द्वारा कोई वास्तविक, महत्वपूर्ण वैज्ञानिक खोज नहीं देखी है। मुझे लगता है कि यह जल्द ही आ रही है। यह हम पहले चर्चा किए गए रचनात्मकता से संबंधित हो सकती है, जहाँ हम ज्ञात सीमाओं को वास्तविक रूप से पार करते हैं। उस स्तर पर, यह पैटर्न मैचिंग नहीं है, क्योंकि कोई पैटर्न मैच करने के लिए उपलब्ध नहीं है। यह पूरी तरह से बाहरी निष्कर्षण भी नहीं है, बल्कि कुछ तुलनात्मक तर्क (analogical reasoning) है, जिसे मुझे लगता है कि इन प्रणालियों के पास अभी नहीं है, या हमने अभी तक उन्हें सही तरीके से उपयोग नहीं किया है।

मैं वैज्ञानिक क्षेत्र में अक्सर एक मानक का उल्लेख करता हूँ कि क्या यह एक वास्तविक रूप से दिलचस्प अनुमान प्रस्तुत कर सकता है, न कि केवल एक की पुष्टि कर सकता है। क्योंकि एक अनुमान की पुष्टि करना भी एक भयानक बात हो सकती है, जैसे कि रीमैन परिकल्पना को सिद्ध करना या किसी मिलेनियम पुरस्कार समस्या को हल करना, लेकिन हम शायद इस बिंदु तक पहुँचने से कुछ ही वर्ष दूर हैं।

इससे भी कठिन बात यह है कि क्या हम एक नया सेट ऑफ़ मिलेनियम प्राइज़ प्रश्न प्रस्तुत कर सकते हैं, जिन्हें शीर्ष गणितज्ञ भी इतने ही गहरे और एक जीवन भर अध्ययन के योग्य मानें। मुझे लगता है कि यह एक अर्थ में और अधिक कठिन है, और हम अभी तक नहीं जानते कि इसे कैसे करें। लेकिन मैं इसे किसी जादू की बात नहीं समझता, मुझे विश्वास है कि ये प्रणालियाँ अंततः इसे कर पाएंगी, शायद सिर्फ एक या दो चीज़ों की कमी है।

हम जिस तरीके से इसकी जांच कर सकते हैं, उसे मैं कभी-कभी "आइंस्टीन परीक्षण" कहता हूँ, यानी क्या आप 1901 के ज्ञान के साथ एक सिस्टम को प्रशिक्षित कर सकते हैं और फिर उसे स्वतंत्र रूप से 1905 में आइंस्टीन द्वारा किए गए परिणामों, जिसमें विशेष सापेक्षता और उस वर्ष के अन्य पेपर शामिल हैं, का निष्कर्ष निकालने दे सकते हैं? मुझे लगता है कि हमें वास्तव में इस परीक्षण को चलाना चाहिए, बार-बार प्रयास करना चाहिए, और देखना चाहिए कि हम कब इसे सफलतापूर्वक कर पाते हैं। जब हम इसे कर पाएंगे, तो ये सिस्टम वास्तव में कुछ पूरी तरह नया आविष्कार करने के कगार पर होंगे।

उद्यमी सुझाव

गैरी तन: अंतिम प्रश्न। यहां बैठे कई लोगों के पास गहन तकनीकी पृष्ठभूमि है, और वे आपके जैसे स्केल पर काम करना चाहते हैं, आप दुनिया के सबसे बड़े AI अनुसंधान संगठनों में से एक हैं। आप AGI अनुसंधान की सबसे आगे की रेखा से आए हैं, आज आपको क्या पता है जिसके बारे में आप 25 साल की उम्र में जानना चाहते थे?

डेमिस हैसबिस: हम वास्तव में इसके कुछ हिस्से पर चर्चा कर चुके हैं। आप देखेंगे कि कठिन समस्याओं को हल करना और सरल समस्याओं को हल करना लगभग समान कठिनाई के साथ होता है, केवल कठिनाई का तरीका अलग होता है। विभिन्न चीजों की अलग-अलग कठिनाइयाँ होती हैं। लेकिन जीवन छोटा है और ऊर्जा सीमित है, इसलिए अपनी जीवन शक्ति उस चीज पर लगाएँ जिसे अगर आप नहीं करेंगे, तो कोई और नहीं करेगा। इस मापदंड के साथ चुनाव करें।

एक और बात, मुझे लगता है कि आगामी कुछ वर्षों में क्रॉस-डोमेन कॉम्बिनेशन अधिक सामान्य हो जाएंगे, और AI क्रॉस-डोमेन को आसान बना देगा।

अंतिम बिंदु आपके AGI के समयरेख पर निर्भर करता है। मेरा 2030 के आसपास है। यदि आज आप एक गहन तकनीकी प्रोजेक्ट शुरू करते हैं, तो आमतौर पर यह दस साल की यात्रा का अर्थ होता है। इसलिए आपको AGI के मध्य में आने की योजना में शामिल करना होगा। इसका क्या अर्थ है? यह जरूरी रूप से खराब बात नहीं है, लेकिन आपको इसे ध्यान में रखना होगा। क्या आपका प्रोजेक्ट AGI का उपयोग कर सकता है? AGI सिस्टम आपके प्रोजेक्ट के साथ कैसे बातचीत करेगा?

पिछली चर्चा में अल्फाफोल्ड और जनरल एआई सिस्टम के बीच के संबंध पर वापस आते हुए, मैं एक स्थिति की कल्पना कर सकता हूँ जहाँ जेमिनी, क्लॉड या इसी तरह के जनरल सिस्टम अल्फाफोल्ड जैसे स्पेशलाइज्ड सिस्टम को टूल के रूप में कॉल करते हैं। मुझे नहीं लगता कि हम सब कुछ एक विशाल, एकल 'दिमाग' में भर देंगे; अगर सभी प्रोटीन डेटा को जेमिनी में डाल दिया जाए, तो इसका कोई मतलब नहीं है, क्योंकि जेमिनी को प्रोटीन फोल्डिंग करने की आवश्यकता नहीं है। आपके बताए जानकारी की दक्षता पर वापस आते हुए, वे प्रोटीन डेटा निश्चित रूप से इसकी भाषा क्षमता को धीमा कर देंगे। बेहतर तरीका यह है कि हमारे पास बहुत मजबूत जनरल टूल-यूज़िंग मॉडल हों, जो इन स्पेशलाइज्ड टूल्स को कॉल कर सकें या उनका प्रशिक्षण भी कर सकें, लेकिन स्पेशलाइज्ड टूल्स स्वतंत्र सिस्टम हों।

यह विचार गहराई से सोचने लायक है, यह आपके आज क्या बना रहे हैं, जैसे कि आप किस प्रकार का कारखाना और किस प्रकार का वित्तीय प्रणाली बना रहे हैं, इस पर प्रभाव डालता है। आपको AGI समयसूची को गंभीरता से लेना चाहिए, कल्पना करनी चाहिए कि वह दुनिया कैसी होगी, और फिर ऐसा कुछ बनाना चाहिए जो उस दुनिया के आने पर भी उपयोगी रहे।