विशाल मिश्रा एआई में ट्रांसफॉर्मर्स, कारणता और बेजियन अपडेटिंग पर चर्चा करते हैं

मुख्य बिंदु

ट्रांसफॉर्मर मुख्य रूप से सहसंबंध सीखते हैं, कारण-परिणाम नहीं, जिससे उनकी वास्तविक बुद्धिमत्ता प्राप्त करने की क्षमता सीमित हो जाती है।
एजीआई प्राप्त करने के लिए ऐसे मॉडल्स की आवश्यकता होती है जो सहसंबंधों को सीखने से लेकर कारण-परिणाम को समझने तक संक्रमण कर सकें।
बड़े भाषा मॉडल प्रायिकता वितरण के आधार पर अगला टोकन भविष्यवाणी करके पाठ उत्पन्न करते हैं।
प्रॉम्प्ट्स में प्रदान किया गया संदर्भ भाषा मॉडल के आउटपुट को काफी प्रभावित करता है।
भाषा मॉडल स्पार्स मैट्रिक्स पर काम करते हैं, जहाँ कई टोकन संयोजन अर्थहीन होते हैं।
इन-कॉन्टेक्स्ट लर्निंग LLMs को उदाहरणों का उपयोग करके रियल-टाइम में समस्याओं को हल करने की अनुमति देता है।
डोमेन-विशिष्ट भाषाएँ (DSLs) जटिल डेटाबेस क्वेरीज को प्राकृतिक भाषा में सरल बना सकती हैं।
LLM में संदर्भ-आधारित शिक्षण, बेजियन अपडेटिंग के समान है, जहाँ नए साक्ष्य के साथ संभावनाओं को समायोजित किया जाता है।
बेजियन और आवृत्तिवादी दृष्टिकोणों के बीच का वाद-विवाद नए मशीन लर्निंग मॉडल्स की अवधारणा को प्रभावित करता है।
बेजियन विंड टनल अवधारणा मशीन लर्निंग आर्किटेक्चर के परीक्षण के लिए एक नियंत्रित पर्यावरण प्रदान करती है।
LLM के कार्यविधि को समझना उनके अनुप्रयोगों को प्रभावी ढंग से उपयोग करने के लिए आवश्यक है।
एआई विकास में सहसंबंध से कारणता तक का संक्रमण एक बड़ी बाधा है।
LLM में संदर्भ संबंधी प्रासंगिकता प्रॉम्प्ट चयन के महत्व को दर्शाती है।
भाषा मॉडल में स्पार्स मैट्रिक्स अप्रासंगिक टोकन संयोजनों को फिल्टर करके दक्षता में सुधार करते हैं।
बेजियन विंड टनल मशीन लर्निंग मॉडलों के मूल्यांकन के लिए एक नवीन ढांचा प्रदान करता है।

अतिथि परिचय

विशाल मिश्रा कोलंबिया विश्वविद्यालय के इंजीनियरिंग स्कूल में कंप्यूटर विज्ञान और इलेक्ट्रिकल इंजीनियरिंग के प्रोफेसर और कंप्यूटिंग और एआई के वाइस डीन हैं। वह a16z पॉडकास्ट पर अपने नवीनतम शोध पर चर्चा करने के लिए लौट रहे हैं, जिसमें यह पता चलता है कि LLMs में ट्रांसफॉर्मर्स नए जानकारी को प्रोसेस करते समय अपने भविष्यवाणियों को एक सटीक, गणितीय रूप से भविष्यवाण्ययोग्य तरीके से कैसे अपडेट करते हैं। उनका काम AGI के लिए अंतर को उजागर करता है, जिसमें पैटर्न मैचिंग के बजाय निरंतर पोस्ट-ट्रेनिंग सीखने और कारण-प्रभाव समझ की आवश्यकता पर जोर दिया गया है।

ट्रांसफॉर्मर्स और एलएलएम्स को समझना

ट्रांसफॉर्मर्स अपने अनुमानों को गणितीय रूप से भविष्यवाणीयोग्य तरीके से अपडेट करते हैं
— विशाल मिश्रा
LLM मुख्य रूप से कारण-परिणाम के बजाय सहसंबंध सीखते हैं, जिससे उनकी बुद्धिमत्ता सीमित हो जाती है।
पैटर्न मैचिंग बुद्धिमत्ता नहीं है; LLMs सहसंबंध सीखते हैं, कारण-परिणाम नहीं
— विशाल मिश्रा
एजीआई प्राप्त करने के लिए ऐसे मॉडल्स की आवश्यकता होती है जो केवल सहसंबंध नहीं, बल्कि कारण-परिणाम सीख सकें।
AGI तक पहुँचने के लिए, हमें प्रशिक्षण के बाद भी सीखने की क्षमता की आवश्यकता है
— विशाल मिश्रा
LLM अगले टोकन के लिए एक संभावना वितरण बनाकर पाठ उत्पन्न करते हैं।
एक प्रॉम्प्ट दिए जाने पर, यह अगले टोकन का वितरण निर्धारित करेगा
— विशाल मिश्रा
LLM के कार्यविधि को समझना उनके अनुप्रयोगों को प्रभावी ढंग से उपयोग करने के लिए आवश्यक है।

भाषा मॉडल में संदर्भ की भूमिका

भाषा मॉडलों का व्यवहार प्रॉम्प्ट में प्रदान किए गए पूर्व संदर्भ द्वारा प्रभावित होता है।
संश्लेषण या शेक चुनने के आधार पर, अगली पंक्ति बहुत अलग दिखती है
— विशाल मिश्रा
LLM में संदर्भ संबंधी प्रासंगिकता प्रॉम्प्ट चयन के महत्व को दर्शाती है।
भाषा मॉडल एक स्पार्स मैट्रिक्स पर काम करते हैं, जहाँ टोकन के कई संयोजन अर्थहीन होते हैं।
खुशी की बात है कि यह मैट्रिक्स बहुत विरल है क्योंकि इन टोकन्स का कोई भी यादृच्छिक संयोजन अर्थहीन होता है
— विशाल मिश्रा
स्पार्स मैट्रिक्स अप्रासंगिक टोकन संयोजनों को फ़िल्टर करके दक्षता में सुधार करते हैं।
दिया गया संदर्भ भाषा मॉडल के आउटपुट को बहुत बदल सकता है।
इनपुट प्रॉम्प्ट्स के आधार पर भाषा मॉडल कैसे टेक्स्ट जेनरेट करते हैं, इसे समझना आवश्यक है।

इन-कॉन्टेक्स्ट लर्निंग और रियल-टाइम समस्या समाधान

इन-कॉन्टेक्स्ट लर्निंग LLMs को रियल-टाइम में सीखने और समस्याओं को हल करने की अनुमति देता है।
इन-कॉन्टेक्स्ट लर्निंग तब होती है जब आप LLM को कुछ दिखाते हैं जो यह लगभग कभी नहीं देखा हो
— विशाल मिश्रा
LLM उदाहरणों के माध्यम से नई जानकारी को प्रोसेस करते हैं और उससे सीखते हैं।
इन-कॉन्टेक्स्ट लर्निंग बेजियन अपडेटिंग के समान है, जो नए सबूतों के साथ संभावनाओं को समायोजित करता है।
LLM बेजियन अपडेटिंग की तरह कुछ कर रहे हैं
— विशाल मिश्रा
यह तंत्र LLM की क्षमताओं को समझने के लिए महत्वपूर्ण है।
LLM में वास्तविक समय समस्या समाधान को संदर्भ-में-सीखने द्वारा सक्षम किया जाता है।
उदाहरणों से सीखने की क्षमता LLMs की अनुकूलनशीलता को दर्शाती है।

डोमेन-विशिष्ट भाषाएँ और डेटा तक पहुँच

डोमेन-विशिष्ट भाषाएँ (DSLs) प्राकृतिक भाषा के प्रश्नों को एक संसाध्य फॉर्मेट में रूपांतरित करती हैं।
मैंने DSL, एक डोमेन-विशिष्ट भाषा, डिज़ाइन की, जिसने क्रिकेट सांख्यिकी के बारे में प्रश्नों को बदल दिया
— विशाल मिश्रा
DSLs जटिल डेटाबेस क्वेरीज को प्राकृतिक भाषा में सरल बनाते हैं।
DSL के निर्माण से AI का विशिष्ट अनुप्रयोगों में उपयोग करने में नवाचार दिखाई देता है।
जटिल डेटाबेस क्वेरी करने की चुनौतियों को समझना आवश्यक है।
DSLs डेटा के साथ उपयोगकर्ता अंतर्क्रियाओं को प्रश्न प्रक्रियाओं को सरल बनाकर बढ़ाते हैं।
DSL के विकास से AI की डेटा उपलब्धता में भूमिका का पता चलता है।
यह दृष्टिकोण डेटा तक पहुँच में सामान्य समस्याओं का तकनीकी समाधान प्रदान करता है।

एआई में बेजियन अपडेटिंग और सांख्यिकीय दृष्टिकोण

भाषा मॉडल में संदर्भ-आधारित अधिगम बेजियन अपडेटिंग के समान है।
आप कुछ देखते हैं, आप नए सबूत देखते हैं, आप इस बारे में अपना विश्वास अपडेट करते हैं कि क्या हो रहा है
— विशाल मिश्रा
बेजियन निष्कर्षण को समझना एलएलएम द्वारा जानकारी को कैसे प्रोसेस किया जाता है, इसे समझने के लिए महत्वपूर्ण है।
बेजियन और आवृत्तिवादी दृष्टिकोणों के बीच का अंतर AI मॉडल की अवधारणाओं को प्रभावित करता है।
प्रायिकता और मशीन लर्निंग में बेजियन और आवृत्तिवादी के विभिन्न दृष्टिकोण रहे हैं
— विशाल मिश्रा
इन दृष्टिकोणों के बीच की बहस नए शोध के स्वीकार्यता को प्रभावित करती है।
बेजियन अपडेटिंग LLMs में संदर्भ-आधारित शिक्षा के लिए एक स्पष्ट तंत्र प्रदान करती है।
यह सांख्यिकीय अवधारणा बहुत पुरानी विधियों को आधुनिक एआई प्रक्रियाओं के साथ जोड़ती है।

बेजियन वायु टनल और मॉडल परीक्षण

बेजियन वायु शिकार की अवधारणा मशीन लर्निंग आर्किटेक्चर के परीक्षण की अनुमति देती है।
हमने एक बेयसियन विंड टनल का विचार बनाया
— विशाल मिश्रा
यह अवधारणा मॉडलों के मूल्यांकन के लिए एक नियंत्रित वातावरण प्रदान करती है।
इस फ्रेमवर्क द्वारा ट्रांसफॉर्मर्स, MAMBA, LSTMs और MLPs जैसी आर्किटेक्चर्स का परीक्षण सुगम हो जाता है।
एयरोस्पेस में विंड टनल की अवधारणा को समझने से एआई में इसके अनुप्रयोग को समझने में मदद मिलती है।
बेजियन विंड टनल मशीन लर्निंग को आगे बढ़ाने के लिए एक नवीन ढांचा प्रदान करता है।
यह दृष्टिकोण AI मॉडलों का मूल्यांकन और सुधार के लिए आवश्यक है।
नियंत्रित परीक्षण वातावरण मॉडल मूल्यांकन की विश्वसनीयता को बढ़ाता है।