कमांड लाइन संभवतः AI एजेंट का सबसे अनुकूल इंटरैक्टिव इंटरफेस है

लेखक, स्रोत: शास्त्रीय

2025 से 2026 के बीच, शीर्ष AI कंपनियों ने क्रमिक रूप से CLI रूप में एजेंट टूल लॉन्च किए।

Anthropic ने Claude Code को जारी किया है, जो टर्मिनल में चलने वाला एक AI प्रोग्रामिंग सहायक है। OpenAI ने Codex CLI को जारी किया है, और Google ने Gemini CLI को जारी किया है। इस लहर में, लगभग हर महत्वपूर्ण AI कंपनी ने कमांड लाइन पर बेट लगाया है।

यह बहुत अप्रत्याशित है। कमांड लाइन 1970 के दशक का उत्पाद है, GUI के आगमन से कंप्यूटर जनता तक पहुंचा, और अब मोबाइल इंटरनेट ने स्पर्श स्क्रीन इंटरफेस को मानक बना दिया है। सामान्य तर्क के अनुसार, प्रौद्योगिकी की दिशा हमेशा अधिक "दृश्यमान" और अधिक "उपयोग में सरल" होनी चाहिए। तो AI के युग में सबसे पुरानी इंटरैक्शन फॉर्म क्यों वापस आ रही है?

The answer is not sentiment, it's engineering logic.

GUI AI के लिए अनुकूल नहीं है

GUI को मानवीय दृश्य नेविगेशन के लिए डिज़ाइन किया गया है। बटन, पॉप-अप, ड्रैग एंड ड्रॉप, होवर इफेक्ट्स—ये इंटरैक्शन पैटर्न मानवीय दृश्य अनुमान पर आधारित हैं। मनुष्य इंटरफेस की एक नज़र में बटनों की स्थिति स्कैन करता है और अगला कदम अनुमान लगाता है। यह प्रणाली मानवों के लिए अत्यंत प्राकृतिक है और इसे सीखने की लगभग कोई लागत नहीं होती।

लेकिन LLM का कार्य इस तरह से नहीं होता। LLM का इनपुट टोकन होता है और आउटपुट भी टोकन होता है। इसका «विचार» भाषा स्थान में होता है, न कि पिक्सेल स्थान में।

AI को GUI को नियंत्रित करना मतलब है एक विशाल अंतर को पार करना:

लागत बहुत अधिक है। AI को इंटरफेस को "समझने" के लिए कंप्यूटर विज़न या एक्सेसिबिलिटी ट्री की आवश्यकता होती है—कौन सा बटन क्लिक करने योग्य है, कौन सा इनपुट बॉक्स कहाँ है, और वर्तमान पॉप-अप का क्या अर्थ है। यह AI की ताकत नहीं है, बल्कि एक अतिरिक्त भार है।

स्थिति निहित और अप्रत्याशित है। एक ही बटन, आज क्लिक करने योग्य हो सकता है, लेकिन कल किसी शर्त के कारण ग्रे हो सकता है। मानवों के लिए यह निहित स्थिति 'संदर्भ' है, जबकि AI के लिए यह अनिश्चितता है—यह विश्वसनीय रूप से अनुमान लगाने में सक्षम नहीं है कि 'यह क्रिया किन परिस्थितियों में उपलब्ध है'।

कार्रवाइयाँ संयोजित नहीं की जा सकतीं। दो GUI कार्रवाइयों को पाइप द्वारा जोड़ने का कोई तरीका नहीं है। "खोज परिणाम → फ़िल्टर → निर्यात" GUI में तीन क्लिक हैं, और इसे एकल इकाई के रूप में पास, पुनः उपयोग या स्वचालित नहीं किया जा सकता।

इसे टेस्ट और वेरिफाई करना मुश्किल है। AI ने एक GUI ऑपरेशन निष्पादित किया, तो आप कैसे पुष्टि करेंगे कि यह सफल रहा? स्क्रीनशॉट लेना होगा, इंटरफेस की स्थिति को पार्स करना होगा, और पूरा फीडबैक साइकिल धीमा और कमजोर हो जाता है।

In comparison, every feature of the CLI seems like it was specifically designed for AI.

CLI के लिए AI एजेंट के तीन बड़े लाभ: संयोज्यता

यूनिक्स दर्शन का मूल सिद्धांत है: "प्रत्येक कार्यक्रम केवल एक कार्य करे और उसे अच्छी तरह से करे; कार्यक्रमों को सहयोग करने की क्षमता दें।"

यह कई दशकों पहले का डिजाइन सिद्धांत, AI युग में नए अर्थों को प्राप्त करता है।

CLI टूल स्टैंडर्ड इनपुट और आउटपुट के माध्यम से जुड़े होते हैं। linkly search "React प्रदर्शन अनुकूलन" | head -5 खोज परिणामों को अगले कमांड को पास कर सकता है। linkly search "आर्किटेक्चर डिज़ाइन" --json | jq '.results[].doc_id' सभी दस्तावेज़ ID को बाद के संसोधन के लिए निकाल सकता है।

एआई एजेंट के लिए, संयोज्यता का अर्थ है कि आप कई आदेशों को जोड़कर जटिल, बहु-चरणीय प्रवाह बना सकते हैं, जहां प्रत्येक चरण का आउटपुट संरचित पाठ होता है, जिसे अगला चरण उपयोग कर सकता है। GUI के "क्लिक → प्रतीक्षा → स्क्रीनशॉट → पार्स" चक्र के बजाय, केवल साफ़ इनपुट और आउटपुट होते हैं।

Predictability

प्रत्येक आदेश का व्यवहार पूरी तरह से पैरामीटर्स द्वारा निर्धारित होता है। linkly search "डेटाबेस" --limit 10 आज इस परिणाम के साथ निष्पादित होता है, कल निष्पादित करने पर (मान लीजिए कि डेटाबेस अपरिवर्तित है) भी यही परिणाम होगा। कोई अंतर्निहित स्थिति नहीं है, कोई 'इस फीचर का पिछली बार काम करना अब क्यों नहीं हो रहा' का भ्रम नहीं है।

यह AI के लिए अत्यंत महत्वपूर्ण है। जब AI एक उपकरण का तर्क देता है, तो इसे एक मानसिक मॉडल बनाना होता है: इस उपकरण का इनपुट क्या है, आउटपुट क्या है, और क्या कोई दुष्प्रभाव है। GUI की अनिवार्य स्थिति इस मानसिक मॉडल को अनिश्चितता से भर देती है। CLI के स्पष्ट पैरामीटर इस मानसिक मॉडल को विश्वसनीय और सटीक बनाते हैं।

linkly read 42 --offset 80 --limit 100——इस कमांड का अर्थ पूरी तरह से पैरामीटर्स द्वारा निर्धारित होता है। AI इसके व्यवहार का सटीक अनुमान लगा सकता है, बिना किसी अंतर्निहित संदर्भ का अनुमान लगाए।

Auditing

सभी CLI ऑपरेशन रिकॉर्ड किए जा सकने वाले टेक्स्ट सीक्वेंस होते हैं। AI द्वारा निष्पादित कमांड और प्राप्त आउटपुट दोनों ही मानव-पठनीय टेक्स्ट हैं।

इस पारदर्शिता के दो लाभ हैं।

AI के लिए: यह स्वयं की जांच कर सकता है। "कॉन्ट्रैक्ट टेम्पलेट" की खोज करने पर पिछले चरण में 0 परिणाम मिले, जिससे पता चलता है कि कीवर्ड गलत है, इसलिए "कॉन्ट्रैक्ट नमूना" का उपयोग करके पुनः प्रयास करें। इस पाठ-आधारित स्व-सुधार की क्षमता AI एजेंट के विश्वसनीय रूप से कार्य करने की आधारशिला है।

मानवों के लिए: आप पोस्ट-हॉक रिव्यू कर सकते हैं। आप देख सकते हैं कि AI ने कौन से कमांड चलाए, प्रत्येक चरण का इनपुट और आउटपुट क्या था, और पूरी रीजनिंग चेन स्पष्ट रूप से दिखाई देती है। GUI ऑपरेशन में "क्या क्लिक किया गया" को ट्रेस करना मुश्किल होता है, जबकि CLI ऑपरेशन के लॉग स्वतः ऑडिट रिकॉर्ड होते हैं।

Linkly AI CLI के डिज़ाइन प्रैक्टिस

LinklyAI हमारे द्वारा विकसित एक स्थानीय सर्च इंजन और ज्ञान भंडार बनाने का सॉफ्टवेयर है। Linkly AI के CLI टूल के डिज़ाइन के दौरान, हमने AI Agent को शुरुआत से ही मुख्य उपयोगकर्ताओं में से एक के रूप में ध्यान में रखा है।

4 अत्यंत डिज़ाइन किए गए मुख्य आदेश

Linkly AI CLI के केवल चार मुख्य आदेश हैं:

ये चार आदेश Unix दर्शन के पूर्णतः अनुकूल हैं: प्रत्येक केवल एक कार्य करता है, और इनके स्पष्ट इनपुट-आउटपुट अनुबंध हैं। AI एजेंट इन्हें किसी भी तरह से मिलाकर जटिल खोज प्रक्रियाएँ बना सकता है।

एक आम एजेंट वर्कफ्लो निम्नलिखित है:

प्रत्येक चरण का आउटपुट संरचित पाठ होता है, जिसे AI सीधे उपभोग और तर्क कर सकता है। कोई भी GUI ऑपरेशन नहीं, कोई भी दृश्य विश्लेषण का बोझ नहीं।

पाइप आदि के साथ संयोजित करें

CLI का एक अन्य लाभ यह है कि इसे सिस्टम के अन्य आदेशों के साथ स्वतंत्र रूप से संयोजित किया जा सकता है, जिससे एकल उपकरण की क्षमता की सीमा से परे नए क्षमताएँ प्राप्त होती हैं।

फ़िल्टर और निकालें: --json आउटपुट को सीधे jq के साथ जोड़कर फ़ील्ड निकाला जा सकता है, और परिणाम को अगले टूल को भेजा जा सकता है:

दस्तावेज़ को खोजें, केवल doc_id सूची लें, फिर बैच के रूप में आउटलाइन प्राप्त करें
linkly search "डेटाबेस डिज़ाइन" --json | jq -r '.results[].doc_id' | xargs -I{} linkly outline {}

ग्रेप के साथ द्वितीयक फिल्टरिंग करें: पहले अर्थपूर्ण खोज से रेंज सीमित करें, फिर सटीक कीवर्ड से फिल्टर करें:

linkly search "架构设计" | grep -i "微服务|分布式"

सांख्यिकी और विश्लेषण: दस्तावेज़ सांख्यिकी के लिए wc, sort, uniq आदि के साथ सहयोग करें:

कितने PDF दस्तावेज़ कंटेंट बैंक में हैं, यह जानें
linkly search "" --json | jq '.results[].type' | sort | uniq -c

स्क्रिप्ट के साथ उपयोग: शेल स्क्रिप्ट में बैच प्रोसेसिंग के लिए, दोहराए जाने वाले कार्यों को स्वचालित करें:

GUI टूल इन कॉम्बिनेशन्स में शामिल नहीं हो सकते। CLI टूल का आउटपुट टेक्स्ट स्ट्रीम होता है, जिसे कोई भी अन्य टूल प्राकृतिक रूप से उपयोग कर सकता है, जिससे पूरे सिस्टम की क्षमता अलग-अलग टूल्स के सरल योग से कहीं अधिक हो जाती है।

CLI सबसे सरल MCP ब्रिजिंग तरीका भी है

CLI और MCP आपस में विरोधी नहीं हैं। linkly mcp एक ही कमांड के साथ CLI को एक stdio MCP सर्वर में बदल सकता है, जिसे कोई भी MCP समर्थित AI क्लाइंट उपयोग कर सकता है:

Json:

यह HTTP MCP सर्वर को सीधे कॉन्फ़िगर करने की तुलना में कहीं अधिक सरल है—उपयोगकर्ता को पोर्ट नंबर की आवश्यकता नहीं है, न ही JSON में URL को हाथ से लिखने की आवश्यकता है, बस AI क्लाइंट को "इस कमांड को चलाएं" बताएं।

CLI एमसीपी इकोसिस्टम के लिए प्रवेश टिकट बन गया है, जो उपयोगकर्ताओं के लिए लगभग शून्य कॉन्फ़िगरेशन घर्षण प्रदान करता है।

अधिक सामान्य प्रवृत्ति

क्लॉड कोड ने IDE प्लगइन के बजाय CLI रूप को प्राथमिकता दी, इस निर्णय के पीछे एक स्पष्ट इंजीनियरिंग तर論 है: IDE प्लगइन होस्ट वातावरण पर निर्भर होते हैं, जबकि CLI टूल किसी भी टर्मिनल वाले स्थान पर चलाए जा सकते हैं, किसी भी एजेंट द्वारा कॉल किए जा सकते हैं, और किसी भी अन्य टूल के साथ संयोजित किए जा सकते हैं।

यह एक अधिक मूलभूत नियम को उजागर करता है: AI एजेंट द्वारा उपकरणों का उपयोग करना मूल रूप से आदेश निष्पादित करना है। उपकरण आह्वान (फंक्शन कॉल / टूल उपयोग) अर्थात CLI है—दिए गए नाम और पैरामीटर के साथ, परिणाम लौटाया जाता है। CLI उपकरण स्वाभाविक रूप से ऐसे फंक्शन होते हैं जिन्हें एजेंट कॉल कर सकता है, और इसके लिए किसी रूपांतरण परत की आवश्यकता नहीं होती।

AI के उदय से पहले ही “Terminal as the new IDE” का विचार पेश किया गया था, लेकिन AI युग में इसका एक नया अर्थ हो गया है। यह केवल “टर्मिनल में कोड लिखना” नहीं है, बल्कि “एजेंट टर्मिनल के माध्यम से दुनिया के साथ बातचीत करता है” है।

पिछले समय, CLI केवल तकनीकी लोगों के लिए एक उपकरण था। भविष्य में, CLI संभवतः एजेंट की सामान्य भाषा बन सकता है—मनुष्य प्राकृतिक भाषा के माध्यम से एजेंट के साथ बातचीत करते हैं, और एजेंट CLI के माध्यम से सिस्टम के साथ बातचीत करता है।

सारांश

GUI की स्थिति में बड़ा बदलाव नहीं आएगा, यह अभी भी मानव द्वारा कंप्यूटर को सीधे ऑपरेट करने का सर्वोत्तम इंटरफेस है। लेकिन जब आपका AI टूल किसी अन्य टूल को कॉल करने की आवश्यकता होती है, तो CLI सबसे प्राकृतिक पुल होता है, और अधिक सॉफ्टवेयर Agent की आदतों के अनुसार अधिक CLI टूल पेश करेंगे।

क्या आप टर्मिनल में अपने दस्तावेज़ खोजना चाहते हैं? इन दो लेखों को देखें: टर्मिनल से बाहर न जाएं, AI के साथ अपने दस्तावेज़ खोजें और एक कमांड लाइन के साथ 30+ AI टूल्स को स्थानीय फ़ाइलें पढ़ने के लिए प्रेरित करें।