संपादकीय टिप्पणी: यह लेख Codex के बाहरी वातावरण को एक्सेस करने के तीन तरीकों को समझाता है: कंप्यूटर उपयोग, Chrome एक्सटेंशन और इंटरनल ब्राउज़र। ऐसा लगता है कि तीनों "Codex को कंप्यूटर का उपयोग करने की अनुमति देने" के मुद्दे को हल कर रहे हैं, लेकिन ये अलग-अलग कार्य परिदृश्यों, अधिकार सीमाओं और विश्वास स्तरों को संबोधित करते हैं।
इसमें, Computer Use सबसे व्यापक रूप से उपयोग किया जाता है, जो macOS / Windows पर अधिकृत मूल एप्लिकेशन, सिस्टम सेटिंग्स, iOS सिमुलेटर को सीधे ऑपरेट कर सकता है, और यहां तक कि कई एप्लिकेशन के बीच कार्यप्रवाह पूरा कर सकता है। यह GUI प्रक्रियाओं के लिए उपयुक्त है जिनमें API, प्लगइन या संरचित उपकरणों का समर्थन नहीं होता, लेकिन इसकी कीमत है कि इसकी गति धीमी होती है और अधिकार सीमा सबसे व्यापक होती है। Chrome एक्सटेंशन उन कार्यों के लिए उपयुक्त हैं जो साइन-इन स्थिति, कुकीज़, बहु-टैब और ब्राउज़र पहचान पर निर्भर करते हैं, जैसे Gmail, LinkedIn, Salesforce, आंतरिक बैकएंड, या कई वेबसाइट्स पर साइन-इन किए गए अनुसंधान। एप्लिकेशन-इंटरनल ब्राउज़र मुख्य रूप से विकास और डीबगिंग परिदृश्यों के लिए उपयुक्त है, विशेष रूप से स्थानीय सेवाओं, विज़ुअल बग, प्रतिक्रियाशील लेआउट और डिज़ाइन टिप्पणियों के लिए; यह उपयोगकर्ता की सामान्य ब्राउज़र साइन-इन स्थिति को विरासत में नहीं लेता, क्षमता संकीर्ण होती है, लेकिन पृथक्करण अधिक मजबूत होता है।
लेख का मुख्य निर्णय यह है कि Codex का 'कंप्यूटर का उपयोग करना' केवल एक ही तरीका नहीं है; वास्तविक रूप से महत्वपूर्ण यह है कि कार्य के अनुसार सबसे संकीर्ण, सबसे सुरक्षित और सबसे संरचित इंटरफ़ेस का चयन किया जाए। यदि प्लगइन या MCP का उपयोग किया जा सकता है, तो विजुअल कंट्रोल का उपयोग नहीं किया जाना चाहिए; यदि कार्य केवल वेब डेवलपमेंट से संबंधित है, तो एप्लिकेशन-इन ब्राउज़र का प्राथमिकता दी जानी चाहिए; जब उपयोगकर्ता के ब्राउज़र की पहचान और लॉगिन स्थिति की आवश्यकता हो, तब ही Chrome पर स्विच किया जाना चाहिए; केवल तभी, जब संरचित उपकरण कवर न कर पाएं और कार्य को डेस्कटॉप ग्राफ़िकल इंटरफ़ेस पर निर्भर करना पड़े, तभी Computer Use अंतिम कदम होता है।
Appshots एक चौथा कंप्यूटर नियंत्रण तरीका नहीं है, बल्कि वर्तमान स्क्रीन कंटेक्स्ट को "Codex को दिखाने" का एक उपकरण है। यह कंटेक्स्ट इनपुट समस्या को हल करता है, जबकि Browser, Chrome और Computer Use कार्रवाई समस्या को हल करते हैं। एक साथ देखने पर, यह स्तरीय संरचना AI Agent के उत्पादीकरण की कुंजी को उजागर करती है: मॉडल को असीमित अधिकार देना नहीं, बल्कि विशिष्ट कार्यों में अधिकारों को लगातार संकुचित करना, सीमाओं को स्पष्ट करना, और उपयोगकर्ता को महत्वपूर्ण कार्रवाइयों पर समीक्षा का अधिकार बनाए रखना।
निम्नलिखित मूल पाठ है:
Codex का उपयोग करने के लिए तीन तरीके हैं: Computer Use, Chrome एक्सटेंशन, और इंटरनल ब्राउज़र।
उनके बीच एक निश्चित ओवरलैप है, जो भ्रम पैदा करने के लिए बिल्कुल सही है।
इस लेख को पढ़ने के बाद, आप जान जाएंगे कि इन तीनों तरीकों को कैसे स्थापित करें और ट्रिगर करें, किस स्थिति में कौन सा उपयोग करें, Appshots और Developer mode को कैसे जोड़ें, और AGENTS.md में क्या लिखें ताकि Codex स्वयं सही इंटरफ़ेस चुन सके।
सरल संस्करण है:

हालांकि, जहां तक संभव हो, प्लगइन या MCP का उपयोग करें। उदाहरण के लिए, Slack प्लगइन Slack में कहीं भी क्लिक करने की तुलना में एक थ्रेड को अधिक सटीकता से खोज सकता है; GitHub प्लगइन द्वारा उत्पन्न कार्रवाइयाँ Codex द्वारा वेबसाइट चलाने की तुलना में आसानी से जांची जा सकती हैं। विजुअल कंट्रोल सबसे अच्छी तरह से उन स्थितियों में उपयोग किया जाना चाहिए जहां संरचित टूल क्षमताएं सीमा तक पहुंच जाती हैं।
सब कुछ @Computer हो सकता है
Computer Use इन तीनों इंटरफेस में सबसे व्यापक है। यह Codex को macOS और Windows पर ग्राफिकल इंटरफेस, जैसे विंडोज, मेनू, कीबोर्ड इनपुट और आपके द्वारा अनुमति दिए गए एप्लिकेशन के क्लिपबोर्ड को देखने और संचालित करने की अनुमति देता है।
यह अक्सर सबसे धीमा भी होता है। स्ट्रक्चर्ड प्लगइन सीधे API को कॉल कर सकते हैं; जबकि कंप्यूटर यूज़ को इंटरफेस को देखना, यह निर्णय लेना कि कहाँ क्लिक करना है, एप्लिकेशन के प्रतिक्रिया का इंतजार करना और अगली स्थिति की जांच करनी पड़ती है। यह विजुअल साइकिल समय लेती है, लेकिन इसका मतलब यह भी है कि Codex उन एप्लिकेशन्स को भी ऑपरेट कर सकता है जिनके पास कोई उपलब्ध API नहीं है।
macOS पर, धीमा होना आपको अवश्य ही बाधित नहीं करता। कंप्यूटर उपयोग आपके द्वारा अनुमति दिए गए ऐप्स को बैकग्राउंड में संचालित कर सकता है, जबकि आप अपने कंप्यूटर के अन्य हिस्सों का उपयोग जारी रख सकते हैं। अक्सर, मैं कोडेक्स के साथ किसी ऐप को खोलता हूँ और पाता हूँ कि कोडेक्स पहले से ही बैकग्राउंड में एक प्रवाह पूरा कर चुका है।
आपके कंप्यूटर पर इंस्टॉल और अधिकृत एप्लिकेशन के आधार पर, इन ऑपरेशन ऑब्जेक्ट्स में Spotify, Xcode, System Settings, iOS सिमुलेटर, और यहां तक कि iPhone Mirroring के माध्यम से अपने iPhone को नियंत्रित करना शामिल हो सकता है। यह विभिन्न एप्लिकेशन के बीच स्विच कर सकता है और विभिन्न एप्लिकेशन के बीच वर्कफ्लो को हैंडल कर सकता है।
जब कार्य निम्नलिखित पर निर्भर करता है, तो इसका उपयोग करें:
मूल डेस्कटॉप एप्लिकेशन, जैसे Spotify या फाइनेंस एप्लिकेशन;
iOS सिमुलेटर, iPhone मिररिंग, या केवल ग्राफ़िकल इंटरफ़ेस के माध्यम से संचालित होने वाली प्रक्रियाएँ;
सिस्टम या एप्लिकेशन सेटिंग्स;
बिना किसी प्लगइन या API के डेटा स्रोत;
कई एप्लिकेशन्स के बीच स्विच करने की आवश्यकता वाला कार्यप्रवाह;
एक संरचित एकीकरण में अंतिम चरण की कमी।
इंस्टॉलेशन विधि: Codex के Settings > Computer Use को खोलें, फिर Install पर क्लिक करें।
ट्रिगर तरीका: @Computer का उल्लेख करना या स्पष्ट रूप से Codex को Computer Use का उपयोग करने के लिए अनुरोध करना। मॉडल क्षमता में वृद्धि के साथ, भविष्य में आवश्यकता पड़ने पर यह स्वयं इसे ट्रिगर करेगा।
कुछ उदाहरणों का प्रयास करें:
मेरा सबसे पसंदीदा उदाहरण एक पैकेज चोरी होने के कारण शुरू हुआ। Amazon ने मुझे बताया कि कस्टमर सर्विस से बात करने में लगभग 25 मिनट लगेंगे। मैंने एक Codex थ्रेड Computer Use को सौंप दिया, जिसने प्रत्येक पांच मिनट में चैट विंडो की जांच की, और जैसे ही कस्टमर सर्विस आई, तो जांच की आवृत्ति एक मिनट में बदल दी और मेरे लिए रिफंड प्राप्त करने की पूरी कोशिश की। जब मैं नहाकर वापस आया, तो रिफंड पहले ही पूरा हो चुका था।
मैं Computer Use को संरचित कार्यप्रवाह के "अंतिम किलोमीटर" के रूप में भी उपयोग करता हूँ। एक वीडियो प्रकाशित करते समय, Codex Slack से प्रतिक्रिया पढ़ सकता है, कोड में संशोधन कर सकता है और नया वीडियो रेंडर कर सकता है, लेकिन उस समय Slack एकीकरण उस थ्रेड में फाइल अपलोड नहीं कर सकता था। इसलिए Computer Use ने Add file पर क्लिक किया और इस अभावित चरण को पूरा किया।
यह तीनों में सबसे व्यापक विश्वास सीमा वाला है। एक समय में केवल एक स्पष्ट एप्लिकेशन या प्रक्रिया को ही दें। जब कोई संवेदनशील एप्लिकेशन कार्य का हिस्सा न हो, तो इसे बंद रखें; अनुमति पॉप-अप की ध्यान से जांच करें; वित्त, खाता, भुगतान, प्रमाणीकरण, गोपनीयता और सिस्टम सुरक्षा परिवर्तनों के संबंध में, सबसे अच्छा है कि कोई व्यक्ति उपस्थित रहे।
@Chrome का उपयोग करके बहु-टैब और लॉगिन स्थिति को संभालें
Codex Chrome एक्सटेंशन के माध्यम से Codex आपके लॉगिन किए गए Chrome स्टेटस तक पहुँच सकता है। जब कोई कार्य अकाउंट, कुकीज़, ब्राउज़र प्रोफाइल या आपके द्वारा पहले से खोले और प्रमाणित किए गए टैब पर निर्भर करता है, तो इसका उपयोग करें।
यह इंटरफ़ेस निम्नलिखित उपकरणों में काम के लिए उपयुक्त है:
Gmail या LinkedIn;
Salesforce या कस्टमर सपोर्ट बैकएंड;
इंटरनल डैशबोर्ड;
एक से अधिक वेबसाइट पर लॉग इन अनुसंधान;
Form dependent on your account or browser extension.
इंस्टॉलेशन विधि: Codex के Plugins को खोलें, Chrome जोड़ें, और सेटअप प्रक्रिया के अनुसार कार्य करें। Codex आपको Codex Chrome एक्सटेंशन इंस्टॉल करने और Chrome के अधिकारों को मंजूर करने के लिए मार्गदर्शन करेगा। जब एक्सटेंशन Connected दिखाए, तो एक नया थ्रेड शुरू करें।
ट्रिगर तरीका: @Chrome का उल्लेख करें, या स्पष्ट रूप से Codex को आपके लॉग इन किए गए Chrome ब्राउज़र का उपयोग करने के लिए कहें:
Chrome के कार्य टैब समूह में चलते हैं, जिससे किसी विशिष्ट Codex थ्रेड से संबंधित टैबों को एक साथ रखने में मदद मिलती है। इंटरनल ब्राउज़र के विपरीत, यह इंटरफ़ेस आपकी ब्राउज़र पहचान को ले जाता है। इससे यह अधिक क्षमतावान और संवेदनशील हो जाता है।
एक अन्य प्रमुख लाभ बहु-टैब नियंत्रण है। Chrome एक ही कार्य के साथ कई टैब्स को जोड़ सकता है, जिससे आप एक पेज पर संदर्भ पढ़ सकते हैं, दूसरे पेज पर जानकारी की तुलना कर सकते हैं, और तीसरे पेज पर कार्यप्रवाह जारी रख सकते हैं। Computer Use भी दृश्य रूप से ब्राउज़र को चला सकता है, लेकिन Chrome कार्य को स्क्रीन कोऑर्डिनेट्स की एक श्रृंखला के बजाय एक ब्राउज़र कार्यप्रवाह के रूप में समझता है।
हाल ही में एक थ्रेड था, जिसमें मैंने एक खुला हुआ Strudel Composer टैब Codex को सौंप दिया, ताकि वह संगीत को अधिक रोचक बना सके। Chrome ने इसे चयनित टैब और इस पेज द्वारा प्रदान किए गए WebMCP उपकरणों को प्रदान किया। Codex ने संगीत संरचना की जांच की, संगति और चार मिनट की कुल रचना को पुनः लिखा, गति में संशोधन किया, ट्रैक को सहेजा, और इसे चलते रहने दिया। इसे हर कंट्रोल को विजुअली खोजने की आवश्यकता नहीं थी, क्योंकि Chrome टैब के संदर्भ को पेज द्वारा प्रदान की गई संरचित क्षमताओं के साथ मिला सकता है।
मैं इसका उपयोग एक लंबे Twitter थ्रेड के लिए भी करता हूँ। लगभग निर्देश हैं:
दिलचस्प बात यह है कि Codex Twitter खोल सकता है, बल्कि यह थ्रेड लंबे समय तक एक ही लॉगइन किए गए कार्य परिवेश में वापस आ सकता है, जिससे खोजे गए विषयों को स्थानीय फ़ाइलों से जोड़ा जा सके और मेरे लिए समीक्षा के लिए परिणाम छोड़ा जा सके।
यहाँ विश्वास की सीमा महत्वपूर्ण है। वेबसाइट कोडेक के क्लिक, फॉर्म सबमिशन और संदेश भेजने को आपके द्वारा किए गए कार्रवाई के रूप में मान सकती है। वेब पेज की सामग्री भी अविश्वसनीय इनपुट है। गंभीर परिणाम वाले कदमों को स्पष्ट रूप से अलग करें: अनुसंधान, नेविगेशन और मसौदा ऑटोमेटिक रूप से पूरा किया जा सकता है; भेजने, प्रकाशित करने, खरीदने या सबमिट करने से पहले, आपको समीक्षा करनी होगी।
यदि पूरा कार्य ब्राउज़र में ही पूरा किया जा रहा है, तो Computer Use के बजाय Chrome का उपयोग करें। Chrome के पास इस प्रकार के कार्यों के लिए ब्राउज़र-नेटिव कॉन्टेक्स्ट होता है, और यह पूरी डेस्कटॉप तक की पहुंच को विस्तारित नहीं करता।
अपने वेबसाइट को ऐप के अंदर @Browser का उपयोग करके संभालें
एप्लिकेशन इंटरनल ब्राउज़र Codex थ्रेड के भीतर एक ब्राउज़र है। आप और Codex एक ही रेंडर किए गए पेज को साझा करते हैं, इसलिए यह वेब एप्लिकेशन बनाने और डीबग करने के लिए विशेष रूप से उपयुक्त है।
मैं आमतौर पर यहीं से शुरू करता हूँ:
स्थानीय डेवलपमेंट सर्वर;
फ़ाइल-आधारित प्रीव्यू पेज;
लॉगिन की आवश्यकता वाले सार्वजनिक पृष्ठ;
विजुअल बग को दोहराएं;
जांचें रिस्पॉन्सिव लेआउट;
Provide feedback on the design of page elements.
इसका सबसे महत्वपूर्ण प्रतिबंध अलगाव है। इंटरनल ब्राउज़र आपके सामान्य ब्राउज़र प्रोफ़ाइल, कुकीज़, एक्सटेंशन, लॉगिन सत्र या मौजूदा टैब का उपयोग नहीं करता है। जब कार्य के लिए खाता पहचान की आवश्यकता होती है, तो यह एक सीमा है; लेकिन जब कार्य के लिए खाता की आवश्यकता नहीं होती है, तो यह एक उपयोगी सीमा बन जाता है।
सेटअप विधि: Codex के प्लगइन्स को खोलें, ब्राउज़र प्लगइन जोड़ें और इसे सक्षम करें।
ट्रिगर तरीका: प्रॉम्प्ट में @Browser का उल्लेख करें, या स्पष्ट रूप से आवेदन के अंदरूनी ब्राउज़र का उपयोग करने के लिए Codex को निर्देश दें:
यह एक संकुचित प्रतिक्रिया चक्र बनाता है: कोडेक कोड संपादित कर सकता है, पेज को संचालित कर सकता है, रेंडरिंग स्थिति की जांच कर सकता है, स्क्रीनशॉट ले सकता है, और ठीक करने के बाद एक ही प्रक्रिया को पुनः सत्यापित कर सकता है।
मेरा सबसे पसंदीदा हिस्सा टैगिंग है। जब मैं किसी स्थानीय ऐप की समीक्षा करता हूँ, तो मैं सीधे किसी तत्व पर क्लिक कर सकता हूँ या किसी क्षेत्र को सेलेक्ट करके टिप्पणी छोड़ सकता हूँ। स्टाइल कंट्रोल्स मुझे टेक्स्ट, फॉन्ट, स्पेसिंग और रंग का अधिक सटीक पूर्वावलोकन और प्रतिक्रिया देने में सक्षम बनाते हैं। मैं आमतौर पर इसे वॉइस इनपुट और प्रोसेस गाइडेंस के साथ जोड़ता हूँ: मैं पेज की समीक्षा करता हूँ, टिप्पणियाँ छोड़ता हूँ, और जब Codex वर्तमान प्रतिक्रिया को प्रोसेस कर रहा होता है, तो मैं अधिक टिप्पणियाँ जोड़ने के लिए कतार में जारी रहता हूँ। यह पेज स्वयं स्पेसिफिकेशन डॉक्यूमेंट बन जाता है।
यह डिज़ाइन कार्य के लिए विशेष रूप से उपयोगी है। मैं अक्सर Codex से एक विचार, एक शोध पैकेज, या एक प्रोजेक्ट स्टेटस को एकल फ़ाइल index.html में संगठित करने के लिए कहता हूँ, और फिर इसे एप्लिकेशन के अंदर के ब्राउज़र में खोलता हूँ। एक अलग प्रॉम्प्ट में पूरे डिज़ाइन को वर्णित करने के बजाय, मैं सीधे वास्तविक पेज पर टिप्पणी कर सकता हूँ: "यह हायरार्की उल्टी है", "यहाँ कार्ड की तरह नहीं होना चाहिए", "इन कंट्रोल्स को अधिक स्थान की आवश्यकता है", या "सभी साइट पर इस फॉन्ट स्केलिंग का उपयोग करें"। Codex को संबंधित स्क्रीनशॉट और एलिमेंट कंटेक्स्ट के साथ टिप्पणियाँ मिलती हैं, वह फ़ाइल में संशोधन करता है, और फिर अगले चक्र के लिए एक ही पेज को पुनः खोलता है।
यह चक्र एक डिज़ाइनर के साथ एक ही कैनवास पर काम करने के बजाय स्क्रीनशॉट और टेक्स्ट निर्देशों को आपस में भेजने के बहुत करीब है।
ऐप-इंटरनल ब्राउज़र को मिक्स्ड वर्कफ्लो की शुरुआत के रूप में भी उपयोग किया जा सकता है। एक अन्य थ्रेड में, मैंने ऐप-इंटरनल ब्राउज़र में एक X पोस्ट खोली, ताकि Codex संबंधित चर्चा की जांच कर सके। दृश्यमान पेज ने इसे पुष्टि करने में मदद की कि मैं किस पोस्ट की बात कर रहा हूँ; इसके बाद Codex ने Twitter CLI पर स्विच किया और 38 रिप्लाइज़ प्राप्त कीं, जिनमें ब्राउज़र व्यू द्वारा छुपाए गए नेस्टेड रिप्लाइज़ भी शामिल थे। यही “सबसे संकीर्ण ऑपरेशन इंटरफ़ेस का उपयोग करें” सिद्धांत का अनुप्रयोग है: ब्राउज़र का उपयोग स्क्रीन पर संदर्भ की पुष्टि के लिए करें, और गहरी खोज के लिए संरचित उपकरणों का उपयोग करें।
यहां भी एक समझौता है। इंटरनल ब्राउज़र की अलगाव सुविधा इसे एक अच्छा डेवलपमेंट इंटरफेस बनाती है, लेकिन इसका अर्थ है कि यह Google लॉगिन, passkey, या ब्राउज़र एक्सटेंशन पर निर्भर करने वाली वेबसाइट्स के लिए उपयुक्त नहीं है। जब पहचान महत्वपूर्ण हो, तो Chrome पर स्विच करें।
ऐपशॉट्स
Appshot Codex कंप्यूटर को नियंत्रित करने का चौथा तरीका नहीं है। यह एक ऐसी विधि है जो Codex को आपके सामने के संदर्भ की ओर इशारा करती है।
मैक पर, दो बार CMD कुंजी दबाएं ताकि हाल की विंडो को कैप्चर किया जा सके। कोडेक एक छवि और सभी उपलब्ध पाठ को थ्रेड में जोड़ देगा। आप किसी त्रुटि, ईमेल, डिज़ाइन, सेटिंग पैनल या अज्ञात फॉर्म के लिए ऐपशॉट ले सकते हैं, और फिर सीधे कह सकते हैं:
यही मेरा सबसे आसानी से याद रखने वाला मानसिक मॉडल है: Appshots आपका उपयोग कंप्यूटर पर किसी चीज को इशारा करने के लिए करते हैं; Browser, Chrome और Computer Use Codex द्वारा कार्रवाई करने के तरीके हैं।
Appshots अभी macOS पर Codex ऐप के माध्यम से बनाए जाते हैं। यह पूरे डेस्कटॉप के बजाय सबसे आगे की विंडो को कैप्चर करता है। इससे यह एक उपयोगी तरीका बनता है: आप फोकस्ड कंटेक्स्ट प्रदान कर सकते हैं, बिना उस ऐप को नियंत्रण का अधिकार दिए।
इन उन्नतियों का अनुसरण कैसे करें
ये ऑपरेशन इंटरफेस बहुत तेजी से बदल रहे हैं। यदि आप एक विशाल प्रकाशन सारांश का इंतजार करने के बजाय व्यावहारिक विवरण चाहते हैं:
Ari Weinstein (@AriX) को फॉलो करें, Computer Use और Appshots के बारे में जानकारी के लिए;
ब्राउज़र से संबंधित जानकारी के लिए James Sun (@JamesZmSun) को फॉलो करें;
Andrew Ambrosino (@ajambrosino) को फॉलो करें, Codex ऐप लॉन्च और बड़े डेस्कटॉप उत्पाद कहानी के लिए;
OpenAI Developers (@OpenAIDevs) को फॉलो करें ताकि Codex और OpenAI Platform के बारे में अधिक समाचार प्राप्त कर सकें।
