সম্পাদকীয় নোট: এই নিবন্ধটি Codex-এর বাহ্যিক পরিবেশে প্রবেশের তিনটি পথ সম্পর্কে আলোচনা করে: Computer Use, Chrome এক্সটেনশন এবং অ্যাপ-অন্তর্ভুক্ত Browser। এই তিনটি পথ প্রতিটি মনে হয় যেন “Codex-কে কম্পিউটার ব্যবহার করতে শেখানো” সমস্যার সমাধান করছে, কিন্তু এগুলি ভিন্ন ভিন্ন টাস্ক স্কেনারিও, অনুমতির সীমানা এবং বিশ্বাসের মাত্রা নির্দেশ করে।
তার মধ্যে, Computer Use সবচেয়ে ব্যাপকভাবে ব্যবহার করা যায়, যা অনুমোদিত ম্যাকওএস/উইন্ডোজ নেটিভ অ্যাপ, সিস্টেম সেটিংস, iOS সিমুলেটরকে সরাসরি নিয়ন্ত্রণ করতে পারে এবং একাধিক অ্যাপের মধ্যে কাজের প্রবাহও সম্পন্ন করতে পারে। এটি GUI-ভিত্তিক প্রক্রিয়াগুলির জন্য উপযুক্ত, যেখানে API, প্লাগইন বা স্ট্রাকচারড টুলসের সমর্থন নেই, কিন্তু এর মূল্য হলো ধীরগতি এবং সবচেয়ে ব্যাপক অনুমতির সীমা। Chrome এক্সটেনশনগুলি লগইন অবস্থা, কুকিজ, একাধিক ট্যাব এবং ব্রাউজার পরিচয়ের উপর নির্ভরশীল কাজের জন্য উপযুক্ত, যেমন Gmail, LinkedIn, Salesforce, অভ্যন্তরীণ ব্যাকএন্ড, বা একাধিকওয়েবসাইটের মধ্যে লগইনকৃত গবেষণা। অ্যাপ-অন্তর্ভুক্ত ব্রাউজারটি বিশেষত ডেভেলপমেন্ট এবং ডিবাগিংয়ের জন্য উপযুক্ত, বিশেষত লোকাল সার্ভিস, ভিজুয়াল বাগ, রেসপনসিভ লেআউট এবং ডিজাইন মন্তব্যের জন্য; এটি ব্যবহারকারীর সাধারণ ব্রাউজারের লগইন অবস্থা উত্তরাধিকারসূত্রে পায়না, ক্ষমতা সীমিত, কিন্তু আইসোলেশনও বেশি।
লেখার মূল বিচার হল যে, কোডেকের একটিমাত্র "কম্পিউটার ব্যবহার" পদ্ধতি নেই; সত্যিকারের গুরুত্ব হল কাজের জন্য সবচেয়ে সংকীর্ণ, সবচেয়ে নিরাপদ এবং সবচেয়ে স্ট্রাকচারড ইন্টারফেসটি বাছাই করা। প্লাগইন বা MCP ব্যবহার করা যায়, তবে ভিজুয়াল কন্ট্রোলের দিকে আগে যাওয়া উচিত নয়; যদি কাজটি শুধুমাত্রওয়েব ডেভেলপমেন্ট সংক্রান্ত হয়, তবে অ্যাপ-অন্তর্ভুক্ত ব্রাউজারটি প্রাধান্য দিন; ব্যবহারকারীর ব্রাউজারের পরিচয় এবং লগইন অবস্থা প্রয়োজন হলে, তখন Chrome-এ স্যুইচ করুন; শুধুমাত্র যখন স্ট্রাকচারড টুলগুলি কভার করতে অক্ষম হয় এবং কাজটি ডেস্কটপ গ্রাফিক্যাল ইন্টারফেসের উপর নির্ভরশীল হয়, তখনই Computer Use শেষ কিলোমিটার।
অ্যাপশটস হল কম্পিউটার নিয়ন্ত্রণের চতুর্থ পদ্ধতি নয়, বরং বর্তমান স্ক্রিন কনটেক্সটকে "কোডেক্সের দিকে নির্দেশ করার" একটি টুল। এটি কনটেক্সট ইনপুট সমস্যা সমাধান করে, যখন ব্রাউজার, ক্রোম এবং কম্পিউটার ব্যবহার কার্যকলাপের সমস্যা সমাধান করে। একসাথে দেখলে, এই স্তরবদ্ধ পদ্ধতি AI এজেন্টের পণ্যকরণের মূল বিষয়টি প্রকাশ করে: মডেলকে অসীম অধিকার দেওয়া নয়, বরং নির্দিষ্ট কাজের মধ্যে অধিকারকে ধাপে ধাপে সংকুচিত করা, সীমানা পরিষ্কারভাবে নির্ধারণ করা, এবং ব্যবহারকারীকে গুরুত্বপূর্ণ কার্যকলাপগুলির জন্য অনুমোদনের অধিকার রাখা।
নিম্নলিখিত মূল পাঠ:
কোডেক্স ব্যবহার করার জন্য তিনটি উপায় রয়েছে: কম্পিউটার ব্যবহার, ক্রোম এক্সটেনশন এবং ইন-অ্যাপ ব্রাউজার।
এদের মধ্যে কিছু ওভারল্যাপ আছে, যা বিভ্রান্তিকর হয়ে উঠেছে।
এই নিবন্ধটি পড়ার পর, আপনি জানতে পারবেন কিভাবে এই তিনটি পদ্ধতি ইনস্টল এবং ট্রিগার করবেন, কোন পরিস্থিতিতে কোনটি ব্যবহার করবেন, Appshots এবং Developer mode কিভাবে এগুলিকে সংযুক্ত করবেন, এবং Codex নিজেই উপযুক্ত ইন্টারফেসটি নির্বাচন করতে AGENTS.md-এ কী লিখবেন।
সিম্পল ভার্সন হল:

এই কথাটা বলার পরেও, সম্ভব হলে প্লাগইন বা MCP ব্যবহার করুন। উদাহরণস্বরূপ, Slack প্লাগইনটি Slack-এর মধ্যে বিভিন্ন জায়গায় ক্লিক করার চেয়ে একটি থ্রেডকে আরও সঠিকভাবে অনুসন্ধান করতে পারে; GitHub প্লাগইন দ্বারা উৎপন্ন অপারেশনগুলি Codex-এর মাধ্যমে ওয়েবসাইট চালানোর চেয়ে পরীক্ষা করা সহজ। ভিজুয়াল কন্ট্রোল সবচেয়ে বেশি উপযুক্ত যখন স্ট্রাকচারড টুলের ক্ষমতা সীমানা পৌঁছে।
সবকিছুই @Computer হতে পারে
কম্পিউটার ব্যবহার এই তিনটি ইন্টারফেসের মধ্যে সবচেয়ে ব্যাপকভাবে ব্যবহৃত। এটি Codex-কে macOS এবং Windows-এ উইন্ডো, মেনু, কীবোর্ড ইনপুট এবং আপনার অনুমোদিত অ্যাপ্লিকেশনের ক্লিপবোর্ড দেখতে এবং নিয়ন্ত্রণ করতে সক্ষম করে।
এটি সাধারণত সবচেয়ে ধীরগতিরও। স্ট্রাকচার্ড প্লাগইন সরাসরি API কল করতে পারে; কম্পিউটার ব্যবহারের ক্ষেত্রে ইন্টারফেস পর্যবেক্ষণ করে, কোথায় ক্লিক করতে হবে তা বিচার করে, অ্যাপ্লিকেশনের প্রতিক্রিয়ার জন্য অপেক্ষা করে, এবং পরবর্তী অবস্থা পরীক্ষা করতে হয়। এই দৃশ্যমান চক্রটি সময় নেয়, কিন্তু এর মানে হলো Codex-এর জন্য এমন অ্যাপ্লিকেশনগুলি চালানো সম্ভব যেগুলির কোনো উপলব্ধ API নেই।
macOS-এ, ধীর হওয়া অপ্রয়োজনীয় ব্যাঘাতের অর্থ নয়। Computer Use আপনার অনুমোদিত অ্যাপ্লিকেশনগুলির পিছনে কাজ করতে পারে, যখন আপনি কম্পিউটারের অন্যান্য অংশগুলি ব্যবহার করছেন। অনেক সময়, আমি Codex-এর সাথে কোনো অ্যাপ্লিকেশন খুললাম, এবং তখনই বুঝতে পারলাম যে Codex ইতিমধ্যেই পিছনে শান্তিতে একটি ওয়ার্কফ্লো সম্পন্ন করেছে।
আপনার কম্পিউটারে ইনস্টল এবং অনুমোদিত অ্যাপগুলির উপর ভিত্তি করে, এই অপারেশনগুলি Spotify, Xcode, System Settings, iOS সিমুলেটর এবং এমনকি iPhone Mirroring ব্যবহার করে আপনার iPhone নিয়ন্ত্রণ করতে পারে। এটি একাধিক অ্যাপের মধ্যে সwich করতে পারে এবং বিভিন্ন অ্যাপের মধ্যে বিস্তৃত কাজের প্রবাহ পরিচালনা করতে পারে।
যখন কাজটি নিম্নলিখিত বিষয়গুলির উপর নির্ভর করে, তখন এটি ব্যবহার করুন:
স্পটিফাই বা ফাইন্যান্সিয়াল অ্যাপ্লিকেশনের মতো নেটিভ ডেস্কটপ অ্যাপ্লিকেশন;
iOS সিমুলেটর, আইফোন মিররিং বা শুধুমাত্র গ্রাফিক্যাল ইন্টারফেসের মাধ্যমে পরিচালিত প্রক্রিয়াগুলি;
সিস্টেম বা অ্যাপ সেটিংস;
প্লাগইন বা এপিআই ছাড়া ডেটা সোর্স;
একাধিক অ্যাপ্লিকেশনের মধ্যে স্যুইচ করার ওয়ার্কফ্লো প্রয়োজন;
একটি স্ট্রাকচার্ড ইন্টিগ্রেশনের শেষ ধাপটি অনুপস্থিত।
ইনস্টলেশন পদ্ধতি: কোডেক্সের সেটিংস > কম্পিউটার ব্যবহার খুলুন, তারপর ইনস্টল ক্লিক করুন।
ট্রিগার পদ্ধতি: @Computer উল্লেখ করা বা স্পষ্টভাবে চাওয়া যে Codex-এর কাছে Computer Use ব্যবহার করতে হবে। মডেলের ক্ষমতা বৃদ্ধির সাথে সাথে, ভবিষ্যতে প্রয়োজনে এটি নিজেই এটি কল করবে।
কয়েকটি উদাহরণ পরীক্ষা করুন:
একটি উদাহরণ যা আমি সবচেয়ে বেশি পছন্দ করি, তা একটি প্যাকেজ চুরি হওয়ার কারণে শুরু হয়েছিল। অ্যামাজন আমাকে বলেছিল যে কাস্টমার সার্ভিসের সাথে যোগাযোগ করতে প্রায় ২৫ মিনিট অপেক্ষা করতে হবে। আমি একটি Codex থ্রেডকে Computer Use-এর হাতে দিলাম, যা প্রতি পাঁচ মিনিট পরপর চ্যাট উইন্ডো চেক করত, যখন কাস্টমার সার্ভিস আসবে, তখন প্রতি মিনিটে চেক করতে শুরু করবে এবং আমার জন্য রিফান্ড পাওয়ার জন্য সর্বোত্তম চেষ্টা করবে। যখন আমি স্নান করে ফিরলাম, তখন রিফান্ডটি ইতিমধ্যেই সম্পন্ন হয়েছিল।
আমি কম্পিউটার ব্যবহারকে স্ট্রাকচার্ড ওয়ার্কফ্লোর "লাস্ট মাইল" হিসেবেও ব্যবহার করি। একটি ভিডিও প্রকাশের সময়, কোডেক স্ল্যাক থেকে ফিডব্যাক পড়তে পারে, কোড পরিবর্তন করতে পারে এবং নতুন ভিডিও রেন্ডার করতে পারে, কিন্তু সেই সময় স্ল্যাক ইন্টিগ্রেশনটি ফাইল আপলোড করতে পারছিল না। তখন কম্পিউটার ব্যবহার "Add file"-এ ক্লিক করে এই অপসারিত ধাপটি পূরণ করে।
এটি তিনটির মধ্যে সবচেয়ে ব্যাপক ট্রাস্ট বাউন্ডারি রাখে। একসময় শুধুমাত্র একটি স্পষ্ট অ্যাপ্লিকেশন বা প্রক্রিয়া দিন। যখন কোনো সংবেদনশীল অ্যাপ্লিকেশন কাজের অংশ নয়, তখন বন্ধ রাখুন; অনুমতির পপ-আপগুলি সাবধানে পরীক্ষা করুন; আর্থিক, অ্যাকাউন্ট, পেমেন্ট, যাচাইকরণ, গোপনীয়তা এবং সিস্টেম নিরাপত্তা পরিবর্তনের ক্ষেত্রে, উপস্থিত থাকা সর্বোত্তম।
@Chrome ব্যবহার করে একাধিক ট্যাব এবং লগইন স্ট্যাটাস পরিচালনা করুন
Codex Chrome এক্সটেনশনটি Codex-কে আপনার ইতিমধ্যে লগইন করা Chrome স্টেটসে অ্যাক্সেস দেয়। যখন কোনো টাস্ক অ্যাকাউন্ট, কুকিজ, ব্রাউজার প্রোফাইল বা আপনি ইতিমধ্যে খোলা এবং অথেনটিকেট করা ট্যাবের উপর নির্ভর করে, তখন এটি ব্যবহার করুন।
এই ধরনের ইন্টারফেস নিম্নলিখিত টুলগুলির কাজের জন্য উপযুক্ত:
Gmail বা LinkedIn;
Salesforce বা কাস্টমার সার্ভিস ব্যাকএন্ড;
অন্তর্গত ড্যাশবোর্ড;
একাধিক ওয়েবসাইটে লগইন করা গবেষণা;
আপনার অ্যাকাউন্ট বা ব্রাউজার এক্সটেনশনের ফর্মের উপর নির্ভর করুন।
ইনস্টলেশন পদ্ধতি: Codex-এর Plugins খুলুন, Chrome যোগ করুন এবং সেটআপ প্রক্রিয়া অনুসরণ করুন। Codex আপনাকে Codex Chrome এক্সটেনশন ইনস্টল এবং Chrome অনুমতি অনুমোদন করতে সহায়তা করবে। এক্সটেনশনটি Connected দেখানোর পর, একটি নতুন থ্রেড শুরু করুন।
ট্রিগার পদ্ধতি: @Chrome উল্লেখ করুন, অথবা স্পষ্টভাবে চাইবেন যে Codex আপনার লগইন করা Chrome ব্রাউজার ব্যবহার করুক:
ক্রোম টাস্কগুলি ট্যাব গ্রুপে চলে, যা কোনো কোডেক থ্রেডের সাথে সম্পর্কিত ট্যাবগুলিকে একত্রিত করতে সহায়তা করে। অ্যাপ-ভিত্তিক ব্রাউজারের বিপরীতে, এই ইন্টারফেসটি আপনার ব্রাউজার পরিচয় বহন করে। এটি এটিকে আরও শক্তিশালী এবং আরও সংবেদনশীল করে তোলে।
অন্য একটি প্রধান সুবিধা হল একাধিক ট্যাব নিয়ন্ত্রণ। ক্রোম একাধিক ট্যাবকে একই কাজের সাথে সংযুক্ত করতে পারে, একটি পেজে প্রেক্ষাপট পড়তে পারে, অন্য একটি পেজে তথ্যের সাথে তুলনা করতে পারে, এবং তৃতীয় পেজে কাজের প্রবাহ চালিয়ে যেতে পারে। Computer Use-ও ভিজুয়ালি ব্রাউজারকে চালাতে পারে, কিন্তু ক্রোম কাজটিকে একটি সিরিজ স্ক্রিন কোঅর্ডিনেট অপারেশনের পরিবর্তে একটি ব্রাউজার ওয়ার্কফ্লো হিসাবে বুঝতে পারে।
সাম্প্রতিক একটি থ্রেডে, আমি একটি খোলা Strudel Composer ট্যাবকে Codex-এর দিকে পাঠিয়েছিলাম, যাতে এটি সঙ্গীতকে আরও আকর্ষণীয় করে তোলে। Chrome এটিকে নির্বাচিত ট্যাব এবং এই পৃষ্ঠায় প্রকাশিত WebMCP টুলগুলি প্রদান করেছিল। Codex সঙ্গীতের কাঠামো পরীক্ষা করে, হারমনি এবং চার মিনিটের সমগ্র গঠন পুনর্লিখন করে, গতি পরিবর্তন করে, ট্র্যাকটি সংরক্ষণ করে এবং এটি চলতে থাকে। এটি ইন্টারফেসের প্রতিটি নিয়ন্ত্রণকে দৃশ্যমানভাবে অনুসন্ধান করার প্রয়োজনীয়তা বহন করেনি, কারণ Chrome ট্যাবের প্রসঙ্গকে পৃষ্ঠা দ্বারা প্রদত্ত সংগঠিত ক্ষমতাগুলির সাথে একীভূত করতে পারে।
আমি এটি একটি দীর্ঘমেয়াদী টুইটার থ্রেড চালানোর জন্যও ব্যবহার করি। প্রায় নির্দেশনা হল:
সর্বাধিক আকর্ষণীয় বিষয় হলো, Codex শুধুমাত্র Twitter খুলতে পারে না, বরং এই থ্রেডটি দীর্ঘদিন ধরে একই লগইন করা কাজের পরিবেশে ফিরে আসতে পারে, আবিষ্কৃত বিষয়গুলিকে স্থানীয় ফাইলের সাথে সংযুক্ত করতে পারে এবং আমার জন্য একটি যাচাইয়ের জন্য ফলাফল রেখে যেতে পারে।
এখানে বিশ্বাসের সীমানা গুরুত্বপূর্ণ। ওয়েবসাইটটি কোডেক্সের ক্লিক, ফর্ম জমা এবং বার্তা পাঠানোকে আপনার দ্বারা প্রতিষ্ঠিত কার্য হিসেবে বিবেচনা করতে পারে। ওয়েবপৃষ্ঠার কনটেন্টটিও অবিশ্বস্ত ইনপুট। পরিণামগুলি গুরুতর ধাপগুলিকে স্পষ্টভাবে আলাদা করুন: গবেষণা, নেভিগেশন এবং খসড়া তৈরি স্বয়ংক্রিয়ভাবে সম্পন্ন করা যেতে পারে; পাঠানো, প্রকাশ, ক্রয় বা জমা দেওয়ার আগে, আপনাকে এটি পর্যালোচনা করতে হবে।
যদি সম্পূর্ণ কাজটি ব্রাউজারের মধ্যে সম্পন্ন হয়, তাহলে Computer Use-এর পরিবর্তে Chrome ব্যবহার করুন। Chrome-এর কাছে এই ধরনের কাজের জন্য ব্রাউজার-ন্যাটিভ কনটেক্সট রয়েছে, এবং এটি ডেস্কটপের সম্পূর্ণ অ্যাক্সেসকে বাড়ায় না।
আপনি যে ওয়েবসাইটটি ডেভেলপ করছেন তা অ্যাপের অন্তর্ভুক্ত @Browser ব্যবহার করে পরিচালনা করুন
অ্যাপ ইনব্রাউজার হল কোডেক্স থ্রেডের ভিতরে অবস্থিত একটি ব্রাউজার। আপনি কোডেক্সের সাথে একই রেন্ডার পেজ শেয়ার করেন, তাই এটি ওয়েব অ্যাপ্লিকেশন তৈরি এবং ডিবাগ করার জন্য বিশেষভাবে উপযুক্ত।
আমি সাধারণত এখান থেকে শুরু করি:
স্থানীয় ডেভেলপমেন্ট সার্ভার;
ফাইল ভিত্তিক প্রিভিউ পেজ;
লগইন ছাড়াই প্রকাশ্য পৃষ্ঠা;
ভিজুয়াল বাগটি পুনরায় উত্পাদন করুন;
রেসপনসিভ লেআউট পরীক্ষা করুন;
পৃষ্ঠার উপাদানগুলির ডিজাইনের জন্য প্রতিক্রিয়া দিন।
এর সবচেয়ে গুরুত্বপূর্ণ সীমাবদ্ধতা হল বিচ্ছিন্নতা। অ্যাপের ভিতরের ব্রাউজার আপনার সাধারণ ব্রাউজার প্রোফাইল, কুকিজ, এক্সটেনশন, লগইন সেশন বা বিদ্যমান ট্যাবগুলি ব্যবহার করবে না। যখন কাজটি অ্যাকাউন্টের পরিচয় প্রয়োজন করে, তখন এটি একটি সীমাবদ্ধতা; কিন্তু যখন কাজটির অ্যাকাউন্টের প্রয়োজন হয় না, তখন এটি একটি কার্যকরী সীমা।
সেটআপ পদ্ধতি: কোডেক্সের প্লাগইন খুলুন, ব্রাউজার প্লাগইন যোগ করুন এবং এটি সক্রিয় করুন।
ট্রিগার পদ্ধতি: প্রম্পটে @Browser উল্লেখ করুন বা স্পষ্টভাবে নির্দেশ দিন যে Codex-এর অভ্যন্তরীণ ব্রাউজার ব্যবহার করা হবে:
এটি একটি ঘনিষ্ঠ ফিডব্যাক লুপ তৈরি করে: কোডেক্স কোড সম্পাদনা করতে পারে, পেজ পরিচালনা করতে পারে, রেন্ডারিং অবস্থা পরীক্ষা করতে পারে, স্ক্রিনশট নিতে পারে, এবং ঠিক করার পরে একই প্রক্রিয়াটি পুনরায় যাচাই করতে পারে।
আমার সবচেয়ে পছন্দের বিষয়টি হল মন্তব্য যোগ করা। যখন আমি একটি স্থানীয় অ্যাপ্লিকেশন রিভিউ করি, তখন আমি সরাসরি কোনো উপাদানে ক্লিক করতে পারি বা একটি অঞ্চল সিলেক্ট করে মন্তব্য রাখতে পারি। স্টাইল নিয়ন্ত্রণগুলি আমাকে টেক্সট, ফন্ট, স্পেসিং এবং রং পূর্বাবলোকন এবং ফিডব্যাক দেওয়ার জন্য আরও সূক্ষ্মভাবে সক্ষম করে। আমি সাধারণত এটিকে ভয়েস ইনপুট এবং প্রক্রিয়া-গাইডেড সহযোগিতার সাথে মিশিয়ে নিই: আমি পেজটি রিভিউ করি, মন্তব্য রাখি, এবং Codex-এর বর্তমান ফিডব্যাকটি প্রক্রিয়াকরণের সময়ও আরও মন্তব্য যোগ করতে থাকি। এই পেজটিই হয়ে ওঠে স্পেসিফিকেশন।
এটি ডিজাইন কাজের জন্য বিশেষভাবে উপযোগী। আমি প্রায়শই Codex-কে একটি ধারণা, একটি গবেষণা প্যাকেজ বা একটি প্রকল্পের অবস্থা একটি একক ফাইল index.html-এ সাজাতে বলি, তারপর অ্যাপের অন্তর্নিহিত ব্রাউজারে এটি খুলি। অন্য একটি প্রম্পটের মধ্যে সম্পূর্ণ ডিজাইনটি বর্ণনা করার পরিবর্তে, আমি সরাসরি বাস্তব পৃষ্ঠায় মন্তব্য করতে পারি: “এই স্তরগুলি উল্টো,” “এখানে কার্ডের মতো হওয়া থেকে বিরত থাকুন,” “এই নিয়ন্ত্রণগুলির জন্য আরও স্থানের প্রয়োজন,” বা “সমস্ত ওয়েবসাইটে এই ফন্ট স্কেলটি ব্যবহার করুন।” Codex-এর কাছে সংশ্লিষ্ট স্ক্রিনশট এবং উপাদানের প্রসঙ্গসহ মন্তব্যগুলি পৌঁছায়, ফাইলটি সংশোধন করে, এবং পরবর্তী চক্রের জন্য একই পৃষ্ঠা পুনরায় খোলে।
এই চক্রটি স্ক্রিনশট এবং লিখিত নির্দেশাবলীর মধ্যে আদান-প্রদানের পরিবর্তে একজন ডিজাইনারের সাথে একই ক্যানভাসে কাজ করার মতো মনে হয়।
অ্যাপ ইনব্রাউজারটিকে মিক্সড ওয়ার্কফ্লোর শুরু হিসেবেও ব্যবহার করা যেতে পারে। অন্য একটি থ্রেডে, আমি একটি X পোস্ট অ্যাপ ইনব্রাউজারে খুলেছিলাম এবং কোডেক্সকে সংশ্লিষ্ট আলোচনা অনুসন্ধানের জন্য নির্দেশ দিয়েছিলাম। দৃশ্যমান পৃষ্ঠাটি এটিকে নিশ্চিত করতে সাহায্য করেছিল যে আমি কোন পোস্টটির কথা বলছি; তারপর কোডেক্স Twitter CLI-এ স্যুইচ করে 38টি প্রতিক্রিয়া পেয়েছে, যার মধ্যে ব্রাউজার ভিউয়ে লুকিয়ে থাকা নেস্টেড রিপ্লাইগুলিও অন্তর্ভুক্ত। এটি “সবচেয়ে সংকীর্ণ অপারেশন ইন্টারফেস” নীতির প্রয়োগ: ব্রাউজার দিয়ে স্ক্রিনের কনটেক্সট নিশ্চিত করুন, তারপর গঠনমূলক টুলস ব্যবহার করে আরও গভীরভাবে অনুসন্ধান করুন।
এখানেও একটি সমন্বয় রয়েছে। অ্যাপের অন্তর্নিহিত ব্রাউজারের আইসোলেশন এটিকে একটি দুর্দান্ত ডেভেলপমেন্ট ইন্টারফেস বানিয়েছে, কিন্তু এর অর্থ হল এটি Google লগইন, passkey, বা ব্রাউজার এক্সটেনশনের উপর নির্ভরশীল ওয়েবসাইটগুলির জন্য উপযুক্ত নয়। যখন পরিচয় গুরুত্বপূর্ণ, তখন Chrome-এ স্যুইচ করুন।
অ্যাপশটস
Appshot হল Codex-এর কম্পিউটার নিয়ন্ত্রণের চতুর্থ পদ্ধতি নয়। এটি হল আপনার বর্তমান প্রেক্ষাপটের দিকে Codex-কে নির্দেশ করার একটি পদ্ধতি।
ম্যাক-এ, সাম্প্রতিক উইন্ডোটি ধরতে দুইবার CMD কী চাপুন। কোডেক একটি ছবি এবং সমস্ত উপলব্ধ টেক্সটকে থ্রেডে যুক্ত করবে। আপনি একটি ত্রুটি, একটি ইমেইল, একটি ডিজাইন, একটি সেটিংস প্যানেল বা একটি অপরিচিত ফর্মের জন্য অ্যাপশট করতে পারেন এবং সরাসরি বলুন:
এটিই আমার কাছে সবচেয়ে বেশি মনে রাখার মতো মানসিক মডেল: Appshots হল আপনি যেভাবে কম্পিউটারের কোনো জিনিসের দিকে ইঙ্গিত করেন; Browser, Chrome এবং Computer Use হল Codex-এর কার্যকলাপের উপায়।
Appshots এখন macOS-এর Codex অ্যাপের মাধ্যমে তৈরি করা হয়। এটি ডেস্কটপের সম্পূর্ণ পৃষ্ঠা নয়, বরং সবচেয়ে সামনের উইন্ডোটি ধরে রাখে। এটি একটি কার্যকরী উপায় হিসেবে কাজ করে: আপনি কন্ট্রোল প্রদান না করেই ফোকাসযুক্ত প্রেক্ষাপট প্রদান করতে পারেন।
এই প্রগতির সাথে কীভাবে অগ্রসর হবেন
এই ইন্টারফেসের পরিবর্তনগুলি খুব দ্রুত ঘটছে। যদি আপনি একটি বিশাল প্রকাশনা সারাংশ অপেক্ষা না করে ব্যবহারিক বিস্তারিত পেতে চান:
কম্পিউটার ব্যবহার এবং অ্যাপশটস সম্পর্কে জানতে অ্যারি ওয়েনস্টাইন (@AriX) কে ফলো করুন;
ব্রাউজার সম্পর্কিত বিষয়গুলির জন্য James Sun (@JamesZmSun)-কে ফলো করুন;
কোডেক অ্যাপ প্রকাশ এবং বড় ডেস্কটপ পণ্য ন্যারেটিভ সম্পর্কে জানতে অ্যান্ড্রু অ্যাম্ব্রোসিনো (@ajambrosino) কে ফলো করুন;
ব্যাপক কোডেক এবং ওপেনএআই প্ল্যাটফর্মের সংবাদ জানতে OpenAI Developers (@OpenAIDevs) কে ফলো করুন।
