Editor’s Note: Ang artikulong ito ay naglalahad ng tatlong paraan kung paano ginagamit ng Codex ang panlabas na kapaligiran: Computer Use, Chrome Extension, at in-app Browser. Bagaman ang lahat ng tatlo ay tila naglalayong solusyunan ang “pagpapagana ng Codex sa paggamit ng computer,” bawat isa ay nakatuon sa iba’t ibang escenario ng gawain, hangganan ng pahintulot, at antas ng tiwala.
Kung saan, ang Computer Use ay may pinakalawak na sakop at diretso itong maaaring gamitin upang i-operate ang mga orihinal na app, system settings, at iOS simulator sa macOS/Windows, kahit na magawa ang mga workflow sa iba’t ibang app. Ito ay angkop para sa mga GUI workflow na walang suporta sa API, plugin, o structured tools, ngunit ang halaga nito ay mas mabagal na bilis at mas malawak na hangganan ng pahintulot. Ang Chrome Extension naman ay angkop para sa mga gawain na nakadepende sa login state, cookies, multi-tab, at browser identity, tulad ng Gmail, LinkedIn, Salesforce, internal backends, o logged-in research sa maraming website. Ang In-App Browser ay mas nakatuon sa development at debugging scenarios, lalo na para sa local services, visual bugs, responsive layouts, at design annotations; ito ay hindi nagmamana ng login state ng karaniwang browser ng user, mas limitado ang kakayahan, ngunit mas malakas ang isolation.
Ang pangunahing pagtataya sa artikulo ay ang Codex ay hindi nagtataglay ng isang "paggamit ng computer" lamang; ang tunay na mahalaga ay pumili ng pinakamaliit, pinakaligtas, at pinakamalikhain na interface batay sa gawain. Kung maaaring gamitin ang plugin o MCP, huwag muna gamitin ang visual control; kung ang gawain ay tungkol lamang sa web development, gamitin muna ang in-app Browser; mag-switch lamang sa Chrome kung kailangan ng user browser identity at login status; at ang Computer Use ay ang huling hakbang lamang kapag hindi kayang sakop ng structured tools at kailangan ng task ang desktop graphical interface.
Ang Appshots ay hindi ang ikaapat na paraan ng pagkontrol sa computer, kundi isang kasangkapan na nagpapakita sa Codex ng kasalukuyang screen context. Ito ay naglutas ng problema sa pag-input ng context, habang ang Browser, Chrome, at Computer Use ay naglutas ng problema sa pagkilos. Kapag pinag-uugnay, ang mga antas na ito ay nagpapakita ng susi sa produkto ng AI Agent: hindi ang pagbibigay ng walang hanggang pagsasakop sa modelo, kundi ang patuloy na pagpapaliit ng pagsasakop at pagtukoy ng hangganan sa loob ng partikular na gawain, at pagpapanatili ng karapatan ng user sa pagrerebyu ng mga mahahalagang kilos.
Narito ang orihinal na teksto:
May tatlong paraan ang Codex na gamitin ang computer: Computer Use, Chrome Extension, at in-app browser.
May ilang pagkakasunod-sunod sila, na sapat upang maging malabo.
Pagkatapos basahin ang artikulong ito, malalaman mo kung paano i-install at i-trigger ang mga paraang ito, kung saan dapat gamitin ang bawat isa, kung paano i-connect ang Appshots at Developer mode, at ano ang dapat isulat sa AGENTS.md upang makapagpili ang Codex ng tamang user interface.
Simple version:

Gayunpaman, kung posible, priorahin ang mga plugin o MCP. Halimbawa, ang Slack plugin ay mas tumpak sa paghahanap ng isang thread kaysa sa pag-click sa iba't ibang lugar sa Slack; ang mga aksyon na ginagawa ng GitHub plugin ay mas madaling i-check kaysa sa pagpapagana ng web page ng Codex. Ang visual control ay pinakamainam gamitin kung ang mga structured tool capabilities ay nasa hangganan na.
Lahat ay maaaring @Computer
Ang Computer Use ay ang pinakasaklaw na isa sa tatlong uri ng interface. Ito ay nagpapahintulot sa Codex na tingnan at gamitin ang graphical interface sa macOS at Windows, kabilang ang mga window, menu, keyboard input, at clipboard sa mga app na iyong pinahintulutan.
Karaniwan rin ito ang pinakamabagal. Ang structured plugin ay direktang nakakapag-call sa API; ang Computer Use naman ay kailangang obserbahan ang interface, matukoy kung saan dapat i-click, hintayin ang tugon ng aplikasyon, at pagkatapos ay i-check ang susunod na estado. Ang visual na siklo na ito ay nagpapalala ng oras, ngunit nangangahulugan ito na kayang i-operate ng Codex ang mga aplikasyon na walang available na API.
Sa macOS, ang pagiging mabagal ay hindi laging nangangahulugan na makakasagabal sa iyo. Ang Computer Use ay maaaring magpapatupad ng mga app na iyong pinagdudulot sa background, habang patuloy kang makakagamit ng iba pang bahagi ng iyong computer. Madalas, habang ako ay nagbubukas ng isang app habang gumagamit ng Codex, natutuklasan ko na ang Codex ay naka-complete na ng isang workflow sa background nang tahimik.
Batay sa mga app na nakakapag-install at nakapag-awtorisa sa iyong computer, ang mga objekto ng aksyon ay maaaring kasama ang Spotify, Xcode, System Settings, iOS Simulator, o kahit ang pag-control sa iyong iPhone gamit ang iPhone Mirroring. Maaari rin itong magpalit-palit sa mga app at tratuhin ang mga workflow na nagsasalibat sa iba’t ibang app.
Kapag nakadepende ang gawain sa sumusunod, maaari mong gamitin ito:
Native desktop applications, such as Spotify or financial applications;
iOS Simulator, iPhone Mirroring, o iba pang mga proseso na maaaring i-operate lamang sa pamamagitan ng graphical interface;
Mga setting ng sistema o aplikasyon;
Walang source ng data na may plugin o API;
Workflow na nangangailangan ng paglipat sa pagitan ng maraming app;
Huling hakbang na nawawala sa isang structured integration.
Para i-install: Buksan ang Settings ng Codex > Computer Use, tapos i-click ang Install.
Para sa pag-trigger: Sipiin ang @Computer, o kung kailangan nang malinaw na gamitin ng Codex ang Computer Use. Habang tumataas ang kakayahan ng modelo, sa hinaharap ay magpapatakbo ito nang sarili nito kapag kailangan.
Maaari muna naming subukan ang ilang halimbawa:
Ang isa sa aking pinakamahalagang halimbawa ay nagsimula nang mawala ang isang pakete. Sinabi sa akin ng Amazon na kailangan kong hintayin ang mga 25 minuto bago makakausap ang customer service. Ibinigay ko ang isang Codex thread sa Computer Use upang suriin ang chat window tuwing limang minuto, at pagkatapos ay magbago sa tuwing isang minuto kapag lumabas ang customer service, at subukang tulungan akong makakuha ng refund. Nang bumalik ako pagkatapos ng aking bath, tapos na ang refund.
Ginagamit ko rin ang Computer Use bilang "last mile" sa structured workflow. Sa isang pagpapalabas ng video, maaaring basahin ng Codex ang feedback mula sa Slack, baguhin ang code, at i-render ang bagong video, ngunit ang Slack integration sa thread ay hindi nakapag-upload ng file noon. Kaya ginamit ng Computer Use ang Add file upang punan ang nawawalang hakbang.
Ito rin ang may pinakalawak na trust boundary sa mga ito. Bigyan lamang ito ng isang malinaw na aplikasyon o proseso sa isang pagkakataon. Panatilihin itong naka-off kapag ang ilang sensitibong aplikasyon ay hindi bahagi ng gawain; suriing mabuti ang mga popup ng pahintulot; mas mainam na may kasamang tao kapag may kinalaman sa pananalapi, account, pagbabayad, mga credentials, privacy, at mga pagbabago sa system security.
Gamitin ang @Chrome para sa maraming tab at login status
Ang Codex Chrome extension ay nagpapahintulot sa Codex na makakapag-access sa iyong naka-login na Chrome state. Gamitin ito kapag ang mga gawain ay nakadepende sa account, cookies, browser profile, o mga tab na naka-open at naka-authenticate mo na.
Ang ganitong uri ng interface ay angkop para sa mga sumusunod na kasangkapan:
Gmail o LinkedIn;
Salesforce o backend ng customer service;
Internal dashboard;
Nakalogin na pag-aaral sa maraming website;
Gamitin ang form na nakadepende sa iyong account o browser extension.
Para i-install: Buksan ang mga Plugin ng Codex, idagdag ang Chrome, at sundin ang proseso ng pag-setup. Iiwanan ka ng Codex na i-install ang Codex Chrome extension at pumanaw sa mga pahintulot ng Chrome. Kapag nagpapakita ang extension ng Connected, buksan ang isang bagong thread.
Para sa pag-trigger: Sipiin ang @Chrome, o humiling nang malinaw na gamitin ng Codex ang iyong naka-login na Chrome browser:
Ang mga gawain sa Chrome ay magpapatakbo sa loob ng mga grupo ng tab, na nakakatulong upang i-organize ang mga tab na may kaugnayan sa isang Codex thread. Sa pagkakaiba sa loob ng browser, ang interface na ito ay nagdadala ng iyong browser identity. Ito ay nagbibigay sa iyo ng mas malakas na kakayahan, ngunit mas sensitibo rin ito.
Ang isa pang pangunahing kahusayan ay ang maraming tab control. Maaaring iugnay ng Chrome ang maraming tab sa isang parehong gawain, kung saan maaari mong basahin ang konteksto sa isang pahina, i-verify ang impormasyon sa isa pang pahina, at magpatuloy sa workflow sa ikatlong pahina. Ang Computer Use ay maaari ring gamitin ang visual na paraan upang kontrolin ang browser, ngunit iginuguhit ng Chrome ang gawain bilang isang browser workflow, hindi bilang isang serye ng screen coordinates.
Kamakailan, may isang thread kung saan ibinigay ko ang isang naka-open na tab ng Strudel Composer kay Codex upang gawin mas kapani-paniwala ang musika. Binigyan siya ng Chrome ng piniling tab, kasama ang mga WebMCP tool na ipinapakita ng pahina. Sinuri ng Codex ang istruktura ng awit, isinulat muli ang harmoniya at pangkabuuang anyo ng apat na minuto, binago ang bilis, isave ang track, at pinagpatuloy ang pagpapalabas nito. Hindi kailangan niya na maghanap nang visual sa bawat kontrol sa interface dahil maaaring i-combine ng Chrome ang konteksto ng tab at ang structured capability na ibinibigay ng pahina.
Ginagamit ko pa ito para sa isang pangmatagalang Twitter thread. Ang pangkalahatang panuto ay:
Ang interesante dito ay hindi ang kakayahan ng Codex na buksan ang Twitter, kundi ang kakayahan ng thread na bumalik nang habang-habang sa parehong naka-login na environment, i-connect ang mga natuklasan sa lokal na file, at iwan ang isang resulta na maaari kong i-audit.
Mahalaga ang trust boundary dito. Maaaring ituring ng website na ang mga klik, pagsumbong ng form, at pagpapadala ng mensahe sa Codex ay gawa mo mismo. Ang nilalaman ng web page ay kakaibang input din. Magkaroon ng malinaw na pagkakaiba sa mga hakbang na may malalang epekto: ang pag-aaral, pag-navigate, at pagsulat ng draft ay maaaring awtomatikong gawin; kailangan mong i-verify bago magpadala, mag-post, magbili, o sumumbong.
Kung ang buong gawain ay isasagawa sa browser, gamitin ang Chrome sa halip na Computer Use. Ang Chrome ay may native browser context na kailangan ng mga gawain na ito, habang hindi ito lalawigan sa buong desktop.
Gamitin ang app内的 @Browser para sa website na iyong pinapagawa
Ang in-app browser ay isang browser na nasa loob ng thread ng Codex. Kasama mo ang Codex sa parehong rendered page, kaya ito ay partikular na angkop para sa pagbuo at pag-debug ng mga web application.
Karaniwang nagsisimula ako dito:
Local development server;
Pahina ng preview batay sa file;
Mga pahina na pampubliko na hindi nangangailangan ng pag-login;
Iulit ang visual bug;
I-check ang responsive layout;
Iwan ang feedback sa disenyo ng mga element ng pahina.
Ang pinakamahalagang pagtatakda nito ay ang paghihiwalay. Ang in-app browser ay hindi gagamit ng iyong karaniwang browser profile, cookies, extensions, login session, o mga umiiral na tab. Kapag kailangan ng isang task ang account identity, isang limitasyon ito; ngunit kapag hindi kailangan ng isang task ang account, ito ay isang kapaki-pakinabang na hangganan.
Para sa pag-setup: Buksan ang mga Plugin ng Codex, idagdag ang Browser plugin, at paganahin ito.
Para sa pag-trigger: Sipiin ang @Browser sa prompt, o malinaw na hilingin na gamitin ng Codex ang in-app browser:
Magkakaroon ito ng malapit na feedback loop: maaaring i-edit ng Codex ang code, i-operate ang pahina, i-check ang rendering status, i-capture ang screenshot, at muling i-verify ang parehong proseso pagkatapos ay maayos.
Ang pinakamasarap na bahagi ay ang pagkakatanda. Kapag nagrereview ako ng isang lokal na app, direktang maaari kong i-click ang isang elemento o piliin ang isang rehiyon at iwan ang komento. Ang mga kontrol sa estilo ay nagpapahintulot sa akin na mas tiyak na makita at ibalik ang teksto, font, spacing, at kulay. Karaniwang pinagsasama ko ito sa voice input at process guidance: nagrereview ako ng pahina, iiniwan ang mga komento, at patuloy na nagdadagdag ng higit pang mga opinyon habang inaaprobya ni Codex ang kasalukuyang feedback. Ang pahina mismo ay naging specification document.
Lubos na kapaki-pakinabang ito para sa pagdidisenyo. Madalas kong hihilingin kay Codex na i-organisa ang isang ideya, isang research pack, o isang project status sa isang single file na index.html, at buksan ito sa application内的 browser. Sa halip na subukang ilarawan ang buong disenyo sa isang ibang prompt, mas kaya kong i-mark ang tunay na pahina: “Baligtad ang hierarchy na ito,” “Huwag gawing masyadong card ang lugar na ito,” “Kailangan ng higit pang espasyo ang mga control na ito,” o “Gamitin ang font scale na ito sa buong site.” Makakatanggap ang Codex ng mga komento na may kasamang screenshot at konteksto ng elemento, gagawa ng pagbabago sa file, at bubuksan muli ang parehong pahina para sa susunod na round.
Ang siklo na ito ay mas malapit sa paggawa kasama ang isang designer sa iisang canvas, kaysa sa pagpapadala ng mga screenshot at mga paliwanag nang paulit-ulit.
Ang in-app browser ay maaari ring gamitin bilang simula ng hybrid workflow. Sa isang ibang thread, ginamit ko ang in-app browser upang buksan ang isang X post at ipaalam sa Codex na suriin ang kaugnay na diskusyon. Ang nakikita na pahina ay nakatulong sa kanya na matiyak kong anong post ang tinutukoy ko; pagkatapos ay nag-switch ang Codex patungo sa Twitter CLI at kinuha ang 38 mga sagot, kabilang ang mga nested reply na tinatago ng in-app browser. Ito ang pagsasagawa ng prinsipyo ng "gamitin ang pinakamaliit na interface": gamitin ang browser upang matiyak ang konteksto sa screen, at gamitin ang structured tool para sa mas malalim na paghahanap.
Mayroon ding kompromiso dito. Ang pag-iisolate ng in-app browser ay nagiging magandang development interface, ngunit ibig sabihin nito na hindi ito angkop para sa Google login, passkey, o mga website na nakasalalay sa browser extensions. Kapag mahalaga ang identity, mag-switch sa Chrome.
Appshots
Hindi ang Appshot ang ikaapat na paraan ng pagkontrol ng computer ng Codex. Ito ay isang paraan upang i-direct ang Codex sa iyong kasalukuyang konteksto.
Sa Mac, pindutin ang CMD dalawang beses upang makakuha ng huling window. Iidagdag ng Codex ang isang larawan at lahat ng magagamit na teksto sa thread. Maaari mong gawin ang Appshot sa isang error, isang email, isang disenyo, isang settings panel, o isang hindi kilalang form, at sabihin nang direkta:
Ito ang pinakamadaling tandaan na mental model ko: Ang Appshots ay ang paraan kung paano mo pinuntahan ang isang bagay sa iyong computer; ang Browser, Chrome, at Computer Use naman ay ang paraan kung paano gumagawa ng aksyon ang Codex.
Ang Appshots ay kasalukuyang nililikha sa pamamagitan ng Codex app sa macOS. Ito ay nagsasalita ng pinakamataas na window, hindi ang buong desktop. Ito ay nagiging isang kapaki-pakinabang na paraan: maaari mong ibigay ang nakafokus na konteksto nang hindi ibinibigay ang kontrol sa aplikasyon.
Paano susundin ang mga pag-unlad na ito?
Mabilis ang pagbabago ng mga interface na ito. Kung nais mo ang mga praktikal na detalye, hindi lang ang paghintay sa isang malaking pagsasalaysay ng paglabas:
Sundin si Ari Weinstein (@AriX) para sa mga impormasyon tungkol sa Computer Use at Appshots;
Sundin si James Sun (@JamesZmSun) para sa mga balita tungkol sa Browser;
Sundin si Andrew Ambrosino (@ajambrosino) para sa paglalabas ng Codex app at ang mas malaking desktop product narrative;
Sundin ang OpenAI Developers (@OpenAIDevs) para sa mas malawak na balita tungkol sa Codex at OpenAI Platform.
