Catatan editor: Artikel ini merangkum tiga cara Codex berinteraksi dengan lingkungan eksternal: Computer Use, ekstensi Chrome, dan Browser dalam aplikasi. Ketiganya tampaknya sama-sama menyelesaikan masalah "memungkinkan Codex menggunakan komputer", tetapi masing-masing sesuai dengan skenario tugas, batasan izin, dan tingkat kepercayaan yang berbeda.
Di antaranya, Computer Use memiliki cakupan terluas, memungkinkan operasi langsung terhadap aplikasi asli, pengaturan sistem, dan simulator iOS yang diizinkan di macOS/Windows, bahkan dapat menyelesaikan alur kerja lintas aplikasi. Ini cocok untuk proses GUI yang tidak didukung oleh API, plugin, atau alat terstruktur, tetapi dengan kecepatan yang lebih lambat dan batas izin yang paling luas. Ekstensi Chrome cocok untuk tugas yang bergantung pada sesi login, cookie, beberapa tab browser, dan identitas browser, seperti Gmail, LinkedIn, Salesforce, backend internal, atau penelitian terlogin lintas situs web. Browser dalam aplikasi lebih berfokus pada skenario pengembangan dan debugging, terutama cocok untuk layanan lokal, bug visual, tata letak responsif, dan anotasi desain; browser ini tidak mewarisi status login browser pengguna biasa, kemampuannya lebih terbatas, tetapi isolasinya lebih kuat.
Penilaian inti artikel adalah bahwa Codex tidak hanya memiliki satu cara "menggunakan komputer"; yang benar-benar penting adalah memilih antarmuka operasi paling sempit, paling aman, dan paling terstruktur sesuai tugas. Jika dapat menggunakan plugin atau MCP, hindari terlebih dahulu penggunaan kontrol visual; jika tugas hanya melibatkan pengembangan web, gunakan Browser dalam aplikasi terlebih dahulu; baru beralih ke Chrome ketika diperlukan identitas dan status login browser pengguna; Computer Use hanya menjadi solusi terakhir ketika alat terstruktur tidak dapat mencakup kebutuhan, dan tugas benar-benar bergantung pada antarmuka grafis desktop.
Appshots bukanlah cara keempat untuk mengontrol komputer, melainkan alat untuk menunjukkan konteks layar saat ini kepada Codex. Appshots menyelesaikan masukan konteks, sementara Browser, Chrome, dan Computer Use menyelesaikan masalah tindakan. Dilihat bersama-sama, hierarki ini sebenarnya mengungkap kunci produk AI Agent: bukan memberikan model otoritas tak terbatas, melainkan secara terus-menerus mempersempit otoritas dan menetapkan batasan dalam tugas spesifik, sambil mempertahankan hak pengguna untuk meninjau tindakan kunci.
Berikut adalah teks aslinya:
Codex memiliki tiga cara menggunakan komputer: Computer Use, ekstensi Chrome, dan browser dalam aplikasi.
Ada sedikit tumpang tindih di antara keduanya, tepat cukup untuk membuat bingung.
Setelah membaca artikel ini, Anda akan mengetahui cara menginstal dan memicu ketiga metode ini, kapan harus menggunakannya dalam skenario apa, bagaimana menghubungkan Appshots dan Developer mode, serta apa yang harus ditulis di AGENTS.md agar Codex dapat memilih antarmuka operasi yang tepat secara otomatis.
Versi sederhana adalah:

Meskipun demikian, selalu prioritaskan penggunaan plugin atau MCP jika memungkinkan. Misalnya, plugin Slack dapat mencari thread dengan lebih tepat dibandingkan harus mengklik di mana-mana di Slack; operasi yang dihasilkan oleh plugin GitHub juga lebih mudah diperiksa dibandingkan meminta Codex mengendalikan halaman web. Kontrol visual paling cocok digunakan ketika kemampuan alat terstruktur mencapai batasnya.
Semuanya bisa menjadi @Computer
Computer Use adalah antarmuka operasi dengan cakupan terluas di antara ketiganya. Ini memungkinkan Codex untuk melihat dan mengoperasikan antarmuka grafis di macOS dan Windows, termasuk jendela, menu, input keyboard, serta clipboard di aplikasi yang Anda otorisasi.
Ini biasanya juga yang paling lambat. Plugin terstruktur dapat memanggil API secara langsung; Computer Use perlu mengamati antarmuka, menentukan di mana harus mengklik, menunggu respons aplikasi, lalu memeriksa status langkah berikutnya. Siklus visual ini memakan waktu, tetapi juga berarti Codex dapat mengoperasikan aplikasi yang sama sekali tidak memiliki API yang tersedia.
Di macOS, kelambatan tidak selalu berarti mengganggu Anda. Computer Use dapat menjalankan aplikasi yang telah Anda otorisasi di latar belakang, sambil Anda tetap dapat menggunakan bagian lain dari komputer. Sering kali, saat saya membuka aplikasi tertentu sambil menggunakan Codex, saya baru menyadari bahwa Codex telah selesai menjalankan serangkaian alur kerja di latar belakang.
Berdasarkan aplikasi yang terinstal dan diotorisasi di komputer Anda, objek operasi ini dapat mencakup Spotify, Xcode, System Settings, iOS Simulator, bahkan mengontrol iPhone Anda melalui iPhone Mirroring. Ini juga dapat beralih di antara beberapa aplikasi dan menangani alur kerja yang melintasi berbagai aplikasi.
Ketika tugas bergantung pada hal-hal berikut, Anda dapat menggunakannya:
Aplikasi desktop asli, seperti Spotify atau aplikasi keuangan;
Simulator iOS, iPhone Mirroring, atau proses yang hanya dapat dioperasikan melalui antarmuka grafis;
Pengaturan sistem atau aplikasi;
Sumber data tanpa plugin atau API;
Alur kerja yang memerlukan perpindahan antar beberapa aplikasi;
Langkah terakhir yang hilang dalam integrasi terstruktur.
Cara instalasi: Buka Settings > Computer Use di Codex, lalu klik Install.
Cara memicu: Menyebut @Computer, atau secara eksplisit meminta Codex menggunakan Computer Use. Seiring peningkatan kemampuan model, di masa depan ia juga akan memicunya sendiri saat diperlukan.
Coba beberapa contoh terlebih dahulu:
Contoh favorit saya dimulai ketika paket saya dicuri. Amazon memberi tahu saya bahwa saya harus menunggu sekitar 25 menit untuk terhubung dengan layanan pelanggan. Saya memberikan thread Codex kepada Computer Use, yang memeriksa jendela obrolan setiap lima menit, lalu mengubahnya menjadi setiap satu menit setelah agen layanan pelanggan muncul, dan berusaha membantu saya mendapatkan pengembalian dana. Ketika saya kembali setelah mandi, pengembalian dana sudah selesai.
Saya juga menggunakan Computer Use sebagai "last mile" dalam alur kerja terstruktur. Dalam satu video rilis, Codex dapat membaca umpan balik dari Slack, memodifikasi kode, dan merender video baru, tetapi integrasi Slack di thread tersebut tidak dapat mengunggah file. Maka, Computer Use mengklik Add file untuk mengisi langkah yang hilang ini.
Ini juga memiliki batas kepercayaan paling luas di antara ketiganya. Berikan hanya satu aplikasi atau proses yang jelas sekaligus. Pertahankan dalam keadaan mati ketika ada aplikasi sensitif yang bukan bagian dari tugas; periksa dengan cermat jendela izin; sebaiknya ada pengawasan langsung saat melibatkan keuangan, akun, pembayaran, kredensial, privasi, dan perubahan keamanan sistem.
Gunakan @Chrome untuk menangani beberapa tab dan status login
Ekstensi Codex Chrome memungkinkan Codex mengakses status Chrome yang telah Anda login. Gunakan ini ketika tugas bergantung pada akun, cookie, profil browser, atau tab yang telah Anda buka dan autentikasi.
Antarmuka operasi ini cocok untuk pekerjaan di alat-alat berikut:
Gmail atau LinkedIn;
Salesforce atau backend layanan pelanggan;
Dasbor internal;
Penelitian yang masuk akun di berbagai situs web;
Form yang bergantung pada akun atau ekstensi browser Anda.
Cara instalasi: Buka Plugins Codex, tambahkan Chrome, dan ikuti proses pengaturan. Codex akan memandu Anda untuk menginstal ekstensi Codex Chrome dan menyetujui izin Chrome. Setelah ekstensi menampilkan Connected, buat thread baru.
Cara memicu: Sebutkan @Chrome, atau minta secara jelas agar Codex menggunakan browser Chrome yang telah Anda login:
Tugas Chrome akan berjalan di dalam grup tab, yang membantu mengelompokkan tab terkait satu thread Codex. Berbeda dengan browser dalam aplikasi, antarmuka ini membawa identitas browser Anda. Ini membuatnya lebih kuat dan lebih sensitif.
Keuntungan utama lainnya adalah kontrol multi-tab. Chrome memungkinkan beberapa tab terkait dengan tugas yang sama, membaca konteks di satu halaman, membandingkan informasi di halaman lain, lalu melanjutkan alur kerja di halaman ketiga. Computer Use juga dapat mengendalikan browser secara visual, tetapi Chrome memahami tugas sebagai alur kerja browser, bukan serangkaian operasi koordinat layar.
Baru-baru ini, saya membuka thread di mana saya memberikan tab Strudel Composer yang sudah terbuka ke Codex, memintanya untuk membuat musik menjadi lebih menarik. Chrome memberikan tab yang dipilih serta alat WebMCP yang disediakan halaman tersebut. Codex memeriksa struktur musik, menulis ulang harmoni dan bentuk keseluruhan empat menit, mengubah kecepatan, menyimpan trek, dan membiarkannya terus bermain. Codex tidak perlu mencari setiap kontrol secara visual di antarmuka, karena Chrome dapat menggabungkan konteks tab dengan kemampuan terstruktur yang disediakan halaman.
Saya juga menggunakannya untuk menjalankan thread Twitter jangka panjang. Instruksi umumnya adalah:
Yang menarik bukanlah Codex dapat membuka Twitter, tetapi thread ini dapat kembali ke lingkungan kerja yang sudah masuk secara berkelanjutan, menghubungkan temuan ke file lokal, dan meninggalkan hasil yang dapat saya tinjau.
Batas kepercayaan di sini sangat penting. Situs web mungkin menganggap klik, pengiriman formulir, dan pengiriman pesan pada Codex sebagai tindakan yang Anda lakukan sendiri. Konten halaman web juga merupakan input yang tidak dapat dipercaya. Pisahkan langkah-langkah dengan konsekuensi serius secara jelas: penelitian, navigasi, dan draf dapat dilakukan secara otomatis; sebelum mengirim, mempublikasikan, membeli, atau mengirimkan, Anda harus memeriksanya terlebih dahulu.
Jika seluruh tugas dilakukan di dalam browser, gunakan Chrome sebagai prioritas, bukan Computer Use. Chrome menyediakan konteks asli browser yang diperlukan untuk tugas-tugas semacam ini, sekaligus tidak memperluas jangkauan akses ke seluruh desktop.
Gunakan @Browser dalam aplikasi untuk menangani situs web yang sedang Anda kembangkan
Browser dalam aplikasi adalah browser yang ada di dalam thread Codex. Anda berbagi halaman render yang sama dengan Codex, sehingga sangat cocok untuk membangun dan mengdebug aplikasi web.
Saya biasanya mulai memproses dari sini:
Lokal development server;
Halaman pratinjau berbasis file;
Halaman publik yang tidak memerlukan login;
Reproduksi bug visual;
Periksa tata letak responsif;
Berikan umpan balik desain untuk elemen halaman.
Kendala terpentingnya adalah isolasi. Browser dalam aplikasi tidak akan menggunakan profil browser biasa, cookie, ekstensi, sesi login, atau tab yang sudah ada. Ini merupakan batasan ketika tugas memerlukan identitas akun; tetapi ketika tugas tidak memerlukan akun, ini justru menjadi batas yang berguna.
Cara pengaturan: Buka Plugins Codex, tambahkan plugin Browser, dan aktifkan.
Cara memicu: Sebutkan @Browser dalam prompt, atau secara eksplisit meminta Codex menggunakan browser dalam aplikasi:
Ini akan membentuk siklus umpan balik yang erat: Codex dapat mengedit kode, mengoperasikan halaman, memeriksa status render, mengambil tangkapan layar, lalu memverifikasi ulang proses yang sama setelah diperbaiki.
Bagian favorit saya adalah fitur penandaan. Saat meninjau aplikasi lokal, saya bisa langsung mengklik elemen tertentu atau memilih area tertentu untuk memberikan komentar. Kontrol gaya juga memungkinkan saya untuk mempratinjau dan memberikan umpan balik yang lebih akurat terhadap teks, font, jarak, dan warna. Saya biasanya menggabungkannya dengan input suara dan panduan proses: saya meninjau halaman, memberikan komentar, dan terus menambahkan lebih banyak masukan sambil menunggu Codex memproses umpan balik saat ini. Halaman itu sendiri menjadi spesifikasi.
Ini sangat berguna untuk pekerjaan desain. Saya sering meminta Codex untuk merangkum sebuah ide, paket penelitian, atau status proyek menjadi satu file index.html, lalu membukanya di dalam browser aplikasi. Alih-alih mencoba menggambarkan seluruh desain dalam petunjuk lain, saya bisa langsung memberi komentar di halaman nyata: “Hierarki ini terbalik”, “Jangan buat ini terlalu seperti kartu”, “Kontrol ini butuh lebih banyak ruang”, atau “Gunakan skala font ini di seluruh situs.” Codex akan menerima komentar yang dilengkapi tangkapan layar dan konteks elemen, memodifikasi file, lalu membuka kembali halaman yang sama untuk putaran berikutnya.
Siklus ini terasa lebih seperti bekerja bersama seorang desainer di atas kanvas yang sama, daripada saling mengirim tangkapan layar dan penjelasan teks.
Browser dalam aplikasi juga cocok sebagai titik awal untuk alur kerja hibrida. Di thread lain, saya membuka sebuah postingan X di browser dalam aplikasi, meminta Codex untuk menyelidiki diskusi terkait. Tampilan halaman membantunya mengonfirmasi postingan mana yang saya maksud; kemudian Codex beralih ke Twitter CLI, mengambil 38 balasan, termasuk balasan bersarang yang disembunyikan oleh tampilan browser. Ini adalah penerapan prinsip “menggunakan antarmuka operasi paling sempit”: gunakan browser untuk mengonfirmasi konteks di layar, lalu gunakan alat terstruktur untuk pencarian yang lebih mendalam.
Di sini juga ada kompromi. Isolasi browser dalam aplikasi membuatnya menjadi antarmuka pengembangan yang baik, tetapi berarti tidak cocok untuk menangani login Google, passkey, atau situs yang bergantung pada ekstensi browser. Saat identitas penting, beralihlah ke Chrome.
Appshots
Appshot bukan cara keempat Codex mengendalikan komputer. Ini adalah metode untuk menunjukkan konteks di depan mata Anda kepada Codex.
Di Mac, tekan tombol CMD dua kali untuk menangkap jendela terbaru. Codex akan melampirkan gambar dan semua teks yang tersedia ke dalam thread. Anda dapat melakukan Appshot pada kesalahan, email, desain, panel pengaturan, atau formulir asing, lalu langsung katakan:
Ini adalah model mental yang menurut saya paling mudah diingat: Appshots adalah cara Anda menunjuk ke sesuatu di komputer Anda; Browser, Chrome, dan Computer Use adalah cara Codex mengambil tindakan.
Appshots saat ini dibuat melalui aplikasi Codex di macOS. Ini menangkap jendela paling depan, bukan seluruh desktop. Ini menjadikannya cara yang berguna: Anda dapat menyediakan konteks yang terfokus tanpa memberikan kendali atas aplikasi tersebut.
Bagaimana cara menindaklanjuti perkembangan ini?
Antarmuka operasi ini berubah dengan cepat. Jika Anda ingin mendapatkan detail praktis, bukan menunggu ringkasan rilis yang sangat panjang:
Ikuti Ari Weinstein (@AriX) untuk informasi tentang Computer Use dan Appshots;
Ikuti James Sun (@JamesZmSun) untuk informasi terkait Browser;
Ikuti Andrew Ambrosino (@ajambrosino) untuk informasi tentang peluncuran aplikasi Codex, serta narasi produk desktop yang lebih besar;
Ikuti OpenAI Developers (@OpenAIDevs) untuk berita lebih luas tentang Codex dan OpenAI Platform.
