Catatan editor: Artikel ini merangkum tiga cara Codex berinteraksi dengan persekitaran luar: Computer Use, ekstensi Chrome, dan Browser dalam aplikasi. Ketiga-tiganya kelihatan seperti menyelesaikan masalah "membolehkan Codex menggunakan komputer", tetapi masing-masing berkaitan dengan skenario tugas, sempadan kebenaran, dan tahap kepercayaan yang berbeza.
Di antaranya, Computer Use mempunyai cakupan paling luas, membolehkan pengendalian langsung terhadap aplikasi asli, tetapan sistem, dan penghala iOS yang diberi kebenaran di macOS / Windows, bahkan melaksanakan alur kerja merentas beberapa aplikasi. Ia sesuai untuk proses GUI yang tidak menyokong API, plugin, atau alat berstruktur, tetapi dengan harga kecepatan yang lebih perlahan dan batas kebenaran yang paling luas. Ekstensi Chrome pula sesuai untuk tugas yang bergantung pada status log masuk, kuki, tab berbilang, dan identiti peramban, seperti Gmail, LinkedIn, Salesforce, latar belakang dalaman, atau penyelidikan log masuk merentas pelbagai laman web. Peramban dalam aplikasi lebih sesuai untuk skenario pembangunan dan penyahpepijat, terutamanya untuk perkhidmatan tempatan, ralat visual, susun atur responsif, dan catatan reka bentuk; ia tidak mewarisi status log masuk peramban biasa pengguna, kemampuannya lebih terhad, tetapi isolasinya lebih kuat.
Penilaian utama artikel ini ialah Codex bukan hanya mempunyai satu cara "menggunakan komputer"; yang benar-benar penting ialah memilih antaramuka operasi yang paling sempit, paling selamat, dan paling terstruktur mengikut tugas. Jika boleh menggunakan plugin atau MCP, jangan terlebih dahulu gunakan kawalan visual; jika tugas hanya melibatkan pembangunan laman web, gunakan Browser dalam aplikasi terlebih dahulu; baru beralih ke Chrome apabila diperlukan identiti dan status log masuk pengguna pada browser; Computer Use hanya menjadi langkah terakhir apabila alat terstruktur tidak mampu menangani tugas tersebut dan tugas tersebut benar-benar bergantung pada antaramuka grafik desktop.
Appshots bukanlah cara keempat untuk mengawal komputer, tetapi alat untuk menunjukkan konteks skrin semasa kepada Codex. Ia menyelesaikan masukan konteks, manakala Browser, Chrome, dan Computer Use menyelesaikan masalah tindakan. Apabila dilihat bersama-sama, lapisan ini sebenarnya mengungkap kunci penerapan produk AI Agent: bukan memberikan kuasa tanpa had kepada model, tetapi secara berterusan mempersempit kuasa dan menetapkan sempadan dalam tugas tertentu, sambil mempertahankan hak pengguna untuk mengesahkan tindakan penting.
Berikut ialah teks asal:
Codex menggunakan komputer dengan tiga cara: Penggunaan Komputer, ekstensi Chrome, dan pelayar dalam aplikasi.
Terdapat sedikit tindih antara keduanya, cukup tindih sehingga mudah menimbulkan kekeliruan.
Setelah membaca artikel ini, anda akan mengetahui cara memasang dan memicu ketiga cara ini, kapan masing-masing harus digunakan, bagaimana Appshots dan Developer mode menghubungkannya, serta apa yang perlu ditulis di AGENTS.md agar Codex dapat memilih antarmuka operasi yang sesuai.
Versi ringkas:

Namun demikian, jika memungkinkan, lebih baik gunakan plugin atau MCP. Sebagai contoh, plugin Slack mampu mencari thread dengan lebih tepat daripada mengklik di mana-mana di Slack; tindakan yang dihasilkan oleh plugin GitHub juga lebih mudah diperiksa daripada membiarkan Codex mengendalikan laman web. Kawalan visual paling sesuai digunakan apabila kemampuan alat terstruktur mencapai batasnya.
Semuanya boleh menjadi @Computer
Computer Use adalah antara muka operasi yang paling luas cakupannya di antara ketiga-tiganya. Ia membolehkan Codex untuk melihat dan mengendalikan antara muka grafik di macOS dan Windows, termasuk tetingkap, menu, input papan kekunci, serta papan klip dalam aplikasi yang anda berikan kebenaran.
Ia biasanya juga yang paling perlahan. Plugin terstruktur boleh memanggil API secara langsung; Computer Use perlu memantau antaramuka, menentukan di mana perlu diklik, menunggu respons aplikasi, kemudian memeriksa status seterusnya. Kitaran visual ini mengambil masa, tetapi bermakna Codex boleh mengendalikan aplikasi yang tidak mempunyai API yang boleh digunakan sama sekali.
Di macOS, kelambatan tidak semestinya bermaksud mengganggu anda. Computer Use boleh menjalankan aplikasi yang anda berikan kebenaran di latar belakang, sambil anda terus menggunakan bahagian lain komputer. Sering kali, apabila saya membuka aplikasi semasa menggunakan Codex, saya mendapati Codex telah selesai menjalankan satu alur kerja di latar belakang dengan tenang.
Berdasarkan aplikasi yang dipasang dan diberi kuasa di komputer anda, objek operasi ini boleh termasuk Spotify, Xcode, System Settings, iOS Simulator, atau bahkan mengawal iPhone anda melalui iPhone Mirroring. Ia juga boleh berpindah antara pelbagai aplikasi dan mengendalikan alur kerja yang merangkumi pelbagai aplikasi.
Apabila tugas bergantung pada perkara berikut, anda boleh menggunakannya:
Aplikasi desktop asli, seperti Spotify atau aplikasi perbankan;
Simulator iOS, iPhone Mirroring, atau proses yang hanya boleh dioperasikan melalui antaramuka grafik;
Tetapan sistem atau aplikasi;
Sumber data tanpa plugin atau API;
Alur kerja yang memerlukan peralihan antara beberapa aplikasi;
Langkah terakhir yang hilang dalam integrasi berstruktur.
Cara pemasangan: Buka Settings > Penggunaan Komputer Codex, kemudian klik Install.
Cara memicu: Sebut @Computer, atau nyatakan bahawa Codex perlu menggunakan Computer Use. Seiring peningkatan kemampuan model, pada masa depan ia juga akan memanggilnya sendiri apabila diperlukan.
Boleh cuba beberapa contoh terlebih dahulu:
Contoh kesukaan saya ialah apabila sebuah bungkusan dicuri. Amazon memberitahu saya bahawa saya perlu menunggu sekitar 25 minit untuk berhubung dengan perkhidmatan pelanggan. Saya memberikan thread Codex kepada Computer Use untuk memeriksa tetingkap chat setiap lima minit, dan apabila perkhidmatan pelanggan muncul, ia menukar kepada pemeriksaan setiap minit serta berusaha membantu saya mendapatkan pengembalian dana. Apabila saya kembali selepas mandi, pengembalian dana sudah selesai.
Saya juga menggunakan Computer Use sebagai "akhir jalan terakhir" dalam alur kerja berstruktur. Dalam satu video pelancaran, Codex boleh membaca maklum balas dari Slack, memodifikasi kod, dan merender video baru, tetapi integrasi Slack dalam talian itu tidak dapat memuat naik fail pada masa itu. Oleh itu, Computer Use mengklik Add file untuk melengkapkan langkah yang hilang itu.
Ia juga memiliki batas kepercayaan paling luas di antara ketiganya. Berikan hanya satu aplikasi atau proses yang jelas pada satu masa. Biarkan ia mati apabila aplikasi sensitif tertentu bukan sebahagian daripada tugas; periksa tetingkap kebenaran dengan teliti; lebih baik ada seseorang yang mengawasi semasa melibatkan keuangan, akaun, pembayaran, kredensial, privasi, dan perubahan keselamatan sistem.
Gunakan @Chrome untuk mengurus banyak tab dan status log masuk
Ekstensi Codex Chrome membolehkan Codex mengakses status Chrome yang telah anda log masuk. Gunakan ia apabila tugas bergantung pada akaun, cookie, profil peramban, atau tab yang telah anda buka dan sahkan.
Antaramuka operasi ini sesuai untuk pekerjaan dalam alat berikut:
Gmail atau LinkedIn;
Salesforce atau latar belakang sokongan pelanggan;
Dasbor dalaman;
Penyelidikan log masuk merentas pelbagai laman web;
Gunakan borang yang bergantung pada akaun atau ekstensi pelayan anda.
Cara pemasangan: Buka Plugins Codex, tambahkan Chrome, dan ikuti proses pengaturan. Codex akan membimbing anda untuk memasang ekstensi Codex Chrome dan mengesahkan kebenaran Chrome. Apabila ekstensi menunjukkan Connected, mulakan thread baharu.
Cara memicu: Sebut @Chrome, atau nyatakan bahawa Codex harus menggunakan pelayar Chrome yang telah anda log masuk:
Tugasan Chrome akan berjalan dalam kumpulan tab, yang membantu mengumpulkan tab yang berkaitan dengan satu thread Codex. Berbeza dengan pelayar dalam aplikasi, antaramuka ini membawa identiti pelayar anda. Ini menjadikannya lebih berkuasa dan lebih sensitif.
Kelebihan utama lain ialah kawalan pelbagai tab. Chrome membolehkan beberapa tab dikaitkan dengan tugas yang sama, membolehkan pengguna membaca konteks dalam satu tab, merujuk maklumat dalam tab lain, dan meneruskan alur kerja di tab ketiga. Computer Use juga boleh menggerakkan browser secara visual, tetapi Chrome memahami tugas tersebut sebagai alur kerja browser, bukan siri operasi koordinat skrin.
Baru-baru ini, saya membuka satu thread, di mana saya memberikan tab Strudel Composer yang sudah dibuka kepada Codex, meminta agar ia membuat muzik menjadi lebih menarik. Chrome memberikan tab yang dipilih serta alat WebMCP yang disediakan oleh laman tersebut. Codex memeriksa struktur lagu, menulis semula harmoni dan bentuk keseluruhan empat minit, mengubah kelajuan, menyimpan lagu, dan membiarkannya terus bermain. Ia tidak perlu mencari setiap kawalan secara visual di antaramuka, kerana Chrome boleh menggabungkan konteks tab dengan kemampuan terstruktur yang disediakan oleh laman.
Saya juga menggunakannya untuk menjalankan thread Twitter jangka panjang. Arahan kasarnya adalah:
Yang menarik bukanlah Codex boleh membuka Twitter, tetapi thread ini boleh kembali ke persekitaran kerja yang log masuk yang sama dalam jangka masa panjang, menghubungkan perkara yang ditemui ke fail tempatan, dan meninggalkan hasil yang boleh saya semak.
Tepi kepercayaan di sini sangat penting. Laman web mungkin menganggap klik, penghantaran form, dan penghantaran mesej Codex sebagai tindakan yang anda lakukan sendiri. Kandungan laman web itu sendiri juga merupakan input yang tidak boleh dipercayai. Bezakan langkah-langkah dengan kesan serius: penyelidikan, navigasi, dan draf boleh dilakukan secara automatik; anda perlu mengulas sebelum menghantar, mempublikasikan, membeli, atau menghantar.
Jika keseluruhan tugas diselesaikan di dalam browser, gunakan Chrome sebagai prioriti, bukan Computer Use. Chrome menyediakan konteks asli browser yang diperlukan untuk tugas-tugas ini, sambil tidak memperluas jangkauan akses ke seluruh desktop.
Gunakan @Browser dalam aplikasi untuk mengendalikan laman web yang sedang anda kembangkan
Pelayar dalaman ialah pelayar yang wujud di dalam teras Codex. Anda berkongsi halaman paparan yang sama dengan Codex, jadi ia sangat sesuai untuk membina dan menguji aplikasi Web.
Saya biasanya bermula dari sini:
Pelayan pembangunan tempatan;
Laman pratonton berdasarkan fail;
Laman awam yang tidak memerlukan log masuk;
Reproduksi bug visual;
Periksa tata letak responsif;
Berikan umpan balik reka bentuk terhadap elemen laman web.
Kendala paling pentingnya ialah pengasingan. Penyemak dalam aplikasi tidak akan menggunakan profil, kuki, ekstensi, sesi log masuk, atau tab sedia ada pada penyemak biasa anda. Ini merupakan sekatan apabila tugas memerlukan identiti akaun; tetapi apabila tugas tidak memerlukan akaun, ia menjadi sempadan yang berguna.
Cara tetapkan: Buka Plugins Codex, tambah plugin Browser dan dayakan ia.
Cara memicu: Sebutkan @Browser dalam petikan, atau nyatakan secara jelas bahawa Codex perlu menggunakan pelayar dalam aplikasi:
Ini akan membentuk satu gelung umpan balik yang rapat: Codex boleh mengedit kod, mengendalikan laman, memeriksa status render, mengambil tangkapan skrin, kemudian mengesahkan semula proses yang sama selepas diperbaiki.
Bahagian kesukaan saya ialah tanda catatan. Semasa menilai aplikasi tempatan, saya boleh terus klik elemen tertentu atau pilih kawasan dan tinggalkan ulasan. Kawalan gaya juga membolehkan saya merancang dan memberi maklum balas dengan lebih tepat mengenai teks, fon, jarak, dan warna. Saya biasanya menggabungkannya dengan input suara dan panduan proses: saya menilai laman web, tinggalkan ulasan, dan sambil Codex memproses maklum balas semasa, saya terus menambah lebih banyak cadangan. Laman ini sendiri menjadi spesifikasi.
Ini sangat berguna untuk kerja reka bentuk. Saya sering meminta Codex untuk mengatur satu idea, satu paket penyelidikan, atau status projek menjadi satu fail index.html, kemudian membukanya dengan pelayar dalam aplikasi. Daripada cuba menggambarkan keseluruhan reka bentuk dalam petikan lain, saya boleh terus menandakan pada halaman sebenar: “Hubungan hierarki ini terbalik”, “Jangan buat ini terlalu seperti kad”, “Kawalan ini memerlukan lebih banyak ruang”, atau “Gunakan skala fon ini di seluruh laman web.” Codex akan menerima komen dengan tangkapan skrin dan konteks elemen yang berkaitan, memperbaiki fail, kemudian membuka semula halaman yang sama untuk sesi seterusnya.
Siklus ini terasa lebih seperti bekerja bersama seorang reka bentuk di atas kanvas yang sama, berbanding menghantar tangkapan skrin dan penerangan teks secara bergilir.
Pelayar dalam aplikasi juga sesuai digunakan sebagai titik permulaan untuk alur kerja hibrida. Dalam talian lain, saya membuka satu pos X menggunakan pelayar dalam aplikasi, membenarkan Codex menyelidik perbincangan yang berkaitan. Halaman yang dilihat membantunya mengesahkan pos yang saya maksudkan; selepas itu, Codex bertukar ke Twitter CLI, dan mengambil 38 balasan, termasuk balasan bersarang yang disembunyikan oleh tampilan pelayar. Ini merupakan praktik prinsip “menggunakan antaramuka operasi paling sempit”: gunakan pelayar untuk mengesahkan konteks di skrin, kemudian gunakan alat berstruktur untuk pencarian yang lebih mendalam.
Di sini juga ada kompromi. Isolasi pelayar dalam aplikasi menjadikannya antaramuka pembangunan yang baik, tetapi bermakna ia tidak sesuai untuk menangani log masuk Google, passkey, atau laman web yang bergantung pada sambungan pelayar. Apabila identiti penting, alihkan ke Chrome.
Appshots
Appshot bukan cara keempat Codex mengawal komputer. Ia adalah cara untuk menunjukkan konteks di hadapan anda kepada Codex.
Di Mac, tekan tombol CMD dua kali untuk menangkap tetingkap terbaru. Codex akan melampirkan gambar dan semua teks yang tersedia ke dalam thread. Anda boleh membuat Appshot untuk kesalahan, e-mel, rekaan, panel tetapan, atau borang asing, kemudian terus katakan:
Ini adalah model pemikiran yang paling mudah saya ingat: Appshots adalah cara anda menunjuk ke sesuatu di komputer anda; Browser, Chrome, dan Computer Use adalah cara Codex mengambil tindakan.
Appshots kini dicipta melalui aplikasi Codex di macOS. Ia menangkap tetingkap terdepan, bukan seluruh desktop. Ini menjadikannya cara yang berguna: anda boleh memberikan konteks yang fokus tanpa memberikan kuasa kawalan terhadap aplikasi tersebut.
Bagaimana untuk mengikuti perkembangan ini
Antaramuka ini berubah dengan pantas. Jika anda ingin mendapatkan butiran praktikal, bukan menunggu ringkasan pengumuman yang panjang:
Ikuti Ari Weinstein (@AriX) untuk maklumat mengenai Computer Use dan Appshots;
Tikam James Sun (@JamesZmSun) untuk maklumat berkaitan Browser;
Tumpukan perhatian kepada Andrew Ambrosino (@ajambrosino) untuk maklumat mengenai pelancaran aplikasi Codex, serta naratif produk desktop yang lebih besar;
Ikuti OpenAI Developers(@OpenAIDevs)untuk berita lebih luas mengenai Codex dan OpenAI Platform.
