Biên tập viên: Bài viết này tổng hợp ba cách Codex tương tác với môi trường bên ngoài: Computer Use, phần mở rộng Chrome và trình duyệt trong ứng dụng. Dù cả ba đều nhằm giải quyết vấn đề “giúp Codex sử dụng máy tính”, nhưng mỗi cách lại phù hợp với các bối cảnh nhiệm vụ, ranh giới quyền hạn và mức độ tin cậy khác nhau.
Trong đó, Computer Use có phạm vi ứng dụng rộng nhất, cho phép trực tiếp thao tác các ứng dụng bản địa được cấp quyền trên macOS/Windows, cài đặt hệ thống, trình giả lập iOS, thậm chí thực hiện luồng công việc xuyên suốt nhiều ứng dụng. Nó phù hợp với các quy trình GUI không có hỗ trợ từ API, plugin hoặc công cụ có cấu trúc, nhưng đổi lại tốc độ chậm hơn và phạm vi quyền hạn rộng nhất. Phần mở rộng Chrome thì phù hợp với các tác vụ phụ thuộc vào trạng thái đăng nhập, cookie, nhiều tab và danh tính trình duyệt, chẳng hạn như Gmail, LinkedIn, Salesforce, hệ thống nội bộ hoặc nghiên cứu đã đăng nhập xuyên suốt nhiều trang web. Trình duyệt trong ứng dụng thiên về các tình huống phát triển và gỡ lỗi, đặc biệt phù hợp với dịch vụ cục bộ, lỗi trực quan, bố cục phản hồi và ghi chú thiết kế; nó không kế thừa trạng thái đăng nhập của trình duyệt thông thường của người dùng, khả năng hạn chế hơn nhưng tính cô lập mạnh mẽ hơn.
Phán đoán cốt lõi của bài viết là Codex không chỉ có một cách duy nhất “sử dụng máy tính”; điều quan trọng thực sự là lựa chọn giao diện thao tác hẹp nhất, an toàn nhất và có cấu trúc nhất phù hợp với nhiệm vụ. Nếu có thể dùng plugin hoặc MCP, thì không nên dùng ngay kiểm soát trực quan; nếu nhiệm vụ chỉ liên quan đến phát triển web, hãy ưu tiên sử dụng Browser trong ứng dụng; chỉ khi cần xác thực và trạng thái đăng nhập của trình duyệt người dùng thì mới chuyển sang Chrome; Computer Use mới là bước cuối cùng, chỉ được sử dụng khi các công cụ có cấu trúc không thể đáp ứng và nhiệm vụ bắt buộc phải dựa vào giao diện đồ họa trên máy tính để bàn.
Appshots không phải là cách thứ tư để kiểm soát máy tính, mà là công cụ dùng để “chỉ rõ bối cảnh màn hình hiện tại” cho Codex. Nó giải quyết vấn đề đầu vào bối cảnh, trong khi Browser, Chrome và Computer Use giải quyết vấn đề hành động. Khi xem xét cùng nhau, phân cấp này thực chất làm rõ chìa khóa để sản phẩm hóa AI Agent: không phải là cấp quyền vô hạn cho mô hình, mà là liên tục thu hẹp quyền hạn, xác định rõ ranh giới trong từng nhiệm vụ cụ thể, đồng thời giữ lại quyền kiểm duyệt của người dùng đối với các hành động quan trọng.
Dưới đây là nội dung gốc:
Codex có ba cách sử dụng máy tính: Computer Use, phần mở rộng Chrome và trình duyệt tích hợp.
Chúng có một phần trùng lặp, vừa đủ để gây nhầm lẫn.
Sau khi đọc bài viết này, bạn sẽ biết cách cài đặt và kích hoạt ba phương thức này, nên sử dụng chúng trong bối cảnh nào, cách kết nối Appshots và Developer mode với nhau, cũng như nên viết gì trong AGENTS.md để Codex có thể tự chọn giao diện thao tác phù hợp.
Bản đơn giản là:

Mặc dù vậy, hãy ưu tiên sử dụng plugin hoặc MCP khi có thể. Ví dụ: plugin Slack có thể tìm kiếm một chuỗi tin nhắn chính xác hơn so với việc nhấp liên tục trong Slack; các thao tác do plugin GitHub tạo ra cũng dễ kiểm tra hơn so với việc để Codex điều khiển trang web. Kiểm soát bằng hình ảnh phù hợp nhất khi khả năng của các công cụ có cấu trúc đạt đến giới hạn.
Tất cả đều có thể là @Computer
Computer Use là giao diện điều khiển có phạm vi áp dụng rộng nhất trong ba giao diện này. Nó cho phép Codex xem và thao tác với giao diện đồ họa trên macOS và Windows, bao gồm cửa sổ, menu, nhập liệu từ bàn phím và clipboard trong các ứng dụng mà bạn cấp quyền.
Nó thường cũng là chậm nhất. Các plugin có cấu trúc có thể gọi trực tiếp API; trong khi Computer Use cần quan sát giao diện, xác định nơi cần nhấp, chờ ứng dụng phản hồi, rồi kiểm tra trạng thái tiếp theo. Vòng lặp trực quan này tiêu tốn thời gian, nhưng cũng có nghĩa là Codex có thể thao tác với những ứng dụng hoàn toàn không có API khả dụng.
Trên macOS, sự chậm rãi không nhất thiết có nghĩa là sẽ làm phiền bạn. Computer Use có thể thực hiện các ứng dụng mà bạn đã cấp quyền ở nền, trong khi bạn vẫn có thể tiếp tục sử dụng các phần khác của máy tính. Nhiều lần, tôi mở một ứng dụng khi đang dùng Codex, mới phát hiện Codex đã lặng lẽ hoàn thành một chuỗi công việc ở nền.
Tùy thuộc vào các ứng dụng đã cài đặt và được cấp quyền trên máy tính của bạn, các đối tượng thao tác này có thể bao gồm Spotify, Xcode, System Settings, iOS Simulator, thậm chí là điều khiển iPhone của bạn thông qua iPhone Mirroring. Nó cũng có thể chuyển đổi giữa nhiều ứng dụng và xử lý các quy trình làm việc trải dài qua các ứng dụng khác nhau.
Khi nhiệm vụ phụ thuộc vào các nội dung sau, bạn có thể sử dụng nó:
Ứng dụng máy tính để bàn gốc, ví dụ như Spotify hoặc các ứng dụng tài chính;
Bộ giả lập iOS, phản chiếu iPhone hoặc các quy trình chỉ có thể thao tác qua giao diện đồ họa;
Cài đặt hệ thống hoặc ứng dụng;
Nguồn dữ liệu không có plugin hoặc API;
Quy trình cần chuyển đổi giữa nhiều ứng dụng;
Bước cuối cùng bị thiếu trong một tích hợp có cấu trúc.
Cách cài đặt: Mở Settings > Computer Use của Codex, sau đó nhấp vào Install.
Cách kích hoạt: Đề cập đến @Computer hoặc yêu cầu rõ ràng Codex sử dụng Computer Use. Khi khả năng mô hình được cải thiện, trong tương lai nó sẽ tự động gọi khi cần.
Bạn có thể thử vài ví dụ trước:
Một ví dụ tôi yêu thích nhất bắt đầu từ việc một gói hàng bị đánh cắp. Amazon thông báo rằng tôi phải chờ khoảng 25 phút mới có thể kết nối với dịch vụ khách hàng. Tôi đã giao một chuỗi Codex cho Computer Use, yêu cầu nó kiểm tra cửa sổ trò chuyện mỗi năm phút, và khi nhân viên hỗ trợ xuất hiện thì chuyển sang kiểm tra mỗi phút, đồng thời nỗ lực giúp tôi nhận được khoản hoàn tiền. Khi tôi tắm xong trở lại, khoản hoàn tiền đã được xử lý xong.
Tôi cũng sử dụng Computer Use như “khâu cuối cùng” trong quy trình làm việc có cấu trúc. Trong một lần phát hành video, Codex có thể đọc phản hồi từ Slack, chỉnh sửa mã và tạo video mới, nhưng lúc đó, tích hợp Slack trong luồng này không thể tải lên tệp. Vì vậy, Computer Use đã nhấp vào Add file để bổ sung bước còn thiếu này.
Đây cũng là loại có phạm vi biên độ tin cậy rộng nhất trong ba loại. Chỉ cấp cho nó một ứng dụng hoặc quy trình rõ ràng mỗi lần. Khi các ứng dụng nhạy cảm không nằm trong nhiệm vụ, hãy giữ ở trạng thái tắt; kiểm tra kỹ các cửa sổ bật lên quyền; tốt nhất nên có người giám sát trực tiếp khi liên quan đến tài chính, tài khoản, thanh toán, chứng chỉ, quyền riêng tư và thay đổi bảo mật hệ thống.
Sử dụng @Chrome để xử lý nhiều tab và trạng thái đăng nhập
Tiện ích mở rộng Codex Chrome cho phép Codex truy cập vào trạng thái Chrome mà bạn đã đăng nhập. Hãy sử dụng nó khi các tác vụ phụ thuộc vào tài khoản, cookie, hồ sơ trình duyệt hoặc các tab bạn đã mở và xác thực.
Giao diện thao tác này phù hợp với các công cụ sau:
Gmail hoặc LinkedIn;
Salesforce hoặc nền tảng hỗ trợ khách hàng;
Bảng điều khiển nội bộ;
Nghiên cứu đã đăng nhập trên nhiều trang web;
Form phụ thuộc vào tài khoản hoặc tiện ích mở rộng trình duyệt của bạn.
Cách cài đặt: Mở Plugins của Codex, thêm Chrome và làm theo quy trình thiết lập. Codex sẽ hướng dẫn bạn cài đặt phần mở rộng Codex Chrome và cấp quyền cho Chrome. Khi phần mở rộng hiển thị Connected, hãy khởi tạo một luồng mới.
Cách kích hoạt: Nhắc đến @Chrome, hoặc yêu cầu rõ ràng Codex sử dụng trình duyệt Chrome mà bạn đã đăng nhập:
Các tác vụ Chrome sẽ chạy trong nhóm tab, giúp tập trung các tab liên quan đến một chuỗi Codex cùng nhau. Khác với trình duyệt trong ứng dụng, giao diện này sử dụng danh tính trình duyệt của bạn, giúp nó mạnh mẽ hơn nhưng cũng nhạy cảm hơn.
Một lợi thế chính khác là điều khiển đa tab. Chrome cho phép nhiều tab liên kết với cùng một nhiệm vụ, đọc ngữ cảnh trên một trang, đối chiếu thông tin trên trang khác, rồi tiếp tục luồng công việc trên trang thứ ba. Computer Use cũng có thể điều khiển trình duyệt bằng cách trực quan, nhưng Chrome hiểu nhiệm vụ như một luồng làm việc trên trình duyệt, chứ không phải một chuỗi các thao tác tọa độ màn hình.
Gần đây, tôi đã chia sẻ một tab Strudel Composer đang mở cho Codex, yêu cầu nó làm cho bản nhạc trở nên thú vị hơn. Chrome đã cung cấp cho nó tab được chọn cùng các công cụ WebMCP mà trang này cung cấp. Codex đã kiểm tra cấu trúc bản nhạc, viết lại hòa âm và hình thức tổng thể bốn phút, điều chỉnh tốc độ, lưu lại bản nhạc và cho nó tiếp tục phát. Nó không cần tìm kiếm trực quan từng điều khiển trên giao diện, vì Chrome có thể kết hợp ngữ cảnh tab với các khả năng có cấu trúc mà trang web cung cấp.
Tôi vẫn dùng nó để chạy một chuỗi Twitter dài hạn. Hướng dẫn大致 là:
Điều thú vị không phải là Codex có thể mở Twitter, mà là chuỗi này có thể quay lại lâu dài cùng một môi trường làm việc đã đăng nhập, liên kết các nội dung phát hiện với tệp cục bộ và để lại kết quả để tôi kiểm duyệt.
Ran giới tin cậy ở đây rất quan trọng. Trang web có thể coi các hành động như nhấp vào Codex, gửi biểu mẫu và gửi tin nhắn là do chính bạn thực hiện. Nội dung trang web cũng là đầu vào không đáng tin cậy. Hãy phân biệt rõ các bước có hậu quả nghiêm trọng: nghiên cứu, điều hướng và soạn thảo có thể được tự động thực hiện; trước khi gửi, đăng, mua hoặc nộp, bạn cần xem xét lại.
Nếu toàn bộ nhiệm vụ được thực hiện trong trình duyệt, hãy ưu tiên sử dụng Chrome thay vì Computer Use. Chrome cung cấp ngữ cảnh gốc của trình duyệt cần thiết cho các nhiệm vụ này, đồng thời không mở rộng phạm vi truy cập đến toàn bộ màn hình máy tính.
Sử dụng @Browser trong ứng dụng để xử lý trang web bạn đang phát triển
Trình duyệt trong ứng dụng là trình duyệt nằm bên trong luồng Codex. Bạn chia sẻ cùng một trang được hiển thị với Codex, vì vậy nó đặc biệt phù hợp để xây dựng và gỡ lỗi ứng dụng web.
Tôi thường bắt đầu xử lý từ đây:
Máy chủ phát triển cục bộ;
Trang xem trước dựa trên tệp;
Trang công khai không cần đăng nhập;
Reproduce the visual bug;
Kiểm tra bố cục phản hồi;
Leave design feedback for page elements.
Ràng buộc quan trọng nhất của nó là cách ly. Trình duyệt trong ứng dụng sẽ không sử dụng hồ sơ trình duyệt thông thường, cookie, tiện ích mở rộng, phiên đăng nhập hoặc các tab hiện có của bạn. Khi nhiệm vụ yêu cầu xác thực tài khoản, đây là một hạn chế; nhưng khi nhiệm vụ không cần tài khoản, đây lại là một ranh giới hữu ích.
Cách thiết lập: Mở Plugins của Codex, thêm plugin Browser và kích hoạt nó.
Cách kích hoạt: Đề cập đến @Browser trong lời nhắc, hoặc yêu cầu rõ ràng Codex sử dụng trình duyệt trong ứng dụng:
Điều này tạo thành một vòng lặp phản hồi chặt chẽ: Codex có thể chỉnh sửa mã, thao tác trang, kiểm tra trạng thái hiển thị, chụp ảnh màn hình, sau đó xác minh lại quy trình tương tự sau khi sửa chữa.
Phần tôi yêu thích nhất là ghi chú. Khi đánh giá một ứng dụng địa phương, tôi có thể trực tiếp nhấp vào một yếu tố hoặc chọn một vùng và để lại bình luận. Các công cụ định dạng cũng giúp tôi xem trước và phản hồi chính xác hơn về văn bản, phông chữ, khoảng cách và màu sắc. Tôi thường kết hợp nó với nhập liệu bằng giọng nói và hướng dẫn quy trình: tôi đánh giá trang, để lại bình luận, và tiếp tục thêm ý kiến trong hàng đợi khi Codex xử lý phản hồi hiện tại. Trang này chính thức trở thành tài liệu yêu cầu.
Điều này đặc biệt hữu ích cho công việc thiết kế. Tôi thường yêu cầu Codex sắp xếp một ý tưởng, một bộ nghiên cứu hoặc trạng thái dự án thành một tệp index.html duy nhất, sau đó mở nó bằng trình duyệt trong ứng dụng. Thay vì cố gắng mô tả toàn bộ thiết kế trong một lời nhắc khác, tôi có thể trực tiếp ghi chú trên trang thực tế: “Quan hệ phân cấp này bị đảo ngược”, “Chỗ này đừng trông giống thẻ quá”, “Các điều khiển này cần thêm không gian” hoặc “Toàn bộ trang nên sử dụng tỷ lệ cỡ chữ này”. Codex sẽ nhận được các nhận xét kèm ảnh chụp màn hình và ngữ cảnh các phần tử, chỉnh sửa tệp, rồi mở lại cùng trang đó để bắt đầu vòng tiếp theo.
Cảm giác này giống như đang cùng làm việc trên một tấm bảng với một nhà thiết kế, thay vì gửi qua gửi lại ảnh chụp màn hình và hướng dẫn bằng văn bản.
Trình duyệt trong ứng dụng cũng là điểm khởi đầu phù hợp cho luồng làm việc lai. Trong một luồng khác, tôi đã mở một bài đăng X bằng trình duyệt trong ứng dụng để Codex điều tra các cuộc thảo luận liên quan. Giao diện trang web giúp nó xác nhận tôi đang nhắc đến bài đăng nào; sau đó Codex chuyển sang Twitter CLI, truy xuất 38 phản hồi, bao gồm cả các phản hồi lồng ghép bị ẩn trong chế độ xem trình duyệt. Đây là việc thực hành nguyên tắc “sử dụng giao diện thao tác hẹp nhất”: dùng trình duyệt để xác minh ngữ cảnh trên màn hình, sau đó dùng công cụ có cấu trúc để thực hiện truy vấn sâu hơn.
Ở đây cũng có sự đánh đổi. Tính cách ly của trình duyệt trong ứng dụng khiến nó trở thành giao diện phát triển tốt, nhưng đồng nghĩa với việc nó không phù hợp để xử lý đăng nhập Google, passkey hoặc các trang web phụ thuộc vào tiện ích mở rộng trình duyệt. Khi danh tính quan trọng, hãy chuyển sang Chrome.
Ảnh màn hình
Appshot không phải là cách thứ tư để Codex điều khiển máy tính. Đó là một phương pháp để Codex hướng đến ngữ cảnh ngay trước mắt bạn.
Trên Mac, nhấn hai lần phím CMD để chụp cửa sổ gần nhất. Codex sẽ đính kèm hình ảnh và tất cả văn bản khả dụng vào chuỗi hội thoại. Bạn có thể thực hiện Appshot cho một lỗi, một email, một thiết kế, một bảng cài đặt hoặc một biểu mẫu lạ, sau đó nói trực tiếp:
Đây là mô hình tư duy dễ nhớ nhất mà tôi cảm thấy: Appshots là cách bạn chỉ đến một thứ nào đó trên máy tính; Browser, Chrome và Computer Use là cách Codex thực hiện hành động.
Appshots hiện được tạo thông qua ứng dụng Codex trên macOS. Nó chụp cửa sổ đang ở phía trước, chứ không phải toàn bộ màn hình nền. Điều này làm cho nó trở thành một cách hữu ích để cung cấp bối cảnh tập trung mà không cần cấp quyền kiểm soát ứng dụng đó.
Làm thế nào để theo dõi những tiến triển này
Các giao diện thao tác này thay đổi rất nhanh. Nếu bạn muốn nhận các chi tiết thực tế thay vì chờ một bản tóm tắt phát hành dài:
Theo dõi Ari Weinstein (@AriX) để cập nhật về Computer Use và Appshots;
Theo dõi James Sun (@JamesZmSun) để cập nhật nội dung liên quan đến Browser;
Theo dõi Andrew Ambrosino (@ajambrosino) để cập nhật về việc ra mắt ứng dụng Codex và câu chuyện sản phẩm桌面 lớn hơn;
Theo dõi OpenAI Developers (@OpenAIDevs) để cập nhật tin tức về Codex và OpenAI Platform.
