Редакторская заметка: В этой статье рассматриваются три способа взаимодействия Codex с внешней средой: Computer Use, Chrome-расширение и встроенный браузер. Хотя все три метода кажутся направленными на решение задачи «заставить Codex использовать компьютер», они предназначены для разных сценариев использования, имеют различные границы прав и уровни доверия.
Среди них Computer Use имеет самый широкий охват: он позволяет напрямую управлять авторизованными нативными приложениями, системными настройками и эмулятором iOS на macOS / Windows, а также выполнять рабочие процессы через несколько приложений. Он подходит для GUI-процессов, не имеющих поддержки API, плагинов или структурированных инструментов, но сопровождается более низкой скоростью и наиболее широкими границами разрешений. Расширения Chrome идеально подходят для задач, зависящих от сессии входа, куки, нескольких вкладок и идентификации браузера, таких как Gmail, LinkedIn, Salesforce, внутренние административные панели или исследовательские работы, проведенные в нескольких авторизованных веб-сайтах. Встроенный браузер приложения ориентирован на сценарии разработки и отладки, особенно подходит для локальных сервисов, визуальных багов, адаптивной верстки и комментариев к дизайну; он не наследует состояние входа в обычный браузер пользователя, его возможности ужее, но изоляция сильнее.
Основной вывод статьи заключается в том, что Codex не предполагает единственный способ «использования компьютера»; действительно важно выбирать наиболее узкий, безопасный и структурированный интерфейс в зависимости от задачи. Если можно использовать плагины или MCP, не следует сразу прибегать к визуальному управлению; если задача связана только с веб-разработкой, приоритет должен отдаваться встроенному браузеру; переключаться на Chrome следует только тогда, когда требуется идентификация и состояние входа пользователя в браузере; Computer Use применяется лишь в качестве последнего шага, когда структурированные инструменты не покрывают задачу, а она обязательно требует графического интерфейса рабочего стола.
Appshots — это не четвертый способ управления компьютером, а инструмент для «показа» текущего контекста экрана Codex. Он решает проблему ввода контекста, в то время как Browser, Chrome и Computer Use решают проблему действий. В совокупности эта иерархия раскрывает ключевой аспект продуктизации AI Agent: не предоставление модели неограниченных прав, а постоянное сужение прав и четкое определение границ в рамках конкретных задач, при этом сохраняя за пользователем право одобрения ключевых действий.
Следует отметить, что:
Codex предлагает три способа использования на компьютере: Computer Use, расширение Chrome и встроенный браузер.
Между ними есть некоторое перекрытие, достаточное, чтобы вызвать путаницу.
Прочитав эту статью, вы узнаете, как установить и активировать эти три способа, в каких сценариях их использовать, как связать Appshots и Developer mode, а также что писать в AGENTS.md, чтобы Codex мог самостоятельно выбирать подходящий интерфейс.
Простая версия:

Тем не менее, если возможно, предпочтительнее использовать плагины или MCP. Например, плагин Slack позволяет точнее искать потоки, чем кликать по всему Slack; операции, создаваемые плагином GitHub, проще проверить, чем заставлять Codex управлять веб-страницей. Визуальное управление лучше всего применять там, где возможности структурированных инструментов достигают своих пределов.
Всё может быть @Computer
Computer Use — это интерфейс с наибольшим охватом среди этих трех интерфейсов. Он позволяет Codex просматривать и взаимодействовать с графическим интерфейсом на macOS и Windows, включая окна, меню, ввод с клавиатуры и буфер обмена в приложениях, к которым у вас есть доступ.
Он также обычно самый медленный. Структурированные плагины могут напрямую вызывать API; Computer Use должен наблюдать за интерфейсом, определять, где нажать, ждать ответа приложения и проверять следующее состояние. Этот визуальный цикл занимает время, но означает, что Codex может работать с приложениями, для которых вообще нет доступного API.
На macOS медленный процесс не обязательно означает, что он вас побеспокоит. Computer Use может выполнять авторизованные вами приложения в фоновом режиме, пока вы продолжаете использовать другие части компьютера. Часто, открывая приложение во время работы Codex, я обнаруживаю, что Codex уже тихо завершил целый рабочий процесс в фоновом режиме.
В зависимости от приложений, установленных и авторизованных на вашем компьютере, эти объекты управления могут включать Spotify, Xcode, System Settings, iOS-эмулятор и даже управление вашим iPhone с помощью iPhone Mirroring. Он также может переключаться между несколькими приложениями и обрабатывать рабочие процессы, охватывающие различные приложения.
Когда задача зависит от следующего, можно использовать его:
Нативные настольные приложения, такие как Spotify или финансовые приложения;
Имитатор iOS, зеркалирование iPhone или другие процессы, доступные только через графический интерфейс;
Настройки системы или приложения;
Источник данных без плагинов или API;
Рабочий процесс, требующий переключения между несколькими приложениями;
Отсутствующий последний шаг в структурированной интеграции.
Способ установки: откройте Settings > Computer Use в Codex и нажмите Install.
Способ активации: упоминание @Computer или явный запрос на использование Computer Use Codex. По мере улучшения возможностей модели в будущем она будет вызывать его самостоятельно при необходимости.
Можно сначала попробовать несколько примеров:
Один из моих любимых примеров начался с того, что посылку украли. Amazon сказала, что мне нужно подождать около 25 минут, чтобы дождаться оператора службы поддержки. Я передал поток Codex в Computer Use, чтобы он проверял окно чата каждые пять минут, а как только появится оператор — переключился на проверку каждую минуту и максимально старался помочь мне получить возврат средств. Когда я вернулся после душа, возврат уже был завершен.
Я также использую Computer Use в качестве «последнего километра» в структурированном рабочем процессе. Во время выпуска видео Codex мог считывать обратную связь из Slack, изменять код и генерировать новое видео, но тогда интеграция Slack в этом потоке не могла загружать файлы. Тогда Computer Use кликнул на Add file, чтобы восполнить этот недостающий шаг.
Это также самый широкий из трех границ доверия. Предоставляйте ему только одно четкое приложение или процесс за раз. Держите его выключенным, когда чувствительные приложения не являются частью задачи; внимательно проверяйте всплывающие окна разрешений; при наличии финансовых операций, учетных записей, платежей, учетных данных, изменений конфиденциальности и безопасности системы лучше всего находиться рядом и контролировать процесс.
Используйте @Chrome для управления несколькими вкладками и состоянием входа
Расширение Codex для Chrome позволяет Codex получить доступ к вашей уже входящей в систему среде Chrome. Используйте его, когда задачи зависят от учетной записи, куки, профиля браузера или вкладок, которые вы уже открыли и прошли аутентификацию.
Этот интерфейс подходит для работы с следующими инструментами:
Gmail или LinkedIn;
Salesforce или административная панель службы поддержки;
Внутренный дашборд;
Зарегистрированный анализ на нескольких сайтах;
Формы, зависящие от вашей учетной записи или браузерного расширения.
Способ установки: откройте Plugins в Codex, добавьте Chrome и следуйте инструкциям настройки. Codex проведет вас через установку расширения Codex для Chrome и запрос разрешений Chrome. Когда расширение отобразит статус Connected, создайте новую ветку.
Способ активации: упоминание @Chrome или явный запрос Codex использовать вашу уже войденную браузер Chrome:
Задачи в Chrome будут выполняться в группах вкладок, что помогает объединить все вкладки, связанные с определенным потоком Codex. В отличие от встроенного браузера, этот интерфейс использует вашу идентичность браузера, что делает его более мощным, но и более чувствительным.
Еще одно ключевое преимущество — управление несколькими вкладками. Chrome позволяет связать несколько вкладок с одной задачей: читать контекст на одной вкладке, сверять информацию на другой и продолжать рабочий процесс на третьей. Computer Use также может управлять браузером визуально, но Chrome воспринимает задачу как рабочий процесс браузера, а не как последовательность действий с координатами экрана.
Недавно я создал поток, в котором передал уже открытую вкладку Strudel Composer Codex, чтобы он сделал музыку более интересной. Chrome предоставил ему выбранную вкладку и инструменты WebMCP, доступные на этой странице. Codex проанализировал структуру композиции, переписал гармонию и общую форму на четыре минуты, изменил темп, сохранил трек и продолжил воспроизведение. Ему не нужно было визуально искать каждый элемент интерфейса, поскольку Chrome мог объединить контекст вкладки и структурированные возможности, предоставляемые страницей.
Я также использую его для запуска долгосрочной Twitter-цепочки. Основные инструкции:
Интересно не то, что Codex может открыть Twitter, а то, что этот поток может долгое время возвращаться к одной и той же авторизованной рабочей среде, связывать обнаруженные данные с локальными файлами и оставлять результат, который я могу проверить.
Здесь важно определить границы доверия. Сайт может рассматривать клики, отправку форм и сообщений Codex как ваши собственные действия. Сам контент веб-страницы также является ненадежным вводом. Четко разделите шаги с серьезными последствиями: исследование, навигация и черновик могут быть автоматизированы; перед отправкой, публикацией, покупкой или отправкой необходимо провести проверку.
Если вся задача выполняется в браузере, отдавайте предпочтение Chrome, а не Computer Use. Chrome предоставляет нативный браузерный контекст, необходимый для таких задач, и не расширяет доступ до всего рабочего стола.
Используйте встроенный @Browser для обработки вашего веб-сайта
Встроенный браузер — это браузер, существующий внутри потока Codex. Вы делите с Codex один и тот же рендеринг страницы, поэтому он идеально подходит для создания и отладки веб-приложений.
Я обычно начинаю обработку отсюда:
Локальный сервер разработки;
Страница предварительного просмотра на основе файла;
Открытые страницы без необходимости входа;
Воспроизвести визуальный баг;
Проверьте адаптивную верстку;
Оставьте обратную связь по дизайну элементов страницы.
Его самым важным ограничением является изоляция. Встроенный браузер не использует ваш обычный профиль браузера, файлы cookie, расширения, сеансы входа или существующие вкладки. Когда задача требует учетных данных аккаунта, это ограничение; но когда задача не требует аккаунта, это становится полезной границей.
Настройка: откройте Plugins Codex, добавьте плагин Browser и включите его.
Способ активации: упомянуть @Browser в запросе или явно потребовать, чтобы Codex использовал встроенный браузер:
Это создает тесный цикл обратной связи: Codex может редактировать код, управлять страницами, проверять состояние рендеринга, делать скриншоты, а затем повторно проверять ту же процедуру после устранения ошибок.
Моя любимая часть — это комментарии. Когда я проверяю локальное приложение, я могу просто щелкнуть по элементу или выделить область и оставить комментарий. Элементы стиля также позволяют мне более точно предварительно просматривать и давать обратную связь по тексту, шрифтам, интервалам и цветам. Обычно я сочетаю это с голосовым вводом и пошаговым руководством: я проверяю страницу, оставляю комментарии и продолжаю добавлять новые замечания в очередь, пока Codex обрабатывает текущую обратную связь. Сама страница превращается в спецификацию.
Это особенно полезно для дизайнерской работы. Я часто прошу Codex преобразовать идею, пакет исследований или статус проекта в один файл index.html, а затем открыть его во встроенном браузере. Вместо того чтобы пытаться описать всю систему дизайна в другом запросе, я могу прямо на реальной странице оставлять комментарии: «Эта иерархия обратная», «Здесь не должно быть так похоже на карточку», «Эти элементы управления нуждаются в большем пространстве» или «Во всем сайте используйте этот масштаб шрифтов». Codex получает комментарии с соответствующими скриншотами и контекстом элементов, вносит изменения в файл и снова открывает ту же страницу для следующего цикла.
Этот цикл больше похож на работу с дизайнером за одной доской, чем на обмен скриншотами и текстовыми инструкциями.
Встроенный браузер также подходит в качестве отправной точки для гибридного рабочего процесса. В другом потоке я открыл пост в X через встроенный браузер, чтобы Codex изучил соответствующие обсуждения. Видимая страница помогла ему подтвердить, о каком именно посте идет речь; после этого Codex переключился на Twitter CLI и извлек 38 ответов, включая вложенные ответы, скрытые в представлении браузера. Это и есть применение принципа «использования наиболее узкого интерфейса»: сначала использовать браузер для подтверждения контекста на экране, а затем применять структурированные инструменты для более глубокого поиска.
Здесь также есть компромисс. Изоляция встроенного браузера делает его отличным интерфейсом для разработки, но означает, что он не подходит для обработки входа через Google, passkey или сайтов, зависящих от расширений браузера. Когда важна идентификация, переключитесь на Chrome.
Appshots
Appshot — это не четвертый способ управления компьютером Codex. Это способ направить Codex на ваш текущий контекст.
На Mac дважды нажмите клавишу CMD, чтобы захватить последнее окно. Codex прикрепит изображение и весь доступный текст к потоку. Вы можете сделать Appshot ошибки, письма, дизайна, панели настроек или незнакомой формы, а затем просто сказать:
Это самая простая в запоминании модель мышления: Appshots — это способ указать на что-то на вашем компьютере; Browser, Chrome и Computer Use — это способы, которыми Codex выполняет действия.
Appshots сейчас создаются через приложение Codex на macOS. Оно захватывает только активное окно, а не весь рабочий стол. Это делает его полезным способом предоставления сфокусированного контекста без предоставления контроля над этим приложением.
Как отслеживать эти достижения
Эти интерфейсы меняются очень быстро. Если вы хотите получить практические детали, а не ждать огромного обзора выпуска:
Подпишитесь на Ari Weinstein (@AriX), чтобы узнать о Computer Use и Appshots;
Подпишитесь на James Sun (@JamesZmSun), чтобы получать информацию о Browser;
Подпишитесь на Andrew Ambrosino (@ajambrosino), чтобы узнать о запуске приложения Codex и более широкой повествовательной истории для настольных продуктов;
Подпишитесь на OpenAI Developers (@OpenAIDevs), чтобы получать новости о Codex и платформе OpenAI.
