Codex використовує комп’ютери через три інтерфейси: використання комп’ютера, розширення Chrome та вбудований браузер

icon MarsBit
Поділитися
AI summary iconКороткий зміст

Редакторська примітка: Ця стаття описує три способи взаємодії Codex з зовнішнім середовищем: Computer Use, розширення Chrome та вбудований браузер. На перший погляд, усі вони вирішують проблему «дозволити Codex використовувати комп’ютер», але кожен з них призначений для інших сценаріїв завдань, має різні межі прав та рівні довіри.

З них Computer Use має найширший охоплення, дозволяючи безпосередньо керувати авторизованими нативними додатками, системними налаштуваннями та iOS-емулятором на macOS / Windows, а також виконувати робочі процеси через кілька додатків. Він підходить для GUI-процесів, які не мають підтримки API, плагінів чи структурованих інструментів, але має недоліки — нижчу швидкість та найширші межі прав. Розширення Chrome підходять для завдань, що залежать від сесій входу, куків, багатьох вкладок та ідентичності браузера, наприклад Gmail, LinkedIn, Salesforce, внутрішніх адміністративних панелей або розслідувань через кілька сайтів. Вбудований браузер у додатку спрямований на розробку та налагодження, особливо добре підходить для локальних сервісів, візуальних багів, адаптивного макету та коментарів щодо дизайну; він не успадковує стан входу користувача у звичайному браузері, має обмеженіші можливості, але забезпечує більшу ізоляцію.

Основний висновок статті полягає в тому, що Codex не має лише одного «способу використання комп’ютера»; справді важливо вибирати найвужчий, найбезпечніший та найбільш структурований інтерфейс для кожної задачі. Якщо можна використовувати плагіни або MCP, не варто спочатку застосовувати візуальне керування; якщо задача стосується лише веб-розробки, пріоритетним має бути вбудований браузер; переключайтеся на Chrome лише тоді, коли потрібні облікові дані та сесія користувача у браузері; Computer Use — це останній етап, який застосовується лише тоді, коли структуровані інструменти не можуть вирішити задачу, і завдання обов’язково вимагає графічного інтерфейсу стільниці.

Appshots — це не четвертий спосіб керування комп’ютером, а інструмент, який «показує» Codex поточний контекст екрана. Він вирішує проблему введення контексту, тоді як Browser, Chrome та Computer Use вирішують проблему дій. Разом ця ієрархія розкриває ключовий аспект продуктизації AI Agent: не надавати моделі безмежних повноважень, а поступово обмежувати їхні права та чітко визначати межі в межах конкретних завдань, зберігаючи за користувачем право перевірки ключових дій.

Нижче наведено оригінал:

Codex має три способи використання на комп’ютері: Computer Use, розширення Chrome та вбудований браузер.

Між ними є певний перекриття, яке саме настільки велике, що викликає плутанину.

Прочитав цю статтю, ви дізнаєтеся, як встановити та активувати ці три способи, у яких сценаріях їх використовувати, як зв’язати Appshots і Developer mode, а також що писати в AGENTS.md, щоб Codex міг самостійно вибирати відповідний інтерфейс.

Проста версія:

Використання комп’ютера

Хоча це так, краще використовувати плагіни або MCP, якщо це можливо. Наприклад, плагін Slack дозволяє точніше шукати потік, ніж клікати по всьому Slack; дії, створені плагіном GitHub, легше перевірити, ніж за допомогою Codex, що керує веб-сторінкою. Візуальне керування найкраще використовувати там, де структуровані інструментальні можливості досягають межі.

Все може бути @Computer

Computer Use — це найбільш універсальний із цих трьох інтерфейсів. Він дозволяє Codex переглядати та керувати графічним інтерфейсом на macOS і Windows, включаючи вікна, меню, клавіатурний ввід та буфер обміну в додатках, до яких ви надали доступ.

Він також зазвичай найповільніший. Структуровані плагіни можуть безпосередньо викликати API; Computer Use повинен спостерігати за інтерфейсом, визначати, де клікнути, чекати на відповідь додатка, а потім перевіряти наступний стан. Цей візуальний цикл вимагає часу, але означає, що Codex може керувати додатками, які взагалі не мають доступного API.

На macOS повільне завантаження не означає, що воно вас перешкоджає. Computer Use може виконувати у фоновому режимі дії з додатками, які ви надали дозвіл, тоді як ви продовжуєте використовувати інші частини комп’ютера. Часто, коли я відкриваю додаток під час роботи з Codex, я виявляю, що Codex вже тихо завершив цілий робочий процес у фоновому режимі.

Залежно від того, які додатки встановлені та авторизовані на вашому комп’ютері, ці об’єкти керування можуть включати Spotify, Xcode, System Settings, iOS-емулятор, а навіть керування вашим iPhone за допомогою iPhone Mirroring. Він також може переключатися між кількома додатками та обробляти робочі процеси, що охоплюють різні додатки.

Коли завдання залежить від наступного, можна використовувати його:

Нативні настільні додатки, наприклад Spotify або фінансові додатки;

Імітатор iOS, дзеркалення iPhone або інші процеси, які можна виконувати лише через графічний інтерфейс;

Налаштування системи чи додатка;

Джерело даних без плагінів чи API;

Робочий процес, який вимагає переключення між кількома додатками;

Відсутній останній крок у структурованій інтеграції.

Спосіб встановлення: відкрийте Settings > Computer Use у Codex і натисніть Install.

Спосіб активації: згадка @Computer або чіткий запит на використання Computer Use від Codex. Зі зростанням здатностей моделі в майбутньому вона також зможе викликати його самостійно, коли це буде потрібно.

Можете спробувати кілька прикладів:

Мій улюблений приклад: один раз мені вкрадено посилку. Amazon сказав, що доведеться чекати приблизно 25 хвилин, щоб з’єднатися з службою підтримки. Я передав Codex-тред Computer Use, щоб він кожні п’ять хвилин перевіряв вікно чату, а коли з’являвся оператор — зменшував інтервал до однієї хвилини і намагався допомогти мені отримати повернення коштів. Коли я повернувся з душу, повернення коштів уже було завершено.

Також я використовую Computer Use як «останній кілометр» у структурованому робочому процесі. Під час випуску відео Codex міг читати відгуки з Slack, змінювати код і генерувати нове відео, але тоді інтеграція Slack у цьому треді не могла завантажувати файли. Тоді Computer Use клікнув на Add file, щоб додати цей відсутній крок.

Це також найширший межа довіри з трьох. Надавайте йому лише одну чітку програму чи процес за раз. Коли деякі чутливі застосунки не є частиною завдання, тримайте їх вимкненими; уважно перевіряйте вікна дозволів; коли йдеться про фінанси, облікові записи, платежі, облікові дані, конфіденційність та зміни в системній безпеці, краще, щоб людина була присутня для нагляду.

Використовуйте @Chrome для роботи з кількома вкладками та станом входу

Розширення Codex для Chrome дозволяє Codex отримувати доступ до вашого вже увійденого стану Chrome. Використовуйте його, коли завдання залежать від облікового запису, файлів cookie, профілю браузера або вже відкритих та автентифікованих вкладок.

Цей інтерфейс підходить для роботи з такими інструментами:

Gmail або LinkedIn;

Salesforce або адміністративна панель служби підтримки;

Внутрішний інформаційний інтерфейс;

Зареєстровані дослідження на кількох веб-сайтах;

Залежність від форми вашого облікового запису або розширення браузера.

Спосіб встановлення: відкрийте Plugins у Codex, додайте Chrome та дотримуйтесь інструкцій налаштування. Codex проведе вас через встановлення розширення Codex для Chrome та підтвердження дозволів Chrome. Коли розширення покаже Connected, створіть новий потік.

Спосіб запуску: згадайте @Chrome або чітко вимагайте, щоб Codex використовував ваш вже увійшовший браузер Chrome:

Завдання Chrome працюватимуть у групах вкладок, що допомагає згрупувати вкладки, пов’язані з певним потоком Codex. Відмінно від вбудованого браузера, цей інтерфейс використовує вашу ідентичність браузера. Це робить його потужнішим, але й більш чутливим.

Ще одна головна перевага — багатотабличне керування. Chrome дозволяє пов’язати кілька вкладок з однією задачею: читати контекст на одній вкладці, порівнювати інформацію на іншій та продовжувати робочий процес на третій. Computer Use також може керувати браузером за допомогою візуального аналізу, але Chrome сприймає задачу як робочий процес браузера, а не як послідовність операцій з координатами екрана.

Недавно був запущений тред, у якому я передав відкриту вкладку Strudel Composer Codex, щоб вона зробила музику цікавішою. Chrome надав їй вибрану вкладку та інструменти WebMCP, які надає ця сторінка. Codex проаналізувала структуру композиції, переписала гармонію та загальну форму на чотири хвилини, змінила темп, зберегла трек і продовжила його відтворення. Їй не потрібно було візуально шукати кожен елемент інтерфейсу, оскільки Chrome змогла поєднати контекст вкладки зі структурованими можливостями, які надає сторінка.

Я також використовую його для запуску довготривалого Twitter-треду. Основні інструкції:

Цікаво не те, що Codex може відкрити Twitter, а те, що цей тред може довготривалий час повертатися до одного й того ж авторизованого робочого середовища, пов’язувати виявлені матеріали з локальними файлами та залишати результат, який я можу перевірити.

Тут важлива межа довіри. Сайт може вважати кліки, надсилання форм і повідомлень Codex вашими власними діями. Сам вміст сторінки також є ненадійним вводом. Чітко розмежуйте кроки з серйозними наслідками: дослідження, навігація та чернетку можна автоматизувати; перед надсиланням, публікацією, купівлею чи надсиланням потрібно провести перевірку.

Якщо весь завдання виконується в браузері, використовуйте Chrome, а не Computer Use. Chrome має вбудований браузерний контекст, необхідний для таких завдань, і не розширює діапазон доступу на весь робочий стіл.

Використовуйте вбудований @Browser для обробки вашого веб-сайту

Вбудований браузер — це браузер, що існує всередині треду Codex. Ви поділяєте з Codex той самий сторінковий рендер, тому він ідеально підходить для створення та налагодження веб-додатків.

Я зазвичай починаю з цього:

Локальний розробницький сервер;

Сторінка попереднього перегляду на основі файлу;

Відкриті сторінки, не потрібно входити;

Відтворити візуальний баг;

Перевірте адаптивний макет;

Залиште зворотний зв’язок щодо дизайну елементів сторінки.

Його найважливішим обмеженням є ізоляція. Вбудований браузер не використовує ваші звичайні налаштування браузера, файли cookie, розширення, сеанси входу чи існуючі вкладки. Коли завдання вимагає ідентифікації облікового запису, це обмеження; але коли завдання не вимагає облікового запису, це стає корисною межею.

Спосіб налаштування: відкрийте Plugins Codex, додайте плагін Browser та увімкніть його.

Спосіб запуску: згадати @Browser у запиті або чітко вимагати, щоб Codex використовував вбудований браузер:

Це створює щільний цикл зворотного зв’язку: Codex може редагувати код, керувати сторінками, перевіряти стан відображення, робити знімки екрана, а потім повторно перевіряти той самий процес після виправлення.

Моя найулюбленіша частина — це коментарі. Коли я перевіряю локальний додаток, я можу просто клацнути на елемент або виділити область, щоб залишити коментар. Керування стилем дозволяє мені точніше переглядати та надавати зворотний зв’язок щодо тексту, шрифтів, відстаней та кольорів. Я зазвичай поєдную це з голосовим введенням та керуванням процесом: я перевіряю сторінку, залишаю коментарі та продовжую додавати більше зауважень, поки Codex обробляє поточний зворотний зв’язок. Сама ця сторінка перетворюється на специфікацію.

Це особливо корисно для роботи з дизайном. Я часто прошу Codex перетворити ідею, пакет досліджень або стан проекту на один файл index.html, а потім відкрити його в всередині браузера додатка. Замість того щоб намагатися описати весь дизайн у іншому запиті, я можу безпосередньо робити позначки на реальній сторінці: «Цей ієрархічний порядок зворотній», «Це не повинно бути так схоже на картку», «Цим елементам потрібно більше простору» або «Використовуйте цей масштаб шрифтів на всьому сайті». Codex отримує коментарі з відповідними скріншотами та контекстом елементів, змінює файл і знову відкриває ту саму сторінку для наступного раунду.

Цей цикл відчувається ближчим до спільної роботи з дизайнером на одній полотні, ніж до обміну скріншотами та текстовими інструкціями.

Вбудований браузер також може слугувати початковою точкою для гібридного робочого процесу. У іншому потоці я відкрив пост у X через вбудований браузер, щоб Codex дослідив відповідні обговорення. Візуальний перегляд сторінки допоміг йому підтвердити, про який саме пост йде мова; після цього Codex переключився на Twitter CLI і отримав 38 відповідей, включаючи вкладені відповіді, які приховані у браузерному перегляді. Це і є реалізація принципу «використання найвужчого інтерфейсу»: спочатку використовувати браузер для підтвердження контексту на екрані, а потім застосовувати структуровані інструменти для глибшого пошуку.

Тут також є компроміси. Ізольованість вбудованого браузера робить його чудовим інтерфейсом для розробки, але означає, що він не підходить для обробки входу через Google, passkey або сайтів, які залежать від розширень браузера. Коли важлива ідентифікація, переключіться на Chrome.

Appshots

Appshot — це не четвертий спосіб керування комп’ютером Codex. Це спосіб спрямувати Codex на ваш поточний контекст.

На Mac натисніть двічі клавішу CMD, щоб зробити знімок останнього вікна. Codex додасть зображення та весь доступний текст до треду. Ви можете зробити Appshot для помилки, листа, дизайну, панелі налаштувань або невідомої форми, а потім просто сказати:

Це найпростіша модель для запам’ятовування: Appshots — це спосіб вказати на щось на вашому комп’ютері; Browser, Chrome і Computer Use — це способи, якими Codex виконує дії.

Appshots зараз створюються за допомогою додатка Codex на macOS. Він захоплює лише переднє вікно, а не весь робочий стіл. Це робить його корисним способом надання зосередженого контексту без надання контролю над цим додатком.

Як слідкувати за цими досягненнями

Ці інтерфейси змінюються дуже швидко. Якщо ви хочете отримати корисні деталі, а не чекати величезний підсумок публікації:

Слідкуйте за Ari Weinstein (@AriX), щоб дізнатися більше про Computer Use та Appshots;

Слідкуйте за James Sun (@JamesZmSun), щоб отримувати інформацію про Browser;

Слідкуйте за Andrew Ambrosino (@ajambrosino), щоб дізнатися про випуск додатка Codex та більшій історії стосовно настільних продуктів;

Відстежуйте OpenAI Developers (@OpenAIDevs), щоб отримувати новини про Codex та платформу OpenAI.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.