Codex utilise des ordinateurs via trois interfaces : utilisation d'ordinateur, extension Chrome et navigateur intégré

icon MarsBit
Partager
AI summary iconRésumé

Note de l’éditeur : Cet article passe en revue les trois points d’entrée permettant à Codex d’interagir avec l’environnement externe : Computer Use, extension Chrome et navigateur intégré. Bien qu’ils semblent tous résoudre le problème « permettre à Codex d’utiliser un ordinateur », ils correspondent à des scénarios de tâches, des limites de permissions et des niveaux de confiance différents.

Parmi ceux-ci, Computer Use offre la couverture la plus large, permettant d'interagir directement avec des applications natives autorisées, les paramètres système sur macOS / Windows, l'émulateur iOS, et même d'automatiser des flux de travail à travers plusieurs applications. Il est idéal pour les processus GUI ne disposant pas d'API, de plugins ou d'outils structurés, mais au prix d'une vitesse plus lente et d'une limite de permissions la plus large. Les extensions Chrome conviennent mieux aux tâches dépendant de sessions connectées, de cookies, de plusieurs onglets et d'identité navigateur, telles que Gmail, LinkedIn, Salesforce, les back-ends internes ou des recherches connectées à travers plusieurs sites web. Le navigateur intégré est principalement destiné aux scénarios de développement et de débogage, particulièrement adapté aux services locaux, aux bugs visuels, aux mises en page réactives et aux commentaires de conception ; il n'hérite pas de l'état de connexion du navigateur utilisateur normal, possède des capacités plus limitées, mais offre une isolation plus forte.

Le jugement central de l'article est que Codex n'a pas qu'une seule façon d'« utiliser un ordinateur » ; ce qui compte vraiment, c'est de choisir, en fonction de la tâche, l'interface opérationnelle la plus étroite, la plus sûre et la plus structurée. Utilisez des plugins ou MCP avant de recourir au contrôle visuel ; privilégiez le navigateur intégré lorsque la tâche concerne uniquement le développement web ; passez à Chrome uniquement lorsque l'identité et l'état de connexion de l'utilisateur dans le navigateur sont nécessaires ; Computer Use ne doit être utilisé qu'en dernier recours, lorsque les outils structurés ne suffisent pas et que la tâche dépend obligatoirement de l'interface graphique de bureau.

Appshots n'est pas une quatrième méthode de contrôle de l'ordinateur, mais un outil qui « montre » le contexte de l'écran actuel à Codex. Il résout le problème de l'entrée de contexte, tandis que Browser, Chrome et Computer Use résolvent le problème des actions. Ensemble, cette hiérarchie révèle en réalité la clé de la production d'agents IA : il ne s'agit pas de donner au modèle des permissions illimitées, mais de réduire continuellement ces permissions et de définir clairement les limites dans le cadre de tâches spécifiques, tout en conservant au utilisateur le droit d'auditer les actions critiques.

Voici le texte original :

Codex propose trois façons d'utiliser un ordinateur : Computer Use, extension Chrome et navigateur intégré.

Il y a un certain chevauchement entre eux, juste assez pour créer de la confusion.

Après avoir lu cet article, vous saurez comment installer et déclencher ces trois méthodes, dans quelles situations les utiliser, comment relier Appshots et Developer mode, et quoi écrire dans AGENTS.md pour permettre à Codex de choisir automatiquement l'interface appropriée.

La version simplifiée est :

Utilisation de l'ordinateur

Cela dit, privilégiez les plugins ou MCP dès que possible. Par exemple, un plugin Slack permet de rechercher un fil de discussion avec plus de précision que de cliquer à travers Slack ; les actions générées par un plugin GitHub sont également plus faciles à vérifier que celles pilotées par Codex via un navigateur. Le contrôle visuel est le plus adapté aux cas où les capacités des outils structurés atteignent leurs limites.

Tout peut être @Computer

Computer Use est l'interface la plus universelle parmi ces trois options. Elle permet à Codex d'afficher et d'interagir avec l'interface graphique sur macOS et Windows, y compris les fenêtres, les menus, les entrées clavier et le presse-papiers des applications que vous avez autorisées.

Il est généralement aussi le plus lent. Les plugins structurés peuvent appeler directement l'API ; Computer Use, en revanche, doit observer l'interface, déterminer où cliquer, attendre la réponse de l'application, puis vérifier l'état suivant. Ce cycle visuel prend du temps, mais permet à Codex d'interagir avec des applications qui n'ont aucune API disponible.

Sur macOS, la lenteur ne signifie pas nécessairement une interruption. Computer Use peut exécuter en arrière-plan les applications que vous avez autorisées, tout en vous permettant de continuer à utiliser les autres parties de votre ordinateur. Souvent, j'ouvre une application tout en utilisant Codex, puis je découvre que Codex a déjà terminé silencieusement une série de tâches en arrière-plan.

Selon les applications installées et autorisées sur votre ordinateur, ces objets d’action peuvent inclure Spotify, Xcode, System Settings, l’émulateur iOS, voire contrôler votre iPhone via iPhone Mirroring. Il peut également basculer entre plusieurs applications et gérer des flux de travail s’étendant sur différentes applications.

Lorsque la tâche dépend des éléments suivants, vous pouvez l'utiliser :

Applications de bureau natives, comme Spotify ou les applications financières ;

Émulateur iOS, miroir iPhone ou tout autre processus accessible uniquement via une interface graphique ;

Paramètres du système ou de l'application ;

Aucune source de données avec plugin ou API ;

Workflow nécessitant de basculer entre plusieurs applications ;

La dernière étape manquante dans une intégration structurée.

Méthode d’installation : ouvrez Settings > Computer Use de Codex, puis cliquez sur Install.

Mode de déclenchement : mentionner @Computer ou exiger explicitement que Codex utilise Computer Use. À mesure que les capacités du modèle s'améliorent, il pourra également l'appeler automatiquement lorsque nécessaire.

Vous pouvez d'abord essayer quelques exemples :

Un exemple que j'aime particulièrement : un colis a été volé. Amazon m'a dit qu'il faudrait attendre environ 25 minutes pour joindre un service client. J'ai confié un thread Codex à Computer Use pour qu'il vérifie la fenêtre de chat toutes les cinq minutes, puis toutes les minutes dès que le service client serait disponible, et qu'il tente de m'obtenir un remboursement. Lorsque je suis revenu de la douche, le remboursement était déjà effectué.

J'utilise également Computer Use comme « dernière mile » dans un flux de travail structuré. Lors d'une publication de vidéo, Codex pouvait lire les retours depuis Slack, modifier le code et générer une nouvelle vidéo, mais l'intégration Slack dans ce fil ne pouvait pas télécharger de fichiers. Computer Use a alors cliqué sur Add file pour compléter cette étape manquante.

C’est également celle qui possède la frontière de confiance la plus large parmi les trois. N’accordez-lui qu’une seule application ou processus clair à la fois. Gardez-la désactivée lorsque des applications sensibles ne font pas partie de la tâche ; vérifiez attentivement les fenêtres de permission ; il est préférable d’être présent pour superviser lorsqu’il s’agit de finances, de comptes, de paiements, de crédentiels, de confidentialité ou de modifications de sécurité système.

Utilisez @Chrome pour gérer les onglets multiples et les états de connexion

L'extension Codex Chrome permet à Codex d'accéder à votre état Chrome déjà connecté. Utilisez-la lorsque les tâches dépendent d'un compte, de cookies, d'un profil de navigateur ou d'onglets déjà ouverts et authentifiés.

Cet interface de commande convient aux travaux effectués avec les outils suivants :

Gmail ou LinkedIn ;

Salesforce ou l'interface d'assistance client ;

Tableau de bord interne ;

Études connectées sur plusieurs sites web ;

Formulaires dépendant de votre compte ou de votre extension de navigateur.

Méthode d’installation : ouvrez les Plugins de Codex, ajoutez Chrome, puis suivez le processus de configuration. Codex vous guidera pour installer l’extension Codex Chrome et approuver les autorisations de Chrome. Une fois que l’extension affiche Connected, démarrez un nouveau thread.

Mode de déclenchement : mentionner @Chrome ou demander explicitement à Codex d'utiliser votre navigateur Chrome connecté :

Les tâches Chrome s'exécutent dans des groupes d'onglets, ce qui aide à regrouper les onglets liés à un thread Codex. Contrairement au navigateur intégré, cette interface utilise votre identité de navigateur, ce qui la rend plus puissante et plus sensible.

Un autre avantage majeur est le contrôle multi-onglets. Chrome permet de lier plusieurs onglets à une même tâche, en lisant le contexte sur une page, en vérifiant les informations sur une autre, puis en poursuivant le flux de travail sur une troisième. Computer Use peut également piloter le navigateur de manière visuelle, mais Chrome comprend la tâche comme un flux de travail de navigateur, et non comme une série d’opérations basées sur des coordonnées d’écran.

Récemment, j’ai partagé une page Strudel Composer déjà ouverte avec Codex pour qu’il rende la musique plus intéressante. Chrome lui a fourni la page sélectionnée ainsi que les outils WebMCP exposés par cette page. Codex a analysé la structure de la pièce, réécrit l’harmonie et la forme globale sur quatre minutes, modifié le tempo, enregistré la piste et lancé la lecture. Il n’a pas eu besoin de rechercher visuellement chaque contrôle dans l’interface, car Chrome a pu combiner le contexte de la page avec les capacités structurées offertes par celle-ci.

J'utilise également cela pour lancer une longue chaîne Twitter. Les instructions générales sont :

Le point intéressant n'est pas que Codex puisse ouvrir Twitter, mais que ce fil puisse revenir à long terme au même environnement de travail connecté, relier les découvertes à des fichiers locaux et laisser un résultat disponible pour mon examen.

La limite de confiance ici est cruciale. Le site peut considérer les clics sur Codex, les soumissions de formulaires et l’envoi de messages comme des actions effectuées par vous-même. Le contenu de la page lui-même constitue également une entrée non fiable. Distinctez clairement les étapes à conséquences plus importantes : la recherche, la navigation et la rédaction peuvent être automatisées ; avant d’envoyer, publier, acheter ou soumettre, vous devez effectuer une vérification.

Si l'ensemble de la tâche est effectuée dans le navigateur, privilégiez Chrome plutôt que Computer Use. Chrome offre le contexte natif du navigateur nécessaire à ce type de tâche, sans étendre l'accès à l'ensemble du bureau.

Utilisez le navigateur intégré @Browser pour gérer le site que vous développez.

Le navigateur intégré est un navigateur intégré au sein du thread Codex. Vous partagez la même page rendue avec Codex, ce qui le rend idéal pour développer et déboguer des applications web.

Je commence généralement par ici :

Serveur de développement local ;

Page d'aperçu basée sur le fichier ;

Pages publiques sans nécessité de connexion ;

Reproduire le bogue visuel ;

Vérifiez la mise en page responsive ;

Leave design feedback for page elements.

Sa contrainte la plus importante est l'isolation. Le navigateur intégré n'utilise pas votre profil de navigateur habituel, vos cookies, vos extensions, vos sessions de connexion ou vos onglets existants. Cela constitue une limitation lorsque la tâche nécessite une identité de compte ; mais lorsque la tâche n'en nécessite pas, c'est au contraire une limite utile.

Configuration : ouvrez les Plugins de Codex, ajoutez le plugin Browser et activez-le.

Mode de déclenchement : mentionner @Browser dans le prompt ou exiger explicitement que Codex utilise le navigateur intégré :

Cela crée une boucle de rétroaction étroite : Codex peut modifier le code, manipuler la page, vérifier l'état de rendu, prendre des captures d'écran, puis révalider le même processus après correction.

Ma partie préférée est la fonction de commentaires. Lorsque je revise une application locale, je peux cliquer directement sur un élément ou sélectionner une zone pour laisser un commentaire. Les contrôles de style me permettent également de prévisualiser et de fournir des retours plus précis sur le texte, les polices, les espacements et les couleurs. Je combine généralement cela avec la saisie vocale et le guide de processus : je revise la page, je laisse des commentaires, puis j’ajoute d’autres observations en file d’attente pendant que Codex traite les retours actuels. Cette page devient elle-même le cahier des charges.

Cela est particulièrement utile pour le travail de conception. Je demande fréquemment à Codex de regrouper une idée, un paquet de recherche ou un état de projet dans un seul fichier index.html, puis d’ouvrir ce fichier dans le navigateur intégré. Au lieu d’essayer de décrire l’ensemble du design dans un autre prompt, je peux directement annoter la page réelle : « Cette hiérarchie est à l’envers », « Ne faites pas cela ressembler à une carte », « Ces contrôles ont besoin de plus d’espace » ou « Appliquez ce rapport de taille de police sur tout le site ». Codex reçoit les commentaires accompagnés des captures d’écran et du contexte des éléments, modifie le fichier, puis réouvre la même page pour un nouveau tour.

Ce cycle ressemble davantage à travailler sur la même toile qu’un designer qu’à échanger des captures d’écran et des descriptions textuelles.

Le navigateur intégré convient également comme point de départ pour un flux de travail hybride. Dans un autre thread, j'ai ouvert un post X dans le navigateur intégré pour permettre à Codex d'investiguer les discussions associées. La page visible lui a permis de confirmer quel post je mentionnais ; ensuite, Codex a basculé vers l'interface CLI de Twitter pour récupérer 38 réponses, y compris les réponses imbriquées masquées dans la vue du navigateur. Cela illustre la pratique du principe « utiliser l'interface d'opération la plus étroite » : utiliser le navigateur pour confirmer le contexte à l'écran, puis recourir à des outils structurés pour des recherches plus approfondies.

Il y a aussi des compromis ici. L'isolation du navigateur intégré en fait un excellent environnement de développement, mais cela signifie qu'il n'est pas adapté pour gérer la connexion Google, les passkeys ou les sites dépendant des extensions de navigateur. Lorsque l'identité est importante, basculez vers Chrome.

Appshots

Appshot n'est pas un quatrième moyen de contrôler l'ordinateur de Codex. C'est une méthode pour orienter Codex vers votre contexte immédiat.

Sur Mac, appuyez deux fois sur la touche CMD pour capturer la fenêtre récente. Codex joint une image et tout le texte disponible à la conversation. Vous pouvez faire un Appshot d’une erreur, d’un e-mail, d’une conception, d’un panneau de configuration ou d’un formulaire inconnu, puis dire directement :

C’est le modèle mental le plus facile à retenir pour moi : Appshots sont les moyens que vous utilisez pour pointer vers quelque chose sur votre ordinateur ; Browser, Chrome et Computer Use sont les façons dont Codex prend des actions.

Appshots est actuellement créé via l'application Codex sur macOS. Il capture la fenêtre avant-plan, et non le bureau entier. Cela en fait un moyen utile d'offrir un contexte ciblé sans accorder le contrôle de cette application.

Comment suivre ces développements ?

Ces interfaces changent rapidement. Si vous souhaitez obtenir des détails pratiques au lieu d'attendre un résumé de publication vaste :

Suivez Ari Weinstein (@AriX) pour Computer Use et Appshots ;

Suivez James Sun (@JamesZmSun) pour plus d'informations sur le navigateur ;

Suivez Andrew Ambrosino (@ajambrosino) pour des informations sur le lancement de l'application Codex et la narration plus large autour du produit de bureau ;

Suivez OpenAI Developers (@OpenAIDevs) pour plus d'informations sur Codex et la plateforme OpenAI.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.