Nota del editor: Este artículo revisa tres puntos de entrada para que Codex interactúe con el entorno externo: Computer Use, extensión de Chrome y navegador integrado. Aunque todos parecen abordar el problema de «hacer que Codex use la computadora», cada uno corresponde a escenarios de tarea distintos, límites de permisos y niveles de confianza diferentes.
Entre ellos, Computer Use tiene el alcance más amplio, permitiendo operar directamente aplicaciones nativas autorizadas, configuraciones del sistema, emuladores de iOS en macOS/Windows, e incluso completar flujos de trabajo entre múltiples aplicaciones. Es ideal para procesos GUI que no cuentan con soporte de API, plugins o herramientas estructuradas, aunque con el costo de ser más lento y tener el límite de permisos más amplio. Las extensiones de Chrome son adecuadas para tareas que dependen de sesiones iniciadas, cookies, pestañas múltiples e identidad del navegador, como Gmail, LinkedIn, Salesforce, backends internos o investigaciones iniciadas en múltiples sitios web. El navegador integrado en la aplicación está orientado principalmente a escenarios de desarrollo y depuración, especialmente útil para servicios locales, errores visuales, diseños responsivos y anotaciones de diseño; no hereda el estado de inicio de sesión del navegador normal del usuario, tiene capacidades más limitadas pero ofrece una mayor aislamiento.
El juicio central del artículo es que Codex no tiene solo una forma de «usar una computadora»; lo realmente importante es elegir la interfaz de operación más estrecha, segura y estructurada según la tarea. Si se puede usar un plugin o MCP, no se debe recurrir primero al control visual; si la tarea solo implica desarrollo web, se debe priorizar el navegador integrado; solo cuando se requiera la identidad y el estado de inicio de sesión del navegador del usuario, se debe cambiar a Chrome; y solo cuando las herramientas estructuradas no cubran la tarea y esta dependa necesariamente de una interfaz gráfica de escritorio, Computer Use será el último kilómetro.
Appshots no es un cuarto método para controlar la computadora, sino una herramienta para "mostrarle al Codex" el contexto de la pantalla actual. Resuelve el problema de entrada de contexto, mientras que Browser, Chrome y Computer Use resuelven el problema de acción. Vistos en conjunto, este nivelamiento revela realmente el aspecto clave de la productización de los AI Agentes: no se trata de otorgar al modelo permisos ilimitados, sino de reducir constantemente los permisos y definir límites claros dentro de tareas específicas, manteniendo al usuario con el derecho de revisar las acciones clave.
The following is the original text:
Codex ofrece tres formas de usar la computadora: Computer Use, extensión de Chrome y navegador integrado.
Hay cierta superposición entre ellos, justo la suficiente para causar confusión.
Al leer este artículo, sabrás cómo instalar y activar estos tres métodos, en qué escenarios utilizar cada uno, cómo conectar Appshots y Developer mode, y qué escribir en AGENTS.md para que Codex pueda seleccionar automáticamente la interfaz de operación adecuada.
La versión sencilla es:

Sin embargo, siempre que sea posible, priorice el uso de plugins o MCP. Por ejemplo, un plugin de Slack puede buscar un hilo con más precisión que hacer clics por toda la interfaz de Slack; las operaciones generadas por un plugin de GitHub también son más fáciles de verificar que dejar que Codex controle la página web. El control visual es más adecuado cuando las capacidades de las herramientas estructuradas alcanzan sus límites.
Todo puede ser @Computer
Computer Use es la interfaz de operación con el alcance más amplio de estas tres. Permite a Codex ver y manipular la interfaz gráfica en macOS y Windows, incluyendo ventanas, menús, entrada de teclado y el portapapeles de las aplicaciones que autorices.
También suele ser el más lento. Los plugins estructurados pueden llamar directamente a la API; Computer Use, en cambio, debe observar la interfaz, determinar dónde hacer clic, esperar la respuesta de la aplicación y luego verificar el estado siguiente. Este ciclo visual consume tiempo, pero también significa que Codex puede operar aplicaciones que no tienen ninguna API disponible.
En macOS, lo lento no necesariamente significa que te interrumpa. Computer Use puede operar en segundo plano las aplicaciones que autorizas, mientras tú sigues usando otras partes de la computadora. Muchas veces, abro una aplicación mientras uso Codex y me doy cuenta de que Codex ya ha completado silenciosamente un flujo de trabajo en segundo plano.
Según las aplicaciones instaladas y autorizadas en tu computadora, estos objetos de operación pueden incluir Spotify, Xcode, System Settings, el simulador de iOS, e incluso controlar tu iPhone mediante iPhone Mirroring. También puede alternar entre varias aplicaciones y gestionar flujos de trabajo que abarcan distintas aplicaciones.
Cuando la tarea dependa de lo siguiente, puede utilizarlo:
Aplicaciones de escritorio nativas, como Spotify o aplicaciones financieras;
Simulador de iOS, Espejado de iPhone u otros procesos que solo se pueden operar mediante interfaz gráfica;
Configuración del sistema o la aplicación;
Fuentes de datos sin plugins ni API;
Flujo de trabajo que requiere alternar entre varias aplicaciones;
El último paso faltante en una integración estructurada.
Método de instalación: Abra Settings > Computer Use de Codex y haga clic en Install.
Forma de activación: mencionar a @Computer o solicitar explícitamente que Codex use Computer Use. A medida que las capacidades del modelo mejoren, en el futuro también lo activará por sí mismo cuando sea necesario.
Puedes probar algunos ejemplos primero:
Un ejemplo que me gusta mucho comenzó con un paquete robado. Amazon me dijo que tendría que esperar unos 25 minutos para hablar con un representante de servicio al cliente. Le di a Computer Use un hilo de Codex para que verificara la ventana de chat cada cinco minutos, y cuando apareciera el representante, cambiara a verificar cada minuto e intentara ayudarme a obtener un reembolso. Cuando regresé de la ducha, el reembolso ya estaba completo.
También uso Computer Use como la «última milla» en un flujo de trabajo estructurado. En un video de lanzamiento, Codex pudo leer comentarios desde Slack, modificar el código y generar un nuevo video, pero en ese momento la integración de Slack en ese hilo no podía subir archivos. Entonces, Computer Use hizo clic en Add file para completar este paso faltante.
También es la que tiene el límite de confianza más amplio de los tres. Asigna solo una aplicación o proceso claro a la vez. Mantén desactivada cuando ciertas aplicaciones sensibles no formen parte de la tarea; revisa cuidadosamente las ventanas emergentes de permisos; cuando se trate de finanzas, cuentas, pagos, credenciales, privacidad o cambios en la seguridad del sistema, es mejor que haya alguien presente para supervisar.
Usa @Chrome para manejar pestañas múltiples y estados de inicio de sesión
La extensión de Chrome para Codex permite que Codex acceda a tu estado iniciado en Chrome. Debes usarla cuando las tareas dependan de tu cuenta, cookies, perfil de navegador o pestañas que ya hayas abierto y autenticado.
Esta interfaz de operación es adecuada para el trabajo con las siguientes herramientas:
Gmail o LinkedIn;
Salesforce o panel de soporte al cliente;
Panel interno;
Investigación iniciada en múltiples sitios web;
Formularios que dependen de tu cuenta o extensión de navegador.
Método de instalación: Abre los Plugins de Codex, agrega Chrome y sigue el proceso de configuración. Codex te guiará para instalar la extensión de Codex para Chrome y aprobar los permisos de Chrome. Cuando la extensión muestre Connected, inicia un nuevo hilo.
Forma de activación: mención de @Chrome, o solicitud explícita de que Codex utilice tu navegador Chrome iniciado:
Las tareas de Chrome se ejecutan dentro de grupos de pestañas, lo que ayuda a agrupar las pestañas relacionadas con un hilo de Codex. A diferencia del navegador integrado, esta interfaz lleva tu identidad de navegador, lo que la hace más potente y más sensible.
Otra ventaja principal es el control de pestañas múltiples. Chrome permite asociar varias pestañas con la misma tarea, leyendo el contexto en una página, consultando información en otra y continuando el flujo de trabajo en una tercera. Computer Use también puede controlar el navegador de forma visual, pero Chrome interpreta la tarea como un flujo de trabajo del navegador, no como una secuencia de coordenadas de pantalla.
Recientemente, hubo un hilo en el que le entregué a Codex una pestaña abierta de Strudel Composer para que hiciera la música más interesante. Chrome le proporcionó la pestaña seleccionada, así como las herramientas WebMCP expuestas por esta página. Codex analizó la estructura musical, reescribió la armonía y la forma general de cuatro minutos, modificó el tempo, guardó la pista y la dejó reproduciéndose. No necesitó buscar visualmente cada control en la interfaz, porque Chrome pudo combinar el contexto de la pestaña con las capacidades estructuradas proporcionadas por la página.
También lo uso para ejecutar una larga secuencia de tweets en Twitter. Las instrucciones generales son:
Lo interesante no es que Codex pueda abrir Twitter, sino que este hilo pueda regresar permanentemente al mismo entorno de trabajo iniciado, vincular los hallazgos a archivos locales y dejar un resultado disponible para mi revisión.
El límite de confianza aquí es importante. El sitio web puede considerar los clics en Codex, el envío de formularios y el envío de mensajes como acciones realizadas por ti. El contenido de la página web también es una entrada no confiable. Distingue claramente los pasos con consecuencias más graves: la investigación, la navegación y la redacción pueden realizarse automáticamente; antes de enviar, publicar, comprar o presentar, debes revisarlo.
Si toda la tarea se completa dentro del navegador, prioriza Chrome en lugar de Computer Use. Chrome ofrece el contexto nativo del navegador necesario para estas tareas, sin ampliar el acceso a todo el escritorio.
Utiliza el @Browser integrado en la aplicación para manejar el sitio que estás desarrollando.
El navegador integrado es un navegador que existe dentro del hilo de Codex. Compartes la misma página renderizada con Codex, por lo que es ideal para construir y depurar aplicaciones web.
Normalmente comienzo aquí:
Servidor de desarrollo local;
Página de vista previa basada en archivo;
Páginas públicas que no requieren inicio de sesión;
Reproducir el bug visual;
Verificar el diseño responsivo;
Leave design feedback for page elements.
Su restricción más importante es el aislamiento. El navegador integrado no utiliza tu perfil de navegador habitual, cookies, extensiones, sesiones de inicio de sesión o pestañas existentes. Cuando una tarea requiere identidad de cuenta, esto es una limitación; pero cuando una tarea no requiere cuenta, se convierte en un límite útil.
Forma de configuración: Abra los Plugins de Codex, agregue el plugin Browser y habilítelo.
Forma de activación: mencionar @Browser en el prompt o solicitar explícitamente que Codex use el navegador integrado:
Esto creará un bucle de retroalimentación cerrado: Codex puede editar código, operar páginas, verificar el estado de renderizado, tomar capturas de pantalla y volver a validar el mismo proceso tras la corrección.
Mi parte favorita son las anotaciones. Cuando reviso una aplicación local, puedo hacer clic directamente en un elemento o seleccionar un área y dejar comentarios. Los controles de estilo también me permiten previsualizar y proporcionar retroalimentación más precisas sobre el texto, la fuente, el espaciado y los colores. Por lo general, combino esto con la entrada de voz y la guía de proceso: reviso la página, dejo comentarios y sigo añadiendo más opiniones en cola mientras Codex procesa los comentarios actuales. Esta misma página se convierte en el documento de especificaciones.
Esto es especialmente útil para el diseño. Suelo pedirle a Codex que organice una idea, un paquete de investigación o el estado de un proyecto en un único archivo index.html, y luego lo abra con el navegador integrado. En lugar de intentar describir todo el conjunto de diseño en otro mensaje, puedo marcar directamente en la página real: «Esta jerarquía está al revés», «Aquí no debe parecerse tanto a una tarjeta», «Estos controles necesitan más espacio» o «Usa esta escala de fuentes en todo el sitio». Codex recibe comentarios con capturas de pantalla y contexto de los elementos, modifica el archivo y vuelve a abrir la misma página para la siguiente ronda.
Este ciclo se siente más como trabajar en la misma hoja con un diseñador que intercambiar capturas de pantalla y descripciones textuales.
El navegador integrado también sirve como punto de partida para flujos de trabajo híbridos. En otro hilo, abrí un post de X en el navegador integrado para que Codex investigara la discusión relacionada. La página visible le ayudó a confirmar qué post exactamente estaba refiriendo; luego, Codex cambió al CLI de Twitter y recuperó 38 respuestas, incluyendo respuestas anidadas que no eran visibles en la vista del navegador. Esto es una aplicación del principio de «usar la interfaz de operación más estrecha»: usar el navegador para confirmar el contexto en pantalla y luego utilizar herramientas estructuradas para búsquedas más profundas.
Aquí también hay un compromiso. La aislación del navegador integrado lo convierte en una excelente interfaz de desarrollo, pero significa que no es adecuado para manejar inicio de sesión de Google, passkeys o sitios que dependen de extensiones de navegador. Cuando la identidad es importante, cambia a Chrome.
Appshots
Appshot no es la cuarta forma de controlar la computadora de Codex. Es un método para orientar a Codex hacia tu contexto actual.
En Mac, presiona dos veces la tecla CMD para capturar la ventana más reciente. Codex adjuntará una imagen y todo el texto disponible al hilo. Puedes hacer un Appshot de un error, un correo electrónico, un diseño, un panel de configuración o un formulario desconocido, y luego decir directamente:
Este es el modelo mental que considero más fácil de recordar: Appshots son la forma en que señalas algo en tu computadora; Browser, Chrome y Computer Use son las formas en que Codex toma acciones.
Appshots se crean actualmente a través de la aplicación Codex en macOS. Captura la ventana frontal, no todo el escritorio. Esto lo convierte en una forma útil de proporcionar contexto enfocado sin otorgar control sobre esa aplicación.
¿Cómo seguir estos avances?
Estas interfaces de operación cambian rápidamente. Si deseas detalles prácticos en lugar de esperar un resumen extenso de la publicación:
Sigue a Ari Weinstein (@AriX) para obtener información sobre Computer Use y Appshots;
Sigue a James Sun (@JamesZmSun) para obtener contenido relacionado con el navegador;
Sigue a Andrew Ambrosino (@ajambrosino) para obtener información sobre el lanzamiento de la aplicación Codex y la narrativa más amplia del producto de escritorio;
Sigue a OpenAI Developers (@OpenAIDevs) para obtener más noticias sobre Codex y la plataforma OpenAI.
