Codex, Bilgisayar Kullanımı, Chrome Eklentisi ve İçerideki Tarayıcı aracılığıyla bilgisayarları kullanır

icon MarsBit
Paylaş
AI summary iconÖzet

Editör Notu: Bu makale, Codex'in dış ortamı kullanmasının üç girişi olan Computer Use, Chrome eklentisi ve uygulama içi Tarayıcıyı özetlemektedir. Üçü de "Codex'in bilgisayarı kullanmasını sağlamak" sorununu çözmeye çalışır gibi görünse de, her biri farklı görev senaryoları, izin sınırları ve güven düzeyleriyle ilişkilidir.

Bu arada, Computer Use, macOS / Windows üzerinde yetkilendirilmiş yerel uygulamaları, sistem ayarlarını, iOS simülatörünü ve hatta birden fazla uygulama arasında iş akışlarını doğrudan yönetebilir. API, eklenti veya yapılandırılmış araç desteği olmayan GUI süreçleri için uygundur, ancak hızı daha yavaştır ve izin sınırları en geniştir. Chrome eklentileri ise Gmail, LinkedIn, Salesforce, dahili arka plan veya birden fazla web sitesinde oturum açılmış araştırmalar gibi oturum durumuna, çerezlere, çok sekmeli ve tarayıcı kimliğine dayalı görevler için uygundur. Uygulama içi Tarayıcı, özellikle yerel hizmetler, görsel hatalar, responsive düzenler ve tasarım yorumları için geliştirme ve hata ayıklama senaryolarına yöneliktir; normal tarayıcıdaki oturum durumunu miras almaz, yetenekleri daha sınırlıdır ancak izolasyonu daha güçlüdür.

Makalenin temel argümanı, Codex'in yalnızca bir "bilgisayar kullanma" yöntemi olmadığını; gerçek önem, görevlere göre en dar, en güvenli ve en yapılandırılmış arayüzü seçmektedir. Eklenti veya MCP kullanılabilirse, öncelikle görsel kontrolü kullanmamalısınız; görev yalnızca web geliştirme ile ilgiliyse, uygulama içi Tarayıcıyı tercih edin; kullanıcı tarayıcı kimliği ve oturum durumuna ihtiyaç duyulduğunda yalnızca Chrome'a geçin; yapılandırılmış araçlar kapsamı dışındaysa ve görev masaüstü grafik arayüzüne tamamen bağımlıysa, Computer Use son adım olmalıdır.

Appshots, bilgisayar kontrolünün dördüncü bir yolu değil, mevcut ekran bağlamını Codex'e göstermek için bir araçtır. Bu, bağlam girişi sorununu çözerken, Browser, Chrome ve Computer Use, eylem sorunlarını çözer. Birlikte incelendiğinde, bu katmanlı yapı, AI Agent ürünlerinin kilit noktasını ortaya koyar: modelin sonsuz yetkilere sahip olmasına gerek yoktur; bunun yerine, belirli görevlerde yetkiler sürekli daraltılmalı, sınırlar netleştirilmeli ve kullanıcılar kritik eylemler üzerinde inceleme hakkını korumalıdır.

Aşağıda orijinal metin yer almaktadır:

Codex, bilgisayar kullanımını üç şekilde sağlar: Bilgisayar Kullanımı, Chrome eklentisi ve dahili tarayıcı.

Aralarında biraz çakışma var ve bu da kafa karıştırıcı olabiliyor.

Bu makaleyi okuduktan sonra, bu üç yöntemin nasıl kurulacağını ve tetikleneceğini, her birinin hangi senaryolarda kullanılacağını, Appshots ve Developer modunun bunları nasıl birbirine bağlayacağını ve Codex'in uygun arayüzü kendisi seçmesi için AGENTS.md dosyasına ne yazılması gerektiğini öğreneceksiniz.

Basit versiyon:

Bilgisayar Kullanımı

Bununla birlikte, mümkünse eklentileri veya MCP'yi tercih edin. Örneğin, Slack eklentisi, Slack içinde çeşitli tıklamalar yapmaktan daha hassas bir şekilde bir konuyu arayabilir; GitHub eklentisi tarafından oluşturulan işlemler, Codex'in web sayfasını çalıştırmaktan daha kolay kontrol edilebilir. Görsel kontrol, yapılandırılmış araç yeteneklerinin sınırlarına ulaştığı durumlarda en uygunudur.

Her şey @Computer olabilir

Bilgisayar Kullanımı, bu üç işlem arayüzünden en geniş kapsamlı olanıdır. Codex'in macOS ve Windows üzerinde pencere, menü, klavye girişi ve izin verdiğiniz uygulamaların panosunu görüntülemesini ve işlemesini sağlar.

Bu genellikle en yavaş yöntemdir. Yapılandırılmış eklentiler doğrudan API'yi çağırabilir; Computer Use ise arayüzü gözlemlemeli, nereye tıklaması gerektiğini belirlemeli, uygulamanın yanıtını beklemeli ve sonraki durumu kontrol etmelidir. Bu görsel döngü zaman alır, ancak Codex'in tamamen mevcut olmayan API'lere sahip uygulamaları da kullanabilmesini sağlar.

macOS üzerinde yavaşlık, mutlaka sizi rahatsız etmek anlamına gelmez. Computer Use, yetki verdiğiniz uygulamaları arka planda çalıştırabilir ve siz yine de bilgisayarınızın diğer bölümlerini kullanmaya devam edebilirsiniz. Sık sık, Codex'i kullanırken bir uygulama açtığımda, Codex'in zaten arka planda bir iş akışını sessizce tamamladığını fark ediyorum.

Yüklü ve yetkilendirilmiş uygulamalarınıza göre bu işlem nesneleri Spotify, Xcode, Sistem Ayarları, iOS simülatörü ve hatta iPhone Mirroring ile iPhone’unuzu kontrol etmek dahil olabilir. Aynı zamanda birden fazla uygulama arasında geçiş yapabilir ve farklı uygulamalar arasında çalışan iş akışlarını yönetebilir.

Görev, aşağıdaki içeriklere bağlı olduğunda kullanılabilir:

Spotify veya finansal uygulamalar gibi yerel masaüstü uygulamaları;

iOS simülatörü, iPhone yansıtması veya yalnızca grafik arayüz üzerinden yürütülebilen işlemler;

Sistem veya uygulama ayarları;

Eklenti veya API olmadan veri kaynağı;

Birden fazla uygulama arasında geçiş yapmak gereken iş akışı;

Yapılandırılmış entegrasyonun eksik son adımı.

Yükleme yöntemi: Codex'in Ayarlar > Bilgisayar Kullanımı bölümüne gidin ve Yükle'ye tıklayın.

Tetikleme yöntemi: @Computer adlı kullanıcıya atıfta bulunmak veya Codex'e Computer Use kullanımını açıkça talep etmek. Model yetenekleri geliştiğinde, gelecekte gerekli olduğunda kendi kendine çağıracaktır.

Bazı örnekleri deneyebilirsiniz:

En sevdiğim örnek, bir paketin çalınmasıyla başladı. Amazon, müşteri hizmetleriyle yaklaşık 25 dakika sonra bağlantı kurabileceğimi söyledi. Codex bir thread’i Computer Use’a verdim; bu, sohbet penceresini beş dakikada bir kontrol etmeli, müşteri hizmetleri ortaya çıktığında ise dakikada bir kontrol etmeli ve benim iade alabilmem için tüm çabayı göstermeliydi. Duşumu bitirdiğimde, iade tamamlanmıştı.

Ayrıca Computer Use'u yapılandırılmış bir iş akışındaki "son kilometre" olarak kullanıyorum. Bir video yayınlama sırasında Codex, Slack'ten geri bildirimleri okuyabilir, kodu değiştirebilir ve yeni bir video oluşturabilir, ancak o zamanlar Slack entegrasyonu bu iplikte dosya yükleyemiyordu. Bu nedenle Computer Use, eksik adımı tamamlamak için "Dosya Ekle"ye tıkladı.

Ayrıca, bunların üçü arasında en geniş güven sınırına sahiptir. Bir kezde yalnızca bir uygulama veya işlem verin. Hassas uygulamalar görevin bir parçası değilse, kapalı tutun; izin uyarılarını dikkatle kontrol edin; finans, hesap, ödeme, kimlik bilgileri, gizlilik ve sistem güvenliği değişiklikleriyle ilgiliyse, en iyisi kişinin yanında bulunmasıdır.

@Chrome ile çok sekme ve oturum durumlarını yönetin

Codex Chrome eklentisi, Codex'in zaten oturum açmış Chrome durumunu erişmesini sağlar. Görevler hesap, çerezler, tarayıcı profili veya zaten açılmış ve doğrulanmış sekmelere bağlıysa, bunu kullanmalısınız.

Bu arayüz, aşağıdaki araçlar için uygundur:

Gmail veya LinkedIn;

Salesforce veya müşteri hizmetleri arka planı;

İç panolar;

Çoklu sitelerde oturum açılmış araştırma;

Hesabınıza veya tarayıcı eklentinize dayalı form.

Yükleme yöntemi: Codex'in Eklentilerini açın, Chrome'u ekleyin ve kurulum sürecini takip edin. Codex, Codex Chrome eklentisini yüklemenizi ve Chrome izinlerini onaylamanızı yönlendirecektir. Eklenti Bağlı olarak göründüğünde, yeni bir konu başlatın.

Tetikleme yöntemi: @Chrome etiketlemek veya Codex'e, oturum açmış Chrome tarayıcınızı kullanmasını açıkça istemek:

Chrome görevleri, etiket gruplarında çalışır ve bu, bir Codex ipliğine ait etiketleri bir arada tutmanıza yardımcı olur. Uygulama içi tarayıcıdan farklı olarak, bu arayüz sizin tarayıcı kimliğinizi taşır. Bu, onu daha güçlü ve daha hassas hale getirir.

Diğer bir ana avantaj, çok sekme kontrolüdür. Chrome, aynı görevle ilişkili birden fazla sekme açmanıza izin verir; bir sekmede bağlamı okuyabilir, başka bir sekmede bilgileri karşılaştırabilir ve üçüncü bir sekmede iş akışını devam ettirebilirsiniz. Computer Use, görsel yollarla tarayıcıyı da kontrol edebilir, ancak Chrome görevi bir dizi ekran koordinatı işlemi değil, bir tarayıcı iş akışı olarak anlar.

Son zamanlarda bir thread'de, açık olan bir Strudel Composer sekmesini Codex'e verdim ve müziği daha ilginç hale getirmesini istedim. Chrome, seçili sekme ile sayfanın sunduğu WebMCP araçlarını Codex'e sağladı. Codex, müzik yapısını inceledi, armoniyi ve dört dakikalık genel formu yeniden yazdı, hızı değiştirdi, parçayı kaydetti ve çalmaya devam etti. Chrome, sekmenin bağlamını ve sayfanın sunduğu yapılandırılmış yetenekleri birleştirdiği için, Codex'in arayüzdeki her bir kontrolü görsel olarak aramasına gerek kalmadı.

Aynı zamanda uzun bir Twitter thread'i çalıştırmak için kullanıyorum. Yaklaşık talimatlar şunlar:

İlginç olan nokta, Codex'in Twitter'a erişebilmesi değil, bu konunun aynı oturumlu çalışma ortamına uzun süre geri dönebilmesi, keşfedilen içerikleri yerel dosyalara bağlayabilmesi ve benim incelemem için bir sonuç bırakabilmesi.

Buradaki güven sınırı önemlidir. Site, Codex’e tıklamaları, form gönderimlerini ve mesaj göndermeleri sizin tarafınızdan gerçekleştirilen eylemler olarak görebilir. Web sayfası içeriği de güvensiz bir girdidir. Sonuçları ciddi olan adımları açıkça ayırın: araştırma, gezinme ve taslak oluşturma otomatikleştirilebilir; ancak gönderme, yayınlama, satın alma veya gönderme öncesinde incelemeniz gerekir.

Tüm görev tarayıcı içinde tamamlanıyorsa, Computer Use yerine Chrome'u tercih edin. Chrome, bu tür görevler için gerekli olan tarayıcıya özgü bağlamı sunar ve masaüstüye erişim alanını genişletmez.

Geliştiriyor olduğunuz web sitesini uygulama içi @Browser ile işleyin

Uygulama içi tarayıcı, Codex thread içinde bulunan bir tarayıcıdır. Aynı sayfayı Codex ile paylaştığınız için, web uygulamaları oluşturmak ve hata ayıklamak için idealdir.

Ben genellikle buradan işlem yapmaya başlarım:

Yerel geliştirme sunucusu;

Dosya önizleme sayfası;

Giriş yapmadan erişilebilen açık sayfalar;

Görsel hatasını tekrar oluşturun;

Responsive düzeni kontrol edin;

Sayfa öğeleri için tasarım geri bildirimi bırakın.

En önemli kısıtlaması izolasyondur. Uygulama içi tarayıcı, normal tarayıcı profilinizin, çerezlerinizin, eklentilerinizin, oturumlarınızın veya mevcut sekmelerinizin hiçbirini kullanmaz. Görevler bir hesap kimliği gerektirdiğinde bu bir kısıtlamadır; ancak görevler bir hesap gerektirmediğinde bu, faydalı bir sınırdır.

Yöntem: Codex'in Eklentilerini açın, Tarayıcı eklentisini ekleyin ve etkinleştirin.

Tetikleme yöntemi: İpucunda @Browser belirtilmesi veya Codex'e uygulama içi tarayıcı kullanımını açıkça talep edilmesi;

Bu, Codex'in kodu düzenleyebilmesini, sayfayı işlemesini, render durumunu kontrol edebilmesini, ekran görüntüsü alabilmesini ve onarıldıktan sonra aynı süreci yeniden doğrulamasını sağlayan sıkı bir geri bildirim döngüsü oluşturur.

En sevdiğim kısım etiketleme. Yerel bir uygulamayı değerlendirirken doğrudan bir öğeye tıklayabilirim veya bir alanı seçip yorum bırakabilirim. Stil kontrolleri, metin, yazı tipi, boşluk ve renkleri daha hassas bir şekilde önizlememe ve geri bildirimde bulunmama olanak tanır. Genellikle bunu sesli girdi ve süreç rehberiyle birlikte kullanırım: Sayfayı değerlendiririm, yorum bırakırım ve Codex şu anki geri bildirimi işlerken sıraya daha fazla yorum eklemeye devam ederim. Bu sayfa kendisi bir teknik spec hâline gelir.

Bu, tasarım işleri için özellikle faydalıdır. Sık sık Codex'e bir fikri, bir araştırma paketini veya bir proje durumunu tek bir index.html dosyasına dönüştürmesini ve ardından uygulama içi tarayıcıda açmasını isterim. Tüm bir tasarım setini başka bir istekte tanımlamaya çalışmak yerine, doğrudan gerçek sayfada «bu hiyerarşi ters», «burayı kart gibi değil yap», «bu kontroller daha fazla alana ihtiyaç duyuyor» veya «tüm site boyunca bu yazı boyutu oranını kullan» şeklinde notlar ekleyebilirim. Codex, ilgili ekran görüntülerini ve öğe bağlamını içeren yorumları alır, dosyayı düzenler ve aynı sayfayı bir sonraki tur için yeniden açar.

Bu döngü, ekran görüntüleri ve metin açıklamalarını geçip geçmek yerine, bir tasarımcıyla aynı bir yüzeyde çalışmak gibi hissettiriyor.

Uygulama içi tarayıcı, karmaşık iş akışlarının başlangıç noktası olarak da uygundur. Başka bir iş parçacığında, uygulama içi tarayıcıyı kullanarak bir X gönderisini açtım ve Codex'in ilgili tartışmaları araştırmasını sağladım. Görünen sayfa, hangi gönderiyi kastettiğimi onaylamasına yardımcı oldu; ardından Codex, tarayıcı görünümünde gizlenmiş olan iç içe cevapları da dahil olmak üzere 38 cevabı almak için Twitter CLI'ye geçti. Bu, "en dar işlem arayüzünü kullanma" ilkesinin uygulanmasıdır: Tarayıcı ile ekran üzerindeki bağlamı doğrulayın, daha derin aramalar için yapılandırılmış araçları kullanın.

Burada da bir denge var. Uygulama içi tarayıcının izolasyonu, onu harika bir geliştirme arayüzü yapar, ancak Google oturumu açma, passkey veya tarayıcı eklentilerine bağımlı siteler için uygun değildir. Kimlik önemliyken, Chrome'a geçin.

Uygulama Ekran Görüntüleri

Appshot, Codex'in bilgisayarınızı kontrol etmenin dördüncü yolu değildir. Bu, Codex'i önünüzdeki bağlama yönlendirmenin bir yoludur.

Mac üzerinde, en son pencereyi yakalamak için CMD tuşuna iki kez basın. Codex, bir resim ve tüm mevcut metni thread'e ekleyecektir. Bir hata, bir e-posta, bir tasarım, bir ayar paneli veya tanımadığınız bir form için Appshot çekebilir ve doğrudan şunu söyleyebilirsiniz:

Bence en kolay hatırlanabilen zihinsel model şu: Appshots, bilgisayarınızda bir şeye işaret etmek için kullandığınız araçtır; Browser, Chrome ve Computer Use ise Codex’in eylemde bulunma şeklidir.

Appshots, şu anda macOS üzerindeki Codex uygulaması aracılığıyla oluşturulmaktadır. Masaüstü yerine ön plandaki pencereyi yakalar. Bu, uygulamaya erişim vermeden odaklanmış bir bağlam sunmanın kullanışlı bir yoludur.

Bu ilerlemeleri nasıl takip edebilirim

Bu arayüz değişiklikleri çok hızlı. Pratik detayları almak istiyorsanız, büyük bir yayın özetini beklemek yerine:

Computer Use ve Appshots için Ari Weinstein’i (@AriX) takip edin;

Tarayıcı ile ilgili içerikler için James Sun’ı (@JamesZmSun) takip edin;

Codex uygulaması ve daha büyük masaüstü ürün hikayesi için Andrew Ambrosino’yu (@ajambrosino) takip edin;

Daha geniş Codex ve OpenAI Platform haberleri için OpenAI Developers (@OpenAIDevs) hesabını takip edin.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.