يستخدم Codex الحواسيب عبر ثلاثة واجهات: استخدام الحاسوب، امتداد Chrome، والمتصفح المدمج

icon MarsBit
مشاركة
AI summary iconملخص

ملاحظة المحرر: تلخص هذه المقالة الطرق الثلاثة التي يتفاعل بها Codex مع البيئة الخارجية: استخدام الكمبيوتر، وامتداد Chrome، والمتصفح المدمج داخل التطبيق. على الرغم من أن الثلاثة تبدو وكأنها تحل جميعها مشكلة "تمكين Codex من استخدام الكمبيوتر"، إلا أنها تتعلق بسيناريوهات مهام مختلفة، وحدود صلاحيات، ومستويات ثقة مختلفة.

من بينها، يغطي Computer Use أوسع نطاق، حيث يمكنه التحكم المباشر في التطبيقات الأصلية المُصرح بها على macOS / Windows، وإعدادات النظام، ومحاكي iOS، وحتى إكمال سير العمل عبر تطبيقات متعددة. إنه مناسب للعمليات القائمة على واجهة المستخدم الرسومية التي لا تدعم واجهات برمجة التطبيقات أو الإضافات أو الأدوات المهيكلة، لكنه يكلف أداءً أبطأ وحدود صلاحيات أوسع. أما امتدادات Chrome فهي مناسبة للمهام التي تعتمد على حالة تسجيل الدخول، والكوكيز، وفتح علامات تبويب متعددة، وهوية المتصفح، مثل Gmail وLinkedIn وSalesforce والواجهات الخلفية الداخلية، أو البحث المُسجّل الدخول عبر مواقع متعددة. أما المتصفح المدمج داخل التطبيق فيركز على سيناريوهات التطوير والتصحيح، وهو مثالي للخدمات المحلية، وأخطاء العرض، والتخطيط التكيفي، وملاحظات التصميم؛ فهو لا يرث حالة تسجيل الدخول للمتصفح العادي للمستخدم، ووظائفه أضيق، لكن عزله أقوى.

الحكم الأساسي في المقال هو أن Codex لا يمتلك طريقة واحدة فقط "للاستخدام عبر الكمبيوتر"، بل الأهم هو اختيار واجهة التشغيل الأضيق والأكثر أمانًا والأكثر تنظيمًا وفقًا للمهمة. يجب استخدام الإضافات أو MCP قبل اللجوء إلى التحكم البصري؛ إذا كانت المهمة تتعلق فقط بتطوير الويب، فاستخدم متصفح التطبيق داخليًا؛ وفقط عندما تتطلب المهمة هوية المتصفح وحالة تسجيل الدخول للمستخدم، انتقل إلى Chrome؛ ويكون استخدام الحاسوب هو الحل الأخير فقط عندما لا تغطي الأدوات المنظمة المهمة بالكامل، ويجب أن تعتمد المهمة على واجهة رسومية سطح المكتب.

Appshots ليست وسيلة رابعة للتحكم في الكمبيوتر، بل أداة لعرض سياق الشاشة الحالية على Codex. إنها تحل مشكلة إدخال السياق، بينما تحل Browser وChrome وComputer Use مشكلة الإجراءات. عند النظر إليها معًا، تكشف هذه الطبقة عن المفتاح الأساسي لتحويل عوامل الذكاء الاصطناعي إلى منتجات: ليس منح النموذج صلاحيات غير محدودة، بل تضييق الصلاحيات وتحديد الحدود باستمرار ضمن مهام محددة، مع الحفاظ على حق المستخدم في مراجعة الإجراءات الحاسمة.

The following is the original text:

يوجد ثلاثة طرق لاستخدام Codex على الكمبيوتر: استخدام الكمبيوتر، وامتداد Chrome، ومتصفح داخل التطبيق.

هناك تداخل معين بينها،刚好重叠到容易让人困惑。

بعد قراءة هذه المقالة، ستعرف كيفية تثبيت وتفعيل هذه الطرق الثلاث، ومتى تستخدم كل منها في أي سياق، وكيفية ربط Appshots وDeveloper mode، وما الذي يجب كتابته في ملف AGENTS.md لتمكين Codex من اختيار واجهة التشغيل المناسبة تلقائيًا.

النسخة المبسطة هي:

استخدام الكمبيوتر

رغم ذلك، يُفضَّل دائمًا استخدام الإضافات أو MCP متى أمكن. على سبيل المثال، يمكن لإضافة Slack أن تسترجع خيطًا بدقة أكبر من النقر في جميع أنحاء Slack؛ كما أن العمليات التي تُنتجها إضافة GitHub أسهل في التحقق منها مقارنةً بجعل Codex يتحكم في الصفحة. إن التحكم البصري الأنسب هو عندما تصل قدرات الأدوات المهيكلة إلى حدودها.

كل شيء يمكن أن يكون @Computer

Computer Use هو الأ widest تغطية بين واجهات التشغيل الثلاث هذه. فهو يسمح لـ Codex بعرض والتفاعل مع الواجهات الرسومية على macOS وWindows، بما في ذلك النوافذ والقوائم وإدخالات لوحة المفاتيح، وحافظة التطبيقات التي تمنحها الصلاحيات.

غالبًا ما يكون أيضًا الأبطأ. يمكن للإضافات المهيكلة استدعاء واجهات برمجة التطبيقات مباشرة؛ بينما يتطلب استخدام الحاسوب مراقبة الواجهة، وتحديد مكان النقر، وانتظار استجابة التطبيق، ثم التحقق من الحالة التالية. سيستهلك هذا الدور البصري وقتًا، لكنه يعني أن Codex يمكنه تشغيل التطبيقات التي لا تمتلك واجهات برمجة تطبيقات متاحة على الإطلاق.

على macOS، البطء لا يعني بالضرورة أنه سيُزعجك. يمكن لـ Computer Use أن يعمل في الخلفية على التطبيقات التي منحتها إذنًا لها، بينما يمكنك الاستمرار في استخدام أجزاء أخرى من جهاز الكمبيوتر. في كثير من الأحيان، أفتح تطبيقًا أثناء استخدام Codex، ثم أكتشف أن Codex أكمل بالفعل سلسلة من العمليات في الخلفية بهدوء.

بناءً على التطبيقات المثبتة والمرخصة على جهاز الكمبيوتر الخاص بك، يمكن أن تشمل هذه الكائنات التشغيلية Spotify وXcode وSystem Settings ومحاكي iOS، وحتى التحكم في جهاز iPhone الخاص بك باستخدام iPhone Mirroring. كما يمكنه التبديل بين تطبيقات متعددة ومعالجة سير عمل تمتد عبر تطبيقات مختلفة.

عندما يعتمد المهمة على ما يلي، يمكنك استخدامه:

تطبيقات سطح المكتب الأصلية، مثل Spotify أو التطبيقات المالية؛

مُحاكي iOS، ومشاركة iPhone، أو أي عمليات يمكن تشغيلها فقط عبر واجهة رسومية؛

إعدادات النظام أو التطبيق؛

مصادر بيانات بدون إضافات أو واجهات برمجة تطبيقات؛

سير عمل يتطلب التبديل بين تطبيقات متعددة؛

الخطوة الأخيرة المفقودة في تكامل منظم.

طريقة التثبيت: افتح إعدادات Codex > استخدام الكمبيوتر، ثم انقر على تثبيت.

طريقة التفعيل: ذكر @Computer، أو طلب صريح لاستخدام Codex لـ Computer Use. مع تحسن قدرات النموذج، سيقوم تلقائيًا بتشغيله عند الحاجة في المستقبل.

يمكنك تجربة بعض الأمثلة أولاً:

أحد أفضل الأمثلة التي أحبها بدأت عندما سُرِقَ طرد. أخبرني أمازون أن علي الانتظار حوالي 25 دقيقة للاتصال بالدعم. قمت بتسليم خيط Codex إلى استخدام الحاسوب، فكان يتحقق من نافذة الدردشة كل خمس دقائق، وعند ظهور موظف الدعم، بدأ التحقق كل دقيقة، وحاول جاهدًا مساعدتي في استرداد المبلغ. عندما عدت من الاستحمام، كان استرداد المبلغ قد اكتمل بالفعل.

أستخدم أيضًا Computer Use كـ "آخر ميل" في سير العمل المُهيكل. في فيديو نُشر مرة، كان يمكن لـ Codex قراءة الملاحظات من Slack، وتعديل الكود، وعرض الفيديو الجديد، لكن تكامل Slack في تلك المحادثة لم يكن قادرًا على رفع الملفات. لذا استخدم Computer Use زر "إضافة ملف" لاستكمال هذه الخطوة المفقودة.

إنه أيضًا الأكثر توسعًا في حدود الثقة بين الثلاثة. قم بمنحه تطبيقًا أو عملية واحدة واضحة في كل مرة. احتفظ به مغلقًا عندما لا تكون بعض التطبيقات الحساسة جزءًا من المهمة؛ راجع نوافذ الأذونات بعناية؛ ويفضل أن يكون هناك شخص حاضر للإشراف عند التعامل مع الأمور المتعلقة بالتمويل، الحسابات، المدفوعات، بيانات الاعتماد، الخصوصية، وتعديلات أمان النظام.

استخدم @Chrome لإدارة علامات التبويب المتعددة وحالات تسجيل الدخول

يسمح امتداد Codex Chrome لـ Codex بالوصول إلى حالة Chrome التي قمت بتسجيل الدخول إليها. يجب استخدامه عندما تعتمد المهام على الحسابات أو ملفات تعريف الارتباط أو ملفات متصفح Chrome أو علامات التبويب التي فتحتها وقمت بالتحقق منها مسبقًا.

هذه واجهة التشغيل مناسبة للعمل مع الأدوات التالية:

Gmail أو LinkedIn؛

Salesforce أو خلفية خدمة العملاء؛

لوحة التحكم الداخلية؛

بحث مسجل عبر مواقع متعددة؛

النماذج المعتمدة على حسابك أو امتداد المتصفح.

طريقة التثبيت: افتح إضافات Codex، أضف Chrome، واتبع خطوات الإعداد. سيوجهك Codex لتثبيت امتداد Codex Chrome واعتماد صلاحيات Chrome. عندما يظهر الامتداد كـ Connected، افتح خيطًا جديدًا.

طريقة التشغيل: ذكر @Chrome، أو طلب صريح لاستخدام Codex لمتصفح Chrome الذي قمت بتسجيل الدخول إليه:

ستعمل مهام Chrome داخل مجموعات علامات التبويب، مما يساعد على تجميع علامات التبويب المتعلقة بخيط Codex معًا. على عكس متصفح التطبيق الداخلي، فإن واجهة هذا الإجراء تحمل هويتك في المتصفح. وهذا يجعلها أكثر قوة وأكثر حساسية.

مزايا رئيسية أخرى هي التحكم متعدد العلامات. يمكن لـ Chrome ربط عدة علامات بمهام واحدة، بحيث يمكنك قراءة السياق في صفحة، ومراجعة المعلومات في صفحة أخرى، ثم متابعة سير العمل في صفحة ثالثة. يمكن لـ Computer Use أيضًا تشغيل المتصفح عبر التحفيز البصري، لكن Chrome يفهم المهمة كسير عمل متصفح، وليس كسلسلة من عمليات إحداثيات الشاشة.

كان هناك خيط حديث، حيث قمت بإعطاء متصفح Chrome علامة تبويب Strudel Composer المفتوحة لـ Codex، وطلبت منه جعل الموسيقى أكثر إثارة. قدم Chrome لـ Codex علامة التبويب المختارة، بالإضافة إلى الأدوات WebMCP التي تقدمها هذه الصفحة. فحص Codex بنية القطعة الموسيقية، وأعاد كتابة التوافق والشكل العام البالغ أربع دقائق، وعدل السرعة، وحفظ القطعة، وجعلها تستمر في اللعب. لم يكن بحاجة إلى البحث البصري عن كل تحكم على الواجهة، لأن Chrome يمكنه دمج سياق علامة التبويب مع القدرات المهيكلة التي توفرها الصفحة.

أستخدمه أيضًا لتشغيل سلسلة طويلة على تويتر. التعليمات التقريبية هي:

الجانب المثير للاهتمام ليس أن Codex يمكنه فتح Twitter، بل أن هذا الخيط يمكنه العودة باستمرار إلى بيئة عمل مسجلة الدخول نفسها، وربط الاكتشافات بملفات محلية، وترك نتيجة يمكنني مراجعتها.

من المهم هنا تحديد حدود الثقة. قد يُعتبر الموقع أي نقرات على Codex أو إرسال نماذج أو إرسال رسائل كإجراءات تتخذها أنت شخصيًا. كما أن محتوى الصفحة نفسه يُعد مدخلًا غير موثوق. قم بتمييز الخطوات ذات العواقب الجسيمة بوضوح: يمكن أتمتة البحث والتنقل وصياغة المحتوى؛ لكن قبل الإرسال أو النشر أو الشراء أو التقديم، يجب عليك مراجعتها.

إذا تم إكمال المهمة بالكامل داخل المتصفح، فاستخدم Chrome بدلاً من Computer Use. يمتلك Chrome السياق الأصلي للمتصفح الضروري لهذه المهام، دون توسيع نطاق الوصول إلى سطح المكتب بأكمله.

استخدم متصفح التطبيق الداخلي @Browser لمعالجة الموقع الذي تقوم بتطويره

متصفح التطبيق الداخلي هو متصفح موجود داخل خيط Codex. أنت تشارك نفس صفحة العرض مع Codex، لذا فهو مثالي لبناء وتصحيح تطبيقات الويب.

أنا عادةً أبدأ من هنا:

خادم التطوير المحلي؛

صفحة معاينة قائمة على الملف؛

صفحات عامة لا تتطلب تسجيل الدخول؛

استنساخ عطل البصر؛

تحقق من التصميم التفاعلي؛

Leave design feedback for page elements.

أكبر قيوده هو العزل. لا يستخدم متصفح التطبيق ملفك الشخصي العادي أو ملفات تعريف الارتباط أو الملحقات أو جلسات تسجيل الدخول أو علامات التبويب الحالية. عندما تتطلب المهمة هوية حساب، يكون هذا قيدًا؛ لكن عندما لا تتطلب المهمة حسابًا، يكون هذا حدًا مفيدًا.

طريقة الإعداد: افتح ملحقات Codex، أضف ملحق المتصفح وفعّله.

طريقة التفعيل: ذكر @Browser في النص التحفيزي، أو طلب صريح من Codex استخدام متصفح التطبيق:

سيؤدي ذلك إلى تكوين دائرة تغذية راجعة مغلقة: يمكن لـ Codex تحرير الكود، وتشغيل الصفحات، والتحقق من حالة العرض، وأخذ لقطات شاشة، ثم إعادة التحقق من نفس العملية بعد الإصلاح.

أفضل جزء لي هو التوضيحات. عندما أُقيّم تطبيقًا محليًا، يمكنني النقر مباشرة على عنصر معين أو تحديد منطقة معينة وترك تعليق. كما تسمح لي أدوات التنسيق بمراجعة وتقديم ملاحظات دقيقة حول النصوص والخطوط والمسافات والألوان. عادةً ما أدمجها مع الإدخال الصوتي والإرشادات العملية: أُقيّم الصفحة، أترك تعليقاتي، وأستمر في إضافة ملاحظات إضافية أثناء معالجة Codex للتعليقات الحالية. تصبح هذه الصفحة نفسها وثيقة المواصفات.

هذا مفيد بشكل خاص لأعمال التصميم. أطلب من Codex غالبًا تجميع فكرة أو حزمة بحثية أو حالة مشروع في ملف index.html واحد، ثم فتحه باستخدام متصفح التطبيق. بدلاً من محاولة وصف مجموعة التصميم بأكملها في مطالبة أخرى، يمكنني الترميز مباشرة على الصفحة الحقيقية: "هذا التسلسل الهرمي مقلوب"، "لا تجعل هذا يبدو مثل البطاقة"، "هذه العناصر تحتاج إلى مساحة أكبر"، أو "استخدم هذا النمط للخط في جميع أنحاء الموقع". سيتلقى Codex تعليقات تحتوي على لقطات شاشة وسياق للعناصر، ثم يعدل الملف ويفتح الصفحة نفسها مرة أخرى للدورة التالية.

يشعر هذا الدوران وكأنه يعمل على نفس اللوحة مع مصمم، بدلاً من تبادل لقطات الشاشة والتعليمات النصية.

يمكن أيضًا استخدام متصفح التطبيق كنقطة بداية لتدفق عمل هجين. في خيط آخر، فتحت متصفح التطبيق منشورًا على X وطلبت من Codex التحقيق في المناقشات ذات الصلة. ساعدت الصفحة المرئية Codex على التأكد من المنشور الذي أقصده؛ ثم انتقل Codex إلى واجهة سطر أوامر Twitter، واسترجع 38 ردًا، بما في ذلك الردود المتداخلة التي أخفتها عرض المتصفح. هذا تطبيق لمبدأ "استخدام واجهة تشغيل أضيق": استخدام المتصفح للتحقق من السياق على الشاشة، ثم استخدام أدوات منظمة للبحث الأعمق.

هناك أيضًا توازن يجب مراعاته. إن عزل متصفح التطبيق يجعله واجهة تطوير ممتازة، لكنه يعني أنه غير مناسب للتعامل مع تسجيل الدخول إلى Google أو passkey، أو المواقع التي تعتمد على إضافات المتصفح. عندما تكون الهوية مهمة، انتقل إلى Chrome.

لقطات التطبيق

Appshot ليس الطريقة الرابعة للتحكم في الكمبيوتر عبر Codex. إنه طريقة لتحديد سياقك الحالي لـ Codex.

على جهاز Mac، اضغط مرتين على مفتاح CMD لالتقاط النافذة الأخيرة. سيقوم Codex بإضافة صورة وجميع النصوص المتاحة إلى الخيط. يمكنك التقاط لقطة شاشة لخطأ أو بريد إلكتروني أو تصميم أو لوحة إعدادات أو نموذج غير مألوف، ثم تقول مباشرة:

هذا هو نموذج التفكير الذي أجدسه أسهل تذكّرًا: Appshots هي الطريقة التي تستخدمها للإشارة إلى شيء ما على جهاز الكمبيوتر الخاص بك؛ بينما Browser و Chrome و Computer Use هي الطرق التي يتخذ بها Codex إجراءات.

يتم إنشاء Appshots حاليًا عبر تطبيق Codex على macOS. إنه يلتقط النافذة الأمامية فقط، وليس سطح المكتب بالكامل. وهذا يجعله وسيلة مفيدة: يمكنك تقديم سياق مركّز دون منح هذا التطبيق سيطرة.

كيف يمكنك متابعة هذه التطورات؟

تتغير واجهات هذه العمليات بسرعة. إذا كنت ترغب في الحصول على تفاصيل عملية، بدلاً من الانتظار لملخص نشر ضخم:

تابع Ari Weinstein (@AriX) لمعرفة المزيد عن Computer Use و Appshots؛

تابع جيمس سون (@JamesZmSun) لمعرفة محتويات المتصفح؛

تابع Andrew Ambrosino (@ajambrosino) لمعرفة إصدار تطبيق Codex والسرد الأكبر حول المنتج المكتبي؛

تابع OpenAI Developers (@OpenAIDevs) لمعرفة أخبار أوسع حول Codex وOpenAI Platform.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.