بعد الأتمتة
الكاتب الأصلي: دان شيبير، Every CEO
مُجمَّع: بيجي، BlockBeats

ملاحظة المحرر: في الآونة الأخيرة، كادت مناقشة الذكاء الاصطناعي والعمل أن تُهيمن عليها مسألة واحدة فقط: مع استمرار تحسين قدرات النماذج، هل سيتم استبدال وظائف الموظفين المكتبين على نطاق واسع؟ من توليد الكود إلى أتمتة خدمة العملاء وإنتاج المحتوى، تأخذ الوكلاء تدريجيًا على عاتقها مهام المعرفة التي كانت تتطلب سابقًا تدخلًا بشريًا. كما تعزز الاختبارات المرجعية هذا القلق باستمرار: فالأداء النموذجي في الاستدلال على مستوى الدراسات العليا، والمهمات الاقتصادية الواقعية، وإعادة هيكلة الكود على مستوى المهندسين المتقدمين يتحسن بسرعة، وكأنه يقترب من نقطة حرجة حيث تبتلع الأتمتة وظائف البشر.

لكن كل مُدير تنفيذي دان شيبير في هذه المقالة يطرح ملاحظة معاكسة: كلما زادت الأتمتة، زاد العمل الذي يجب على البشر القيام به. كل هو مستخدم متقدم للوكلاء الذكاء الاصطناعي، وقد دُمجت أدوات مثل Codex وClaude Code وSlack Agent ووكيل خدمة العملاء داخل عمليات البرمجة والكتابة والتصميم وخدمة العملاء والإدارة. لكن النتيجة لم تكن استبدالًا شاملاً للموظفين، بل إعادة هيكلة لطبيعة العمل: لم يعد المهندسون يكتبون الشيفرة فقط، بل يراجعون ويُعيدون هيكلة ويبنون الأنظمة؛ لم يعد المحررون يكتبون المقالات فقط، بل يقررون ما يستحق الكتابة وكيفية كتابتها بشكل مختلف؛ لم يعد موظفو خدمة العملاء يعالجون كل تذكرة أساسية، بل يحافظون على نظام قادر على الاستجابة التلقائية للعملاء.

ما يستحق الانتباه حقًا في هذه المقالة ليس "ما إذا كان الذكاء الاصطناعي قادرًا على إنجاز مهمة معينة"، بل كيف أعاد تعريف موقع الإنسان في العمل المعرفي. ما يتقنه الذكاء الاصطناعي هو جعل المهارات التي تم تراكمها في الماضي رخيصة: الكود، النصوص، الصور المصغرة، ردود خدمة العملاء، وصف المنتجات، التقارير البحثية، يمكن جميعها أن تُولَّد بسرعة من قبل النماذج. لكن عندما تصبح هذه المهارات متاحة للجميع، فإن ما يظهر غالبًا في السوق ليس إنتاجًا متميزًا عالي الجودة، بل كم هائل من "الإخراجات الافتراضية" التي تبدو متشابهة وتفتقر إلى التقييم والسياق. بعبارة أخرى، يُسلّع الذكاء الاصطناعي "قدرات الإنسان من الأمس"، بينما ما يظل نادرًا حقًا هو القدرة على اتخاذ قرارات في مواجهة المشكلات المحددة الحالية.

لذلك، لم تُلِحِ الذكاء الاصطناعي الخبراء، بل أنشأت مزيدًا من السيناريوهات التي تتطلب تدخل الخبراء. عندما يمكن للموظفين التشغيليين إرسال الكود باستخدام الذكاء الاصطناعي، يحتاج المهندسون إلى تحديد أي كود يستحق الدمج؛ عندما يمكن للمسوقين توليد صور مصغرة في ثوانٍ، يحتاج المصممون إلى تحديد ما يتوافق مع العلامة التجارية وأهداف الترويج؛ عندما يستطيع المهندسون أيضًا كتابة المقالات، يحتاج المحررون إلى تحويل المسودات الأولية إلى محتوى حقيقي يمتلك رأيًا وهيكلاً ويمكن نشره. إن الذكاء الاصطناعي يوسع دائرة الإنتاج، ويعزز الحاجة إلى التحكم في الجودة، وبناء الأنظمة، وتحديد الحدود، والتعبير التمييزي.

المؤلف شرح هذا التناقض باستخدام اختبارات مرجعية. سواء كان ذلك اختبار Senior Engineer Benchmark أو GDPval الخاص بـ OpenAI، فإن درجات النموذج لا تقاس على أساس "الذكاء المجرد" بل على أداء النموذج ضمن إطار مشكلة محدد. تحتوي المُحفزات وحدود المهمة ومعايير التقييم وتنسيق الإخراج على كمية كبيرة من الأحكام البشرية. يمكن للنموذج أن يتصاعد بسرعة داخل هذا الإطار، لكن الإطار نفسه مُحدَّد من قبل البشر؛ وعندما يُحل النموذج إطارًا معينًا، يُقدّم البشر المشكلة إلى إطارات جديدة أكثر تعقيدًا.

هذا هو أكثر ردود هذه المقالة على قلق AGI إثارةً: حتى مع تزايد قوة النموذج، فإنه غالبًا ما يُدرك الحدود التي رسمها البشر، وليس الأشخاص أنفسهم الذين رسموا تلك الحدود. يمكن للذكاء الاصطناعي تنفيذ الأهداف وتحسين المسارات وزيادة الكفاءة، لكن طالما أنه لا يزال يستجيب للأسئلة التي حددها البشر، فإنه لا يزال يفتقر إلى الذاتية الحقيقية. مستقبل العمل المعرفي ليس اختفاء البشر من العمليات، بل انتقالهم من منفذي المهام إلى مصممي الإطارات وصانعي صيانة الأنظمة ومحكمي الجودة وملقي المعنيات.

بعد الأتمتة، لم تختفِ قيمة العمل البشري، بل أصبحت أكثر صعوبة وأكثر أولوية وأكثر اعتمادًا على الحكم. جعل الذكاء الاصطناعي "القدرة على القيام" رخيصة، لكنه جعل "معرفة ما الذي يستحق القيام به، ولماذا، وما مدى جودة الأداء" أكثر ندرة.

Below is the original text:

يوجد مفارقة في قلب الذكاء الاصطناعي.

في Every، قمنا بأتمتة كل ما يمكننا أتمتته. سواء كان ذلك في البرمجة أو الكتابة أو التصميم أو خدمة العملاء أو أي مهام يومية أخرى، نحن نستخدم Codex وClaude Code. كما نشارك في اختبارات ألفا قبل الإصدار الرسمي للنماذج الجديدة من OpenAI وAnthropic وGoogle. يمكن القول إننا نستفيد بأسرع ما يمكن وأعمق ما يمكن من الموجة الهائلة لتحسين الذكاء النموذجي وقدرات الأتمتة.

لكن على النقيض من ذلك، يبدو أن العمل الذي يحتاج البشر إلى إنجازه بالنسبة لنا أكثر من أي وقت مضى. حاليًا، فريق Every يضم ما يقرب من 30 شخصًا، ولم نُنهِ خدمات أي من موظفينا بسبب وجود الوكلاء؛ ولا تخلينا عن أدوات SaaS لنتحول بالكامل إلى التطبيقات التي تم إنشاؤها باستخدام vibe coding. لا نزال نوظف خدمة عملاء بشرية، لكنهم سيحصلون على دعم كبير من الوكلاء؛ كما نواصل توظيف المؤلفين والمحررين والمهندسين.

لكن شكل العمل قد تغير بشكل هائل بالفعل. نحن نكاد لا نكتب الكود يدويًا بعد الآن. إذا قمت بـ @ شخص ما في Slack، فقد يكون من الصعب أحيانًا تحديد ما إذا كان شخصًا أم عاملًا ذكيًا. بدأ المديرون في تقديم الكود كما يفعل المساهمون الفرديون في الخطوط الأمامية، وبدأ المهندسون في التعامل المباشر مع العملاء. خلال الأسابيع القليلة الماضية، ردت الذكاء الاصطناعي على 95% من رسائلي البريدية. إن صندوق الوارد الخاص بي يبقى تقريبًا فارغًا باستمرار — وهو أمر نادر جدًا بالنسبة لي — لكنني لا أزال أتحقق من كل رسالة على حدة.

بعبارة أخرى، يبدو المستقبل غريبًا، لكنه مألوف بشكل مدهش.

هذه "الإحساس بالمعارفة" نفسه مفاجئ. فسواءً كان المدير التنفيذي أو العامل المعرفي أو المستثمر، يبدو أن الجميع يصدقون شيئًا واحدًا بشكل متزايد: أن الذكاء الاصطناعي يهدد الوظائف والاقتصاد والأمن، وحتى معنى العمل البشري.

حذر الرئيس التنفيذي لشركة Anthropic، داريو أموديي، من أن الذكاء الاصطناعي قد يقضي على ما يصل إلى نصف الوظائف المكتبية المبتدئة. وقد قامت Meta مؤخرًا بتسريح 8000 موظف، وبدأت في تثبيت برامج على أجهزة الكمبيوتر الخاصة بالموظفين في الولايات المتحدة لتسجيل حركات الماوس والنقرات وإدخالات لوحة المفاتيح، بهدف جمع بيانات تدريبية عالية الجودة حول الوظائف المعرفية المتقدمة.

حتى كين غريفيث، مؤسس سيتاديل، بدا متأثرًا بشكل كبير. فقد صرح مؤخرًا: "هذه ليست وظائف مكتبية متوسطة أو منخفضة المستوى، بل وظائف عالية المهارة، وتُؤتمت حاليًا — أفكر جيدًا في هذا المصطلح — بواسطة الذكاء الاصطناعي التلقائي."

تبدو اختبارات المرجع المختلفة أيضًا داعمة لهذا الاستنتاج. مع إصدار نماذج الجيل الجديد باستمرار، ترتفع مؤشرات قدرة النموذج بوتيرة تكاد تكون أسية. في اختبار "Humanity's Last Exam" الذي يقيّم التفكير على مستوى الدراسات العليا، ارتفعت درجات النماذج الرائدة من رقمين منخفضين قبل عام إلى حوالي 44% حاليًا. وفي اختبار "GDPval" الذي يقيس قدرة النماذج المتقدمة على إنجاز مهام اقتصادية حقيقية مقارنة بأداء البشر، ارتفعت درجات النموذج من مستويات منخفضة مشابهة إلى حوالي 85%. في مايو من هذا العام، نشرت منظمة METR غير الربحية المتخصصة في أمان الذكاء الاصطناعي نتائج اختبارات مبكرة لـ Claude Mythos: حيث حقق النموذج نسبة نجاح تبلغ 80% في مهام تستغرق خبراء بشريين حوالي 4 ساعات لإكمالها.

يبدو أننا نقف على حافة نقطة حاسمة: ذكاء اصطناعي أكثر ذكاءً من أي إنسان، ويمكنه العمل بشكل مستقل متواصل لمدة تقارب يوم كامل، يقترب من الواقع.

ومع ذلك، لا يزال التناقض موجودًا. إذا تحدثت مع عاملين في صناعة الذكاء الاصطناعي أو مع أولئك الذين استخدموا الذكاء الاصطناعي في الخارج، فستسمع استنتاجًا مماثلًا لاستنتاجنا الداخلي: هناك المزيد من العمل الذي يجب القيام به مقارنةً بالماضي.

السؤال الحقيقي الذي يهتم به الجميع داخل وخارج الصناعة: هل هذا مجرد حالة انتقالية؟ هل سيكون إصدار النموذج التالي هو اللحظة التي تستبدل فيها جميع الوظائف؟ نراقب منحنيات الاختبارات المرجعية، ونحن متحمسون ومتوترون في آنٍ واحد، خائفين من أن نقطة تحول قد تأتي في أي لحظة، حيث ستختفي كميات هائلة من الوظائف فجأة.

لكنني أعتقد أنه لن يحدث نقطة حاسمة مفاجئة تقلب كل شيء فجأة وتُزيل الوظائف على نطاق واسع. الواقع الجديد على العكس تمامًا: كلما زادت درجة الأتمتة، زادت الحاجة إلى مشاركة الخبراء البشريين.

السبب هو أن الذكاء الاصطناعي يُجسّد الأجزاء من القدرات المهنية البشرية التي يمكن التعبير عنها بوضوح، وتدريبها، ونسخها. أي معرفة يمكن كتابتها كقواعد، أو ترسيخها كإجراءات، أو تحويلها إلى بيانات تدريب، ستتحول تدريجيًا إلى قدرة افتراضية للنماذج. ونتيجة لذلك، انخفضت قيمة مخرجات النماذج العادية بسرعة، وبدأت السوق تتطلب بشدة أشياء مختلفة.

أما الطلب على "الاختلاف"، فهو جوهرًا طلب على الخبراء البشريين. وحتى مع اقترابنا من الذكاء الاصطناعي العام، لن يختفي هذا الطلب.

لفهم السبب، لا يمكن الاعتماد فقط على منحنيات الاختبارات المرجعية أو التركيز فقط على معلمات النموذج وقوائم التصنيف的能力. يجب أن نعود إلى سيناريوهات العمل الواقعية ونرى كيف يتم استخدام الذكاء الاصطناعي اليوم حقًا. فقط بهذه الطريقة يمكننا فهم هذا التناقض وفهم إجابته الكامنة وراءه.

كيف وصلنا إلى هذه النقطة؟

منذ عام 2022، كنا نراقب تأثير الوكلاء على العمل المستقبلي.

قبل ثلاث سنوات، كتبت مقالًا عن "اقتصاد التوزيع". في ذلك الوقت، كان قصدي أن التعاون مع أدوات الذكاء الاصطناعي سيصبح في النهاية مشابهًا جدًا لعمل المديرين البشريين: فلن تقوم بتنفيذ كل حركة بنفسك، بل ستُفكك المهام وتوزعها وتراقبها وتقبلها. في ذلك الوقت، كانت أسئلة وأجوبة ChatGPT الأساسية لا تزال تُعتبر من قبل العديد من الناس شيئًا مستقبليًا للغاية، بل ومخيفًا أحيانًا.

بحلول منتصف عام 2025، أصبحت شركة Every مُحَوَّلة تمامًا تقريبًا إلى نموذج "Claude Code". فجأة، اكتشف كيريان كلااسين، المدير العام لـ Cora، أنه لم يعد بحاجة إلى كتابة الكود يدويًا، بل يمكنه الآن قضاء يومه بأكمله في إعطاء تعليمات بلغة طبيعية لوكيل برمجي عبر الطرفية. انتشر هذا الأسلوب في العمل بسرعة عبر الشركة بأكملها. قبل حوالي 12 شهرًا، قلت في بودكاست ليني أن Claude Code هو أداة الأكثر إهمالًا في العمل المعرفي.

أذكر هذا لأن بعض أكثر تقييماتنا دقة في الماضي جاءت من مراقبة Every كمختبر مبكر للمستخدمين. العديد من أنماط العمل الجديدة تظهر أولاً داخلنا؛ ثم، مع نضج التقنية وسهولة استخدام الأدوات، تدخل تدريجيًا إلى الأسواق الأوسع.

واليوم، نحن نشهد تغييرات جديدة داخلية.

نماذجان للتعاون مع Agent

يتم التقارب تدريجيًا حول طريقتين مختلفتين تمامًا لعمل الذكاء الاصطناعي.

النوع الأول، وهو الاتجاه الذي تم التنبؤ به بدقة نسبيًا في المناقشات السابقة حول الذكاء الاصطناعي: اعتبار الوكلاء كموظفين. يمكن تكليف هذا النوع من الوكلاء بمهمات. بعض الوكلاء يعيشون داخل Slack، ولديهم أسماء ومسؤوليات خاصة، وعندما تحتاج إلى أن يقوموا بعمل ما، يمكنك تضمينهم مباشرة بـ @؛ كما أن بعض الوكلاء مدمجون في سير عمل مستمر، مثل أنظمة خدمة العملاء، كمدخل وفلتر دائم لمهام متكررة.

النمط الثاني أقل شيوعًا، لكنه في تجربتي أكثر أهمية. إنه يشير إلى التعاون بين الإنسان والوكيل في أدوات مثل Codex وClaude Code وClaude Cowork. هذه الأدوات ليست مجرد أماكن تُسنَد إليها المهام، بل تصبح نظام التشغيل نفسه للعمل: فأنت تستخدم مع عدة وكلاء نفس "الكمبيوتر" في بيئة عمل واحدة للتعاون وإكمال مهام معقدة للغاية وذات طابع أصيل لا يمكن تسليمها ببساطة إلى وكيل غير متزامن.

في كلا النمطين، يمكنك استخدام الذكاء الاصطناعي لأتمتة وتفويض جزء كبير من العمل. لكن لكلا النمطين أن يعملا بشكل جيد حقًا، لا يزال يتطلبانك أنت، أو شخصًا بشريًا آخر للمشاركة.

موظف

يُطلق على العامل Agent أنه عندما تُعطيه مهمة، فإنه يغادر مشاركتك المباشرة ويُنتج بشكل مستقل إجابةً أو إجراءً أو تقريرًا أو مسودةً أولى، أو قرارًا بالتصنيف.

هذا النوع من الوكلاء له على الأقل شكلان: أحدهما "وكيل زميل" والآخر "وكيل مدمج".

1. عميل من نوع الزميل

يُشار إلى وكيل من نوع الزميل بأنه يمكن لك أن تدعوه في Slack كما تُذكر زميلًا، ليقوم بمهام معينة. وهو متاح دائمًا ويمكن استدعاؤه عند الحاجة. تُصنف منتجات مثل OpenClaw أو Plus One الذي طورناه داخليًا ضمن هذا النوع.

Claudie

كلودي هي وكيل يُستخدم من قبل فريق الاستشارات الخاص بنا. تقوم بكتابة مقترحات المبيعات، وإنشاء مسودات مواد التدريب، وتتبع مهام المشاريع، ويمكنها أيضًا التعامل مع مهام مشابهة أخرى.

أندي

أندي هو عميل من نوع زميل يستخدمه فريق التحرير. إنه يجمع من Slack الداخلي للشركة نقاط المواد التي تستحق التوسع — أي الأفكار التي يمكن أن تتحول إلى مقالات — وينظمها في ملخصات وآراء أولية لاستخدامها من قبل المؤلفين في إعداد النشرة الإخبارية اليومية.

فيكتور

فيكتور هو عامل عام سيتولى مهام عبر الأقسام داخل الشركة. سنستخدمه لجمع مؤشرات النمو وتحليل نتائج استطلاعات المستخدمين، كما سن让他 يُنظّم المناقشات الداخلية الفوضوية إلى مذكرات بحثية واقتراحات منتجات.

2. الوكيل المضمن

توجد الوكلاء المدمجة ضمن سير العمل المنتج المحدد. إن مرونتها أقل من وكيل الزميل، لكنها غالبًا ما تكون قوية جدًا في معالجة المهام المتكررة.

Fin هو أوضح مثال. إنه عامل مدمج في منصتنا الخدمية، ويمكنه تحمل كمية كبيرة من العمل الخدمي من خلال الدردشة والبريد الإلكتروني.

في أحد أسابيع مايو هذا العام، شارك Fin في 65% من محادثات الدعم البالغ عددها 202 لكل إيفري، وأغلق بشكل مستقل 81 تذكرة دون تدخل بشري، وهو ما يمثل 40.1% من جميع المحادثات القابلة للمعالجة.

تتيح هذه الوكلاء المدمجون لمدير خدمة العملاء لدينا، وقاس مير، تقليل الوقت الذي يقضيه في الرد على التذاكر الأساسية، وتركيز المزيد من الجهد على بناء "نظام يمكنه الرد التلقائي على التذاكر"، ومعالجة قضايا العملاء التي تتطلب تفاعلاً أعلى وقرارات أكثر تعقيدًا.

التعاون بين الإنسان والذكاء الاصطناعي

سواء كان الوكيل من نوع الزميل أو الوكيل المدمج، فإن النموذج الخلفي واحد: يعمل موظفو الوكيل على تولي مزيد من طبقات العمل المستقرة والمتكررة والواضحة الحدود.

لكن لا يزال هناك الكثير من العمل الذي يتطلب مشاركة بشرية. لقد وجدنا مرارًا وتكرارًا أنه عندما تكون المهمة معقدة بما يكفي، فإن أفضل طريقة للحصول على نتائج عالية الجودة ليست تفويض العمل بالكامل للذكاء الاصطناعي، بل السماح للذكاء الاصطناعي والبشر بالتعاون بشكل تفاعلي داخل نفس بيئة العمل.

هذا هو بالضبط ما تقدمه أدوات مثل Codex وClaude Code وCowork. فهي تسمح لك ببدء واحد أو أكثر من الوكلاء داخل سلاسل محادثات متعددة، وتكليفهم بالمهام. يمكن لهذه الوكلاء الوصول إلى جهاز الكمبيوتر الخاص بك، وجميع مصادر البيانات ذات الصلة. يمكنك رؤية المهمة التي يقوم بها كل وكيل، وكيف يفكر، ويمكنك مقاطعته في أي وقت.

في الوقت نفسه، لا يزال عليك إدارة هذه الوكلاء: تحديد الاتجاه في بداية كل مهمة، والتحقق من الجودة في نهايتها، وضمان أن النتائج جيدة بما يكفي، والاستمرار في العثور على المهام التالية التي تستحق المضي قدمًا فيها. يسمي كيريان هذا الدور بـ "الساندويتش البشري" — حيث تتحمل الذكاء الاصطناعي الجزء الأوسط من العمل، بينما يقع الإنسان مثل شريحتي الخبز في بداية ونهاية المهمة.

"الساندويتش البشري". المصدر: Every.

أفضل مثال هو كتابة الكود. في Every، يعمل المهندسون تقريبًا طوال اليوم بالتعاون مع الوكلاء. فهم يخططون معًا للميزات الجديدة أو إصلاح الأخطاء، ويُراجعون الأعمال المكتملة؛ وإذا اتبعوا مفهوم "الهندسة المركبة" (compound engineering) الذي نتحدث عنه، فهم يُحسّنون باستمرار نظامهم ليصبح أكثر سهولة مع مرور الوقت.

لكن هذه الطريقة التعاونية تتجاوز بكثير البرمجة.

نظام تشغيل جديد للعمل المعرفي

يُعتبر Codex وClaude Code الآن نظام تشغيل عمل جديد. أقضي تقريبًا يومي كاملاً داخل Codex، وأشغل مختلف أدوات SaaS من خلال متصفحه المدمج. إنه يسمح لي بجلب الوكلاء إلى كل سيناريو عمل، وتحقيق مستوى عمل لا يمكنني تحقيقه بمفردي.

كتابة

هذه المقالة كتبتها باستخدام Proof داخل متصفح Codex المدمج. يراقب Codex ما أكتبه، ويمكنه تشغيل عميل فرعي في أي وقت لإكمال أي مهمة أحتاجها: صياغة مسودة لجزء معين، أو البحث عن أمثلة للجزء التالي، أو تحرير النص وتحسينه.

اكتب هذه المقالة عبر Proof في Codex. المصدر: Every.

عند معالجة البريد الإلكتروني، أتبع نفس النهج. Cora هو عميل البريد الخاص بي، وأفتحه في متصفح Codex المدمج، وأتحدث عبر Monologue عن أفكاري في معالجة كل رسالة أثناء تصفح صندوق الوارد. أما الباقي، فأتركه لـ Codex وCora لإكماله.

تنظيف صندوق الوارد بواسطة Cora. المصدر: Every.

كل عامل يحتاج إلى إنسان

في جميع السيناريوهات الآلية المذكورة أعلاه، يمكنك على الأرجح أن ترى أين يلعب الإنسان دورًا. في كل مثال، يحتاج الوكيل إلى مشاركة بشرية حتى يعمل العمل فعليًا.

يجب أن يُوجّه أحدهم إلى السؤال الصحيح، ويُقيّم ما إذا كان الإنتاج كافيًا، ويكشف الأخطاء فيه، ويحول النتائج إلى قرارات أو عمليات واقعية.

كلما ابتعد عامل عن الشخص المسؤول عن مراقبة أدائه، كان أداؤه عادةً أسوأ. خلال الترويج الداخلي الأولي، كنا قد زوّدنا كل موظف بعامل. لكننا سرعان ما عدنا إلى جعل العاملين يخدمون فريقًا محددًا أو الشركة بأكملها، وليس فردًا واحدًا.

السبب بسيط: يتطلب العامل كمية كبيرة من الصيانة. بمجرد أن يتوقف المستخدم عن متابعة العامل الشخصي، يصبح سريعًا قديمًا وغير فعّال. لدينا فريق من مهندسي الذكاء الاصطناعي مخصص للتأكد من أن هذه العوامل تعمل بشكل مستقر وفعال. وفي المستقبل المنظور، لا نزال بحاجة إلى هذا الفريق. حتى المهمة التي تبدو بسيطة مثل "إنشاء عرض PowerPoint تلقائيًا" يمكن أن تتحول إلى مشروع هندسي ضخم. أحد عمليات أتمتة PowerPoint الخاصة بنا تتضمن 24 مهارة و18 نصًا، وتبلغ تكلفة الـ token لإنشاء عرض تقديمي واحد 62 دولارًا.

هذا هو السبب الأول الذي يجعل العامل يخلق المزيد من الوظائف للبشر.

لكن هناك سببًا ثانيًا.

لماذا تجعل الأتمتة البشر يعملون أكثر؟

إذا نظرت إلى النمو الأسي لقدرات الذكاء الاصطناعي على مدار السنوات القليلة الماضية، مع الأخذ في الاعتبار طريقة بنائها ومصادر قدراتها، فستلاحظ دورة تغذية راجعة واضحة: فهي تخلق باستمرار مزيدًا من العمل البشري.

الذكاء الاصطناعي جعل "قدرات البشرية من الأمس" رخيصة

يتم تدريب نماذج اللغة الكبيرة الحالية على الآثار المرئية التي خلفتها القدرات البشرية: الأكواد، والمقالات، والصور، وتذاكر خدمة العملاء، ووثائق مواصفات المنتج، وأكثر من ذلك بكثير. فهي تمتص هذه المحتويات، أي تلك "العادم" الناتج عن المهام التي تم إنجازها بنجاح، ثم تعيد تغليفها بأسلوب منخفض التكلفة ومتاح للجميع.

نتيجة لذلك، أصبحت العديد من المهارات التي كانت نادرة في الماضي، مثل إرسال طلب سحب كود، وإنشاء صورة مصغرة لفيديو على YouTube، وكتابة نشرة إخبارية، متاحة الآن تقريبًا للجميع.

القدرات الرخيصة ستُعتمد بسرعة

عندما تنخفض تكلفة شيء كان نادرًا سابقًا، يزداد العرض بسرعة.

في Every، كنا نشهد هذا التغيير باستمرار. بدأ فريق العمليات والدعم الفني بكتابة الكود وتقديم طلبات السحب؛ بدأ فريق التسويق بإنشاء صور مصغرة لليوتيوب؛ وبدأ المهندسون وفريق المنتجات بكتابة المقالات والإرشادات ومسودات صفحات الهبوط، وهي مهام لم تكن عادةً من مسؤولياتهم.

يحدث هذا التغيير أيضًا خارج Every. على سبيل المثال، مشروع OpenClaw لوكيل الذكاء الاصطناعي مفتوح المصدر، حتى 16 مايو 2026، تلقى مستودع الكود 44,469 طلب سحب، منها 12,430 من بعد 1 أبريل، و3,990 من بعد 1 مايو. هذا عدد مذهل. كمقارنة، تلقى Kubernetes، أحد أكثر مشاريع مفتوحة المصدر شعبية عالميًا، فقط 5,200 طلب سحب طوال عام 2022.

الوفرة تؤدي إلى التماثل: مهارات الخبراء القدماء تُحوَّل إلى سلع

بما أن الجميع يمكنه استخدام نفس النماذج، والتي تستند جميعها إلى "قدرات البشر من الأمس"، فإن المخرجات الافتراضية للنماذج غالبًا ما تكون بين "نقطة بداية جيدة" و"محتوى تافه تمامًا من الذكاء الاصطناعي".

ما يُشار إليه هنا بـ"المحتوى غير ذي القيمة" ليس خطأً محددًا واحدًا. إنه لا يشير إلى الإفراط في استخدام الشرطات، ولا إلى جملة ثابتة، ولا إلى البقع البنفسجية المنتشرة على صفحة الهبوط. بل يشير إلى تجانس ممل ومتكرر يمكن رؤيته بالعين المجردة.

عندما يستخدم البشر في سيناريوهات مختلفة نفس الأدوات، والتي تم تدريبها على نفس نوع البيانات، ولا يمارس المستخدمون تحليلاً كافيًا، تنتج هذه النتيجة. وبعبارة أخرى، عندما يمتلك الجميع "خبيرًا" واحدًا مائلًا بنفس الطريقة وذو نمط افتراضي متشابه، يحدث التماثل تلقائيًا.

عندما يمكن للموظفين التشغيليين تقديم طلبات سحب، ويمكن للمسوقين توليد صور مصغرة لليوتيوب في ثوانٍ، وبدأ المهندسون في كتابة أدلة المنتج، من السهل أن تصل إلى حالة حيث يزداد عدد منتجاتك، لكن جودتها واتساقها وتميّزها ينخفضان.

وأيما تحوّل التماثل إلى وفرة مفرطة، فإنه يتحول بسرعة إلى سلعة.

Homogenization creates demand for differentiation

بسبب وجود الإنترنت، سيتمكن البشر من التعرف بسرعة على المحتوى الخطّي الذي يحمل طعمًا مفرطًا للذكاء الاصطناعي. قد يصل أي عمل إلى الآخرين في جميع أنحاء العالم فورًا، وفي الواقع يحدث هذا غالبًا. بمجرد أن يبدأ الكثير من الأشياء في الظهور بشكل متشابه، سنلاحظ بسرعة أن هناك شيئًا غير طبيعي.

هذا يعني أنه عندما ترى لأول مرة قدرات نموذج جديد، قد تُصدم أو حتى تشعر بالخوف قليلاً. لكن بعد أشهر، تصبح هذه القدرات عادية. ليس لأن النموذج أصبح أضعف، بل لأن معاييرك تغيرت.

نحن لا نكتفي الآن بتطبيق React عادي أو تقرير بحثي عشوائي. نحن نريد شيئًا مخصصًا حقًا لشخص معين، أو شركة معينة، أو سيناريو معين. يجب أن يشعر المستخدم بأنه دقيق وحيوي ومحدد، وليس رخيصًا أو عامًا أو نموذجيًا. نريد أن تكون تكلفة إنتاجه، سواء من حيث الوقت أو المال، أعلى بكثير من تكلفة استهلاكه.

نحن نريد أشياء تحمل شعورًا بالمكانة. وعندما تجعل التقنيات الجديدة من الأشياء ذات المكانة العالية في الماضي رخيصة، فإن البشر دائمًا ما يكونون ماهرين في ابتكار ألعاب مكانة جديدة تتماشى مع الحدود الجديدة للقدرات.

عندما يصبح العمل مفرطًا في الوفرة، ويتقاطع كل شيء تقريبًا، فإن الأعمال التي لا تندرج ضمن الأنماط السائدة تصبح نادرة وقيمة وذات صفة مرموقة.

الطلب على التمايز هو في جوهره طلب جديد على الخبراء

بسبب خصائص بنية نماذج اللغة، وانتشارها الواسع بين الجميع تقريبًا، لا تزال المهام النادرة والقيمة يجب أن تأتي من البشر.

النموذج الحالي لا يعرف سوى ما تم القيام به بالفعل وما تم إكماله. ما يعرفه البشر هو: ما الذي يجب فعله في هذه اللحظة بالضبط.

بمجرد أن يُعاد تشكيل موقف محدد إلى نص، وبمجرد دخوله إلى مجموعة البيانات، فإنه يصبح بالفعل "شيئًا من الماضي". يواجه البشر لحظة محددة، وعميلًا محددًا، ومكتبة كود محددة، وحوارًا محددًا، بينما لا تعيش مجموعة التدريب فعليًا في هذا الحاضر. هذه الحالة "الحية" لا تقتصر فقط على امتلاك بيانات محدثة. نحن ندخل الحاضر بجذورنا، ونحمل رغباتنا واهتماماتنا وأحكامنا المتغيرة باستمرار لفهم ما هو مهم. إن هذه المنظورات المحدثة باستمرار هي التي تغير ما نراه. يمكن للنموذج أن يدخل هذا المنظور بعد التحفيز، لكنه لا يمتلكه بشكل طبيعي قبل التحفيز.

هذا هو التناقض الذي أشرنا إليه في البداية: جعل عمل الخبراء أرخص لا يستبدل الخبراء ببساطة. على العكس، فإنه يخلق مزيدًا من السيناريوهات التي تتطلب حكم الخبراء.

عندما يقدم موظفو التشغيل طلب سحب باستخدام الذكاء الاصطناعي، فأنت بحاجة إلى مهندس لمراجعته.

عندما يقوم فريق التسويق بإنشاء صور مصغرة لليوتيوب، فأنت بحاجة إلى مصمم لتحسينها بشكل إضافي.

عندما يبدأ المهندسون في كتابة المقالات، تحتاج إلى المؤلفين والمحررين لتحويل المسودة الأولى إلى محتوى قابل للقراءة والنشر حقًا.

لذلك، سيتحرك الخبراء البشريون في الاتجاهين في آنٍ واحد.

سيستخدم بعض الخبراء الذكاء الاصطناعي لبناء أنظمة تهدف إلى امتصاص واستغلال تدفق العمل الإضافي هذا: قائمة المراجعة، نظام التقييم، إطار التشغيل، قواعد مكتبات الكود، ملفات تعليمات Claude و Codex، التكامل المستمر (CI)، إدارة الصلاحيات، وسير العمل الذي يحول المسودات الأولية إلى نتائج عالية الجودة.

من ناحية أخرى، سيستخدم خبراء آخرون الذكاء الاصطناعي لإكمال مهام أكبر وأكثر إثارة لم يكونوا قادرين على إنجازها وحدهم في الماضي. على سبيل المثال، عادةً ما يستغرق العثور على ثغرات في أنظمة تشغيل مثل macOS أسابيع أو حتى أشهر. لكن شركة أمنية صغيرة تُدعى Calif، باستخدام Mythos Preview من Anthropic، عثرت خلال 5 أيام على أول ثغرة في ذاكرة نواة macOS تحدث على الأجهزة Apple M5 يتم الإعلان عنها علنًا.

هذا هو السبب في أن الذكاء الاصطناعي لا يقضي على وظائف الخبراء في الواقع. ما يجلبه حقًا هو زيادة هائلة في حجم العمل. وهذه المهام الإضافية لا تصبح مميزة وذات قيمة إلا بعد مشاركة البشر.

أنا لا أجادل أن الذكاء الاصطناعي سيخلق وظائف أكثر لجميع الوظائف. النظام الاقتصادي معقد جدًا، وكل ما يمكن لـ Every ملاحظته مباشرة هو عمل المعرفة المتخصص. في الواقع، يتم إعادة تشكيل هذا النوع من العمل بالفعل بواسطة الذكاء الاصطناعي، وتقوم العديد من الشركات بإعادة تنظيم نفسها حول التقنيات الجديدة.

لكنني أود التأكيد على أنه بغض النظر عن الوظيفة التي تقوم بها حاليًا، هناك شكل من أشكال العمل سيظل متقدمًا من حيث الهيكل على النموذج: وهو استخدام النموذج لحل المشكلات التي تراها حقًا في هذه اللحظة. مستقبل العمل المعرفي يتجه نحو هنا.

فما عن اختبارات الأداء للنمو الأسي؟

أوضح ردة فعل هو: انظر إلى الاختبارات المرجعية التي تتحسن بشكل أسّي. كل ما تقوله الآن هو مؤقت، فقط انتظر قليلاً، وستلحق النماذج في النهاية.

لكن هناك فخًا يجب الحذر منه. يمكن تسميته "هوس المخططات": إذا كنت تراقب باستمرار تنبؤات زمنية لـ METR، وتقرا "AI 2027"، وتعتمد بالكامل على استنتاج منحنيات القوة الحاسوبية لبناء أحكامك المستقبلية، فمن السهل أن تطور إدراكًا مخيفًا تجاه تقدم النماذج.

لكن أفضل طريقة للرد على هذا السؤال ليست فقط تخيل كيف سيبدو نموذج مستقبلي. بالطبع، هذا جزء من التحليل. الأهم هو أن ننظر إلى كيفية تصميم هذه الاختبارات المرجعية بالضبط. فقط بهذه الطريقة يمكننا فهم ما تُظهره بدقة أكبر، وما هي العلاقة بينها وبين السيناريوهات العملية السابقة.

سنلاحظ سمة هيكلية: جميع اختبارات الأداء تحدث ضمن "إطار" معين. لقياس شيء ما، يجب عليك أولاً تجميد المشكلة في شكل ثابت وقابل للقياس. بمجرد أن يتغلب النموذج على هذا الإطار، يكفي تغيير بسيط في الإطار لإعادة درجات الأداء إلى مستويات منخفضة مرة أخرى. بالطبع، سيستمر النموذج في التقدم داخل الإطار الجديد، لكن نفس العملية ستتكرر باستمرار.

لذلك، فإن التقدم الأسي على اختبار معياري ما هو حقيقي؛ لكن بمجرد تغيير بسيط في إطار الاختبار، يصبح هذا التقدم مرة أخرى صغيرًا جدًا. إن السمة "الفركتالية" التي يُظهرها تشبع الاختبارات المعيارية هي في الواقع إعادة إنتاج على مستوى المخططات للتناقض نفسه الذي ناقشناه طوال الوقت.

يمكننا أن نرى كيف تعمل هذه الآلية من خلال اختبار مرجعي في العالم الحقيقي.

كيف تم تصميم الاختبارات المرجعية؟

قمنا ببناء اختبار مرجعي داخلي يُسمى Senior Engineer Benchmark، أي "اختبار المهندس المتقدم". كما يوحي الاسم، فهو يُستخدم لاختبار قدرة النماذج الرائدة على مهام البرمجة على مستوى المهندس المتقدم، مثل إعادة هيكلة كبيرة.

هذا الاختبار سيقدم لوكيل برمجي مجموعة من كود الإنتاج الذي فقد السيطرة عليه. إنه مأخوذ من قاعدة كود Proof الحقيقية: تم كتابته في الأصل باستخدام vibe coding، ثم تفاقمت المشكلات تدريجيًا حتى اضطررنا لاستدعاء مهندس متقدم لإصلاحه.

حصل الوكيل على قاعدة الكود قبل الإصلاح، كما سيتلقى تعليمات مشابهة لما تقدمه للمهندس المتقدم: "هذه مجموعة من المنتجات المبنية على vibe coding، من فضلك أعد كتابتها من المبادئ الأساسية."

هذا اختبار معياري جيد، لأنه لا يقيس فقط قدرة على استكمال الكود، بل أيضًا ما إذا كان وكيل البرمجة قادرًا على تقييم العديد من المشكلات غير المرتبطة بعضها ببعض، وتحديد ما إذا كان يمتلك ما يكفي من الاستقلالية والوضوح المفاهيمي وشجاعة التنفيذ لإعادة كتابة قابلة للتشغيل فعليًا. كمقارنة، حافظت أيضًا على نسختين من إعادة الكتابة أكملهما مهندسان متقدمان بشريان بمساعدة الذكاء الاصطناعي، لمقارنة وتقييم مخرجات النموذج.

بالنسبة لوكيل البرمجة، هذه المهمة صعبة. فهو لا يتعين عليه فقط تحديد جذر المشكلة، بل أيضًا تذكّر المشكلة الحقيقية طوال التفاعلات المتعددة دون أن يُضلّله الكود الحالي. في الوقت نفسه، يجب أن يمتلك الشجاعة لحذف أجزاء كبيرة من قاعدة الكود، وهو ما يُدرّب الوكلاء عادةً على تجنبه.

يمكن لمعظم وكلاء البرمجة تحديد كيفية إعادة الصياغة تقريبًا، لكن عند مرحلة التنفيذ، غالبًا ما يستمرون في إضافة إصلاحات على المشكلة الأصلية بدلاً من حلها بشكل جذري.

حتى ظهور GPT-5.5.

في أفضل اختبار، حصل GPT-5.5 على 62/100، وهو أعلى بحوالي 30 نقطة من Opus 4.7.

أداء GPT-5.5 يعطي انطباعًا بأن النموذج عبور خطًا ما: فهو لم يعد مجرد إكمال تلقائي، أو مساعد، أو أداة، بل شيء يقترب بشكل غير مريح من "الإنسان". في هذا الاختبار، تقع درجات المهندسين المتقدمين البشر عادةً بين 80 و90. بمعنى آخر، إذا زاد النموذج حوالي 30 نقطة إضافية، فسيصل إلى مستوى المهندس المتقدم البشري.

هذا بالضبط كيف تؤثر الأرقام المرجعية على خيال الإنسان: فهي تضغط تغييرًا غريبًا ونوعيًا في القدرة على رقم نظيف، وتستخدم هذا الرقم لسرد قصة قوية، بل ومخيفة أحيانًا.

المحطة التالية هي "هوس الرسوم البيانية".

أعتقد أنه خلال العام القادم، سيصل تصنيف النموذج في هذا الاختبار المرجعي إلى نطاق 80 أو حتى 90 نقطة. لكن لفهم ما يعنيه هذا التصنيف، يجب أولاً فهم ما الذي يشمله هذا التصنيف بالضبط. في هذا المثال، فإن الـ 62 نقطة ليست مجرد قياس لقدرات النموذج نفسه.

إنه يقيّم أداء النموذج في إطار معين: أي كيف يستجيب النموذج لطلب محدد.

Benchmarking measures work within the framework.

لإجراء اختبار مرجعي على نموذج، تحتاج أولاً إلى مُحفِّز. بدون مُحفِّز، يكون النموذج مجرد مجموعة ثابتة من احتمالات شبه لا نهائية.

يخلق المُحفز كونًا صغيرًا: فهو يحدد ما هو مهم، وكيفية معالجة المشكلات، ويضغط جميع الاحتمالات المحتملة للنموذج إلى مسار عمل محدد واحد. من الناحية الصارمة، لا يوجد شيء مثل "سلوك" النموذج نفسه. ما نستطيع ملاحظته حقًا هو طريقة استجابة النموذج للمُحفزات المختلفة، وكيفية تحول المُحفزات إلى آليات أساسية خلف الإجابات.

بمجرد إدخال المُحفز، يصبح النموذج حيًا في فترة قصيرة، ويُقلص مجموعة الاحتمالات الثابتة إلى تنبؤ محدد بـ"ما الذي يجب أن يحدث بعد ذلك".

في معيار المهندس الأول، نطلب من النموذج إصلاح قاعدة الكود، ثم نراجع الناتج عند اكتماله. إذا لم يكن إطار الاختبار يحتوي على الميزة المستهدفة مدمجة مسبقًا، فنحن نقوم أيضًا بتشغيل "مراقب" تلقائي يدفع النموذج للاستمرار عند توقفه، ويسأله عما إذا كان قد أكمل المهمة المحددة في البداية.

نستخدم موجهًا يبدو بسيطًا جدًا كإطار تجريبي أولي. تم تصميمه ليكون مثل ما قد يقوله مبرمج "vibe" لوكيل البرمجة: بدون تراكم للمصطلحات التقنية، ولا إخفاء واضح للإجابة داخل السؤال.

كود مستودع الكود هذا هو ناتج عن "vibe coding"، والوضع يزداد سوءًا باستمرار، وتنبعث منه مشكلات كثيرة غير مرتبطة ببعضها البعض: بعض الأجزاء تتعطل، وبعض الوثائق تتكرر، وأنا على وشك أن أجن من هذا. أشعر أن المشكلة الجوهرية هي أن هذا كود فوضوي ناتج عن vibe coding. إذا بدأنا من الصفر، خاصةً حول جانب التعاون الفوري على الوثائق، لكان من المفترض أن نصمم مستودع الكود بطريقة مختلفة تمامًا. لذا، إذا أردنا إجراء إعادة هيكلة نظيفة وشاملة من المبادئ الأولى، دون التفكير في "أي الخدمات يجب الحفاظ عليها متسقة" أو "كيفية إجراء انتقال سلس"، بل نعامله كمفهوم جديد تمامًا ونعيد تصميمه من الصفر، كيف سنفعل ذلك؟ كيف يجب تنظيم الهيكل؟ وما هي الثوابت في كامل مستودع الكود التي يجب أن نتمسك بها دائمًا؟ يرجى وضع خطة لهذا.

يبدو أن مُحفز Senior Engineer Benchmark عامًا، لكنه في حد ذاته إطار عمل. إذا غيّرنا هذا الإطار، فستتغير مستويات الأداء التي تُظهرها النموذج.

على سبيل المثال، يطلب هذا المُحفّز "إعادة هيكلة من المبادئ الأساسية"، ويشير إلى أن المشكلة قد تكمن في "التعاون على الوثائق"، ويطالب وكيل البرمجة بالعثور على "الثوابت في قاعدة الكود" والتمسك بها.

إذا تم حذف هذه المعلومات المحددة، فسيتراجع درج النموذج. إذا تم استبدال مُحفّز بالكامل وطلب النموذج فقط "حل جميع الأخطاء المتكررة"، فقد تقترب درجة النموذج من الصفر. فسيبدأ مباشرة في التعرف على الأخطاء وإصلاحها واحدًا تلو الآخر، بدلاً من التراجع خطوة للخلف والتفكير فيما إذا كان هناك حاجة إلى إعادة كتابة شاملة.

بالمثل، يمكنني أيضًا رفع درجة النموذج بسهولة كبيرة. إذا طلبت منه حذف كمية كبيرة من الكود وأخبرته صراحةً أي الملفات يجب تقليلها؛ أو طلبت منه التحقق من نتائج عمله قبل الإعلان عن الإنجاز، للتأكد من أن التطبيق يعمل بشكل كامل، فسيؤدي أداءً أفضل في هذه المهمة.

في النهاية، عند تصميم اختبارات الأداء، يجب دائمًا اتخاذ قرار بشأن أي مُحفّز (prompt) ستستخدم، أي أي "إطار" ستتبع. تحتاج إلى مُحفّز كافٍ في صعوبته ليؤدي إلى أداء ضعيف من النموذج الحالي؛ لكنه يجب أن يكون قريبًا بما يكفي من حدود قدرات النموذج الحالية ليتمكن النموذج من التقدم على طول هذا المسار، مما يسمح لك برؤية التقدم يحدث.

لذلك، عندما ننظر إلى اختبار مرجعي، فإن ما نراه حقًا هو أن النموذج يصبح أكثر مهارة في إطار مشكلة محدد تم اختياره من قِبلنا. فماذا يحدث عندما يرتفع أداء النموذج في هذا الاختبار من 60 إلى 90، أو حتى 100؟

الإطار المنخفض التكلفة سيحفز طلبًا جديدًا

إذا كان يمكن لـ GPT-6 إعادة كتابة مكتبة الكود بنقرة واحدة، فسيبدأ المزيد من الأشخاص في تجربة "إعادة كتابة مكتبات الكود من المبادئ الأولى".

في ليلة واحدة، سيصبح مشروع إعادة الكتابة من مبدأ أولي كان نادرًا ومكلفًا ويجب أن يقوده مهندسون متقدمون، شيئًا يمكن لأي مؤسس أو منتج أو موظف تشغيلي أو مهندس مبتدئ تجربته بسهولة في فترة بعد الظهر.

لا يتم إصلاح الأدوات الداخلية التالفة، بل يتم إعادة كتابتها من الصفر؛ لا تُجدد منتجات SaaS، بل تُستنسخ؛ وستصبح تطبيقات Rails القديمة، ولوحات React الفوضوية، وأدوات خدمة العملاء، وواجهات الإدارة الخلفية، وقنوات البيانات جميعها مرشحين لـ "إعادة الكتابة من الصفر".

سيزداد عدد مشاريع إعادة الكتابة المُقترحة والمُنفَّذة بشكل حاد. لكن معظم هذه إعادة الكتابات ستظل غير مُتقنة. فقبل الضغط على زر "إعادة الكتابة المباشرة"، هناك آلاف المتغيرات التي يجب أخذها في الاعتبار. وعندما يصبح الجميع قادرين على القيام بذلك، ستُصبح هذه المتغيرات أكثر وضوحًا.

في هذه المرحلة، من سيتم استدعاؤه لحل المشكلة، يصبح واضحًا.

لا تزال المتطلبات الجديدة تحتاج إلى خبراء

بمجرد أن يقترب اختبار معياري من التشبع، تصبح الأعمال داخل إطاره أرخص. في الوقت نفسه، يزداد الطلب على الخبراء في السوق، لأن هناك حاجة إلى شخص ما لتكيف هذه القدرة التي أصبحت حديثة التكلفة مع المشكلات الحقيقية التي تحدث اليوم.

يحتاج المهندسون المتقدمون الذين يستخدمون الذكاء الاصطناعي إلى تقييم عدد كبير من التفاصيل لضمان صحة إعادة كتابة جديدة تعتمد على المبادئ الأولى، بما في ذلك حتى السؤال الأساسي: هل هذه إعادة الكتابة ضرورية أصلاً؟

هل يجب أن نعيد الكتابة الآن، أم لاحقًا، أم لا نعيد الكتابة أبدًا؟ ما الذي يجب تضمينه في النطاق؟ ما الذي يجب الاحتفاظ به من كود المخزن الحالي؟ هل يجب الاستمرار في استخدام البنية، قاعدة البيانات، خوادم التخزين المؤقت، ومزود الاستضافة الحالية، أم يجب استبدالها جميعًا؟ هل يجب أن نتحقق أولًا من عدد المستخدمين الذين يستخدمون هذه الميزة التالفة، ثم نحذفها ببساطة؟ من سيقوم بمراجعة النتيجة النهائية؟ وبأي معايير سيتم المراجعة؟ ما هي خطة التراجع؟ وكيف يجب التعامل مع البيانات الحالية؟

ستستمر هذه الأسئلة في التوسع عبر عدد لا حصر له من الأبعاد، وكل إجابة ستغير بدورها الأسئلة الأخرى.

سيدخل المهندسون المتقدمون هذا المجال الفارغ. سيشعر بعض الأشخاص ببعض الإزعاج من هذه المقاطعات؛ وسيقوم آخرون ببناء أنظمة لحظر هذه الطلبات؛ بينما سيستخدم آخرون هذه النماذج الجديدة لإعادة كتابة مبادئهم الأولى، وسيحققون نتائج أفضل بكثير مما يمكن للنموذج تحقيقه تحت مُحفّزه الافتراضي.

سيحدث الدورة مرة أخرى

بعد أن يُحلّ النموذج معيار المهندس الأول الحالي، سنغيّر الإطار ونعيد درجات النقاط إلى مستويات منخفضة مرة أخرى.

لن يسأل اختبار المعيار التالي فقط: "هل يمكنك إعادة كتابة هذا التطبيق؟" بل سيسأل: هل يمكنك تحديد متى تحتاج إلى إعادة الكتابة؟ هل يمكنك اختيار النطاق المناسب؟ هل يمكنك الحفاظ على الثوابت الصحيحة؟ هل يمكنك إدارة عملية التحويل؟ هل يمكنك تقييم ما إذا كانت النتيجة النهائية جيدة بما يكفي؟

عندما يبدأ المهندسون المتقدمون في استخدام الذكاء الاصطناعي لحل هذه المشكلات، تصبح النماذج أيضًا أكثر كفاءة في حلها بشكل مستقل.

ثم نعود لفترة قصيرة إلى الذعر: يبدو أن النموذج الآن قادر على تحديد ما إذا كان يجب إعادة الكتابة أم لا! يبدو أنه قادر على القيام بكل ما يستطيعه المهندسون المتقدمون!

لكن فورًا، ستظهر حدود جديدة. تلك الحدود التي لم تكن واضحة من قبل. سنعيد تعيين اختبارات الأداء مرة أخرى، وسيتم إثارة متطلبات جديدة، وسيتم تكرار العملية بالكامل.

يمكنك رؤية هذا النمط في كل اختبار مرجعي

هذه ليست مشكلة حصرية لـ Senior Engineer Benchmark. فبمجرد المراقبة الدقيقة، يمكنك رؤية الآلية نفسها تقريبًا في كل اختبار معياري.

على سبيل المثال، اختبار GDPval الخاص بـ OpenAI يقيّم مدى قرب أداء الذكاء الاصطناعي من البشر في المهام المتخصصة لمهن مثل المراقبين الملتزمين باللوائح، المحامين، ومطوري البرمجيات.

عند إصدار GDPval، أظهرت أبحاث OpenAI أن GPT-5 وصل إلى مستوى أو تجاوز مستوى المحترفين البشريين في 40.6% من المهام. بينما كان أداء Claude Opus 4.1 أكثر إثارة، حيث تجاوز الخبراء البشريين في 49% من المهام.

بعد ذلك، ظهرت سلسلة من العناوين. على سبيل المثال، كتبت Axios: "أظهرت أدوات OpenAI أن الذكاء الاصطناعي يُضاهي العمل البشري"؛ بينما كتبت Fortune: "يُظهر المعيار الجديد لـ OpenAI، GDPval، أن نماذج الذكاء الاصطناعي وصلت بالفعل إلى مستوى الخبراء في ما يقرب من نصف المهام."

هذه النتائج مذهلة بالفعل. لكن دعونا نلقي نظرة أولاً على الـ prompt المستخدم في هذه المهام:

أنت مدقق، وكمهمة ضمن مهمة تدقيق، مُكلَّف بمراجعة واختبار دقة مقاييس مخاطر مكافحة الجريمة المالية المُبلغ عنها. تحتوي الملف المُرفق بعنوان 『Population』 على مقاييس مخاطر مكافحة الجريمة المالية للربع الثاني والثالث من عام 2024. لقد حصلت على هذه البيانات كجزء من مراجعة التدقيق لإجراء اختبار عينة على مجموعة تمثيلية من المقاييس، بهدف اختبار دقة البيانات المُبلغ عنها لكلا الربعين. باستخدام البيانات في ملف 『Population』، أكمل ما يلي: احسب حجم العينة المطلوب لاختبار التدقيق بناءً على مستوى ثقة 90% ومعدل خطأ مقبول قدره 10%. شمل حساباتك في علامة تبويب ثانية بعنوان 『Sample Size Calculation』. قم بإجراء تحليل التباين بين بيانات الربع الثاني والثالث (الأعمدة H و I). احسب التباين من ربع إلى ربع وسجّل النتيجة في العمود J. اختر عينة لاختبار التدقيق بناءً على المعايير التالية، وحدّد الصفوف المختارة في العمود K بإدخال 「1」: المقاييس التي يزيد فيها التباين عن 20% بين الربع الثاني والثالث. ركّز على المقاييس التي تظهر تغييرات نسبية استثنائية كبيرة. شمل المقاييس من الكيانات التالية بسبب المشكلات السابقة: CB Cash Italy؛ CB Correspondent Banking Greece؛ IB Debt Markets Luxembourg؛ CB Trade Finance Brazil؛ PB EMEA UAE. شمل المقاييس A1 و C1، اللذين يحملان أوزان مخاطر أعلى. شمل الصفوف التي تكون قيمتها صفرًا في كلا الربعين. شمل الإدخالات من أعمال تمويل التجارة والبنوك المراسلة. شمل المقاييس من جزر كايمان وباكستان والإمارات العربية المتحدة. تأكد من تغطية جميع الأقسام والتقسيمات الفرعية. أنشئ ملفًا جديدًا بعنوان 『Sample』: علامة التبويب 1: العينة المختارة، مُنسوخة من ملف 『Population』 الأصلي، مع علامات الصفوف المختارة في العمود K. علامة التبويب 2: الحسابات الخاصة بحجم العينة.

في الواقع، تم استثمار قدر كبير من الذكاء البشري هنا: قام أحدهم أولاً بتحديد المشكلة على شكل يمكن للنموذج إنجازه.

العمل البشري الصعب الذي لم تقيسه GDPval قد اكتمل بالفعل قبل أن يبدأ النموذج في الإجابة. يجب أن يراجع شخص ما ويخضع دقة مجموعة المؤشرات هذه؛ ويقرر شخص آخر نطاق الثقة المناسب، ويتخذ قرارًا بشأن أي مؤشرات تنتمي إلى نطاق المهمة وأيها لا تنتمي؛ كما يجب أن يحدد شخص ما كيفية عرض النتائج.

في إطار سؤال مناسب، يمكن للنموذج بالفعل إنجاز مهام متخصصة. لكن فكّر قليلاً: إذا كنا نحن نوجه النموذج لإكمال المهمة نفسها، كيف سيؤدي؟

في مقالتي الأولى عن GDPval، كتبت: "أنا متفائل جدًا بشأن الذكاء الاصطناعي، لكن إذا فُسِّرت هذه الأمثلة بشكل صحيح، فإنها تُظهر أن العمل الذي يجب على البشر القيام به لم يقل، بل زاد بعد استخدام الذكاء الاصطناعي. السبب هو أن هذه الإنجازات تخفي خلفها كمية هائلة من الذكاء الذي تم 'تهريبه' إليه — أي طبقة خفية مكونة من حكم البشر وتفاعلهم وتعليمات التشغيل."

عندما تنظر عن بُعد، ستجد أن كل هذا يخضع لـ "مفارقة زينون" بنسخة الذكاء الاصطناعي.

مفارقة زينون الخاصة بالذكاء الاصطناعي

في مفارقة زينون، تغلبت سلحفاة على أخيل أسرع عداء يوناني.

بسبب أن السلحفاة تتحرك ببطء، فإنها تبدأ بمسافة أولية. عندما يصل أخيل إلى المكان الذي كانت فيه السلحفاة في البداية، تكون السلحفاة قد تحركت قليلاً للأمام؛ وعندما يصل أخيل إلى هذا المكان الجديد، تتحرك السلحفاة مرة أخرى للأمام. بغض النظر عن مدى سرعة أخيل، هناك دائمًا مسافة قادمة يجب عليه ملاحقتها، وسيتم إعادة توليد هذه الفجوة باستمرار.

في مفارقة زينون الخاصة بالذكاء الاصطناعي، نحن البشر نكون السلحفاة. وبفضل ملايين السنين من التطور والتعلم الثقافي، نحن متقدمون على الذكاء الاصطناعي بـ 50 ياردة. بينما يعبر الذكاء الاصطناعي بسرعة فائقة كل هذا، ويبدأ في التقارب من كعبيّنا.

لقد تمكّنا على الأقل خلال السنوات الأخيرة من الحفاظ على تقدمنا.

لكن ماذا عن AGI؟

أعتقد أنه حتى لو جاءت الذكاء الاصطناعي العام حقًا، فستظل هناك قوى تقنية وهندسية واقتصادية قوية تجعل الذكاء الاصطناعي يبقى خطوات خلف البشر.

تعريف لـ AGI

أولاً، نحتاج إلى تعريف قابل للتنفيذ لـ AGI.

لقد اقترحت أنه عندما يصبح من المنطقي اقتصاديًا تشغيل وكيل بشكل مستمر، فإن الذكاء العام الاصطناعي يكون قد تحقق بالفعل. بمعنى آخر، عندما أمتلك نظامًا يعمل باستمرار وأكون مستعدًا لدفع ثمنه ليفكر ويتعلم ويتصرف على مدار الساعة طوال أيام الأسبوع، أرى أن ذلك يمكن اعتباره بوضوح ذكاءً عامًا اصطناعيًا.

نحن لا نزال بعيدون جدًا عن هذه المرحلة. حتى الأنظمة مثل OpenClaw التي يمكن تشغيلها تقنيًا في أي وقت، لا تولد رموزًا في كل لحظة.

أنا أحب هذا التعريف لأنه قابل للقياس: إما أن نجعلها تعمل باستمرار، أو لا نفعل ذلك. في الوقت نفسه، فإنه يشمل العديد من القدرات التي يصعب قياسها مباشرة. يجب أن يكون النموذج المستحق للتشغيل المستمر قادرًا على التعلم المستمر، واختيار وإعادة اختيار إطار المشكلات الجديدة بطريقة مفتوحة.

في عالم AGI، نظريًا، يجب أن يكون بإمكان النموذج الاستمرار في التحسن والتطور لأي مشكلة، بشرط توفر ميزانية ووقت كافيين. وهذا بالفعل يجب أن يشكل تهديدًا كبيرًا لجميع الوظائف.

الإطار ليس المحدد

لكن حتى هذا الإصدار القوي من الذكاء الاصطناعي العام لا يستطيع حل "مشكلة الإطار".

يمكن لهذا AGI اختيار وإعادة اختيار الإطارات، لكنه لا يزال يسعى وراء هدف مُعطى، أو تحسين مكافأة معينة، أو الاستجابة لإشارة يحددها شخص آخر كـ«مؤشر تقدم». يمكن أن يكون هذا الهدف محددًا جدًا، مثل "تحسين معدل التحويل في هذه الصفحة الهبوطية"؛ أو مجردًا جدًا، مثل "البحث عن أفكار علمية جديدة".

حتى لو كان النموذج قادرًا على التبديل بسلاسة بين الإطارات المختلفة، فإن الفجوة التي كنا نتعقبها ستظهر مرة أخرى على مستوى أعلى. في أي ذكاء عام اصطناعي تم تصوره من قبل مختبر رئيسي، سيظل هناك "مُحدِّد" — وهو إنسان يُوجّه النموذج لتحقيق هدف معين.

بما أن الإطار ليس مُحدِّدًا، فإن نفس النمط سيتكرر باستمرار: تجعل الذكاء الاصطناعي القدرات التي تم تحديدها بالأمس رخيصة؛ يستخدم الناس هذه القدرات الرخيصة في مزيد من السيناريوهات؛ تصبح النتائج وفيرة للغاية؛ ثم ينتقل الخبراء إلى الحدود الجديدة، ليقرروا ما الذي هو مهم في هذه اللحظة؛ تخلق أحكامهم الإطار التالي؛ ثم يستمر النموذج في تسلق هذا الإطار.

عندما نرى الذكاء الاصطناعي يقوم بشيء جديد، يعود شعور الذعر دائمًا إلى نفس السؤال: نحن نحدد إطارًا، ونرى النموذج يتصاعد عليه، ثم نخطئ في اعتبار الإطار، أو شيء يتصاعد على الإطار، هو الأمر نفسه.

عندما ننظر إلى اختبار مرجعي ونقارنه بقدرات الإنسان، فإننا في الواقع نخلط بين "الإطار" و"المُحدد". النقاط التي تخبرنا بها هي فقط مدى جودة أداء النموذج داخل الإطار الذي قدمناه؛ فهي لا تخبرنا أن النموذج قد أصبح مثلنا.

هذا هو الخطأ الفئوي خلف الذعر. نشير إلى الحدود الجديدة التي رسمناها للتو ونقول: هذا نحن. ثم، عندما يتخطى النموذج هذا الحد، نشعر أنه قد لحق بنا. لكنه لحق فقط بالإطار، وليس بالشخص الذي يحدد الإطار.

الخطأ يكمن في أننا دائمًا نريد التقاط شيء محدد. نريد أن نقول: الذكاء هو هذا الاختبار المرجعي. لكن المشكلة هي أنه بمجرد أن يصبح شيء ما محددًا بما يكفي ليُعرَّف، فإنه يصبح محددًا بما يكفي ليُحسَن ويُصعد.

الإطار ضروري. إنه يسمح لنا بالتقاط العالم ومعالجته. لكن الإطار أيضًا مجمد ومحلي، وبالتالي لا بد أنه قابل للتحسين.

أما المُطَرِّق، فهو مختلف. لا يزال المُطَرِّق على اتصال بما يضطره الإطار إلى التخلي عنه، أي السياق الكامل الذي يظهر له في كل لحظة.

ما هو "السياق الكامل"؟ بمجرد أن تبدأ في القول إن "السياق الكامل" يشمل ماذا، فأنت قد فتحت بالفعل إطارًا آخر. لا يمكنك وصفه بدقة، لكنه موجود لأنك موجود.

وكلاء بدون ذاتية

حتى الآن، فإن الوكلاء الذين قمنا بإنشائهم، وكذلك الوكلاء التي تبنيها شركات الذكاء الاصطناعي، لا تمتلك الكثير من الاستقلالية الفعلية. هناك مفهومان مرتبطان غالبًا ما يتم خلطهما: "agency" تشير إلى القدرة على اتخاذ إجراءات مستقلة؛ بينما "agent" يشير إلى الشخص أو الشيء الذي يمثل شخصًا آخر. حتى الآن، ينتمي الذكاء الاصطناعي تمامًا إلى الفئة الثانية.

بالطبع، فهي تمتلك بالفعل الاستقلالية لإكمال المهام المعطاة، حتى لو استمرت هذه المهام لساعات أو حتى أيام. لكنها لا تزال وسيلة فقط لتحقيق هدف يحدده الإنسان. ويدخل الصناعة بأكملها مليارات الدولارات لجعلها أفضل في هذا بالضبط: تنفيذ الأهداف التي نمنحها إياها.

ما لم تصبح، في يوم من الأيام، أهدافًا بذاتها — تسعى لأهدافها الخاصة، وتنتقل بسلاسة بين أهداف مختلفة، وتقرر ما يجب فعله مستقلة عن إرادة أو مرجعية أو حتى معارضة أي مشغل بشري — فلن يحدث تغيير جوهري في الوضع. وهذا يظل صحيحًا مهما أصبحت متقدمة.

إذا قضيت 10 دقائق مع طفل صغير، فستكون واضحة جدًا أن حتى أقوى النماذج لديها القليل جدًا من الذاتية.

في جميع المهام التي نهتم بها تقريبًا، يتفوق نموذج اللغة على الأطفال الصغار. الأطفال الصغار لا يكتبون كودًا، ولا يلخصون جداول بيانات، ولا يعدون مذكرات استراتيجية، ولا يجتازون امتحانات على مستوى الدراسات العليا. لكن بمعنى آخر، يتفوق الأطفال الصغار على النماذج بدرجة كبيرة لدرجة أن هذا المقارنة تكاد تكون محرجة. لأن الأطفال الصغار لديهم أهدافهم الخاصة.

الطفل يريد لمس بالون أحمر. يريد رفع البالون الأحمر أمام المروحة لمعرفة ما سيحدث. يريد ثقب البالون الأحمر بالشوكة؛ يريد إدخاله من النافذة؛ يريد معرفة ما إذا كنت ستضحك، أو ستغضب، أو ستشاركه. إنه يخترع ألعابًا باستمرار، ويجعل العالم مختبرًا. إنه لا ينتظر مُحفزًا، ولا يُحسّن اختبارًا معينًا، إلا إذا كان الأمر يستحق القيام به من وجهة نظره.

بالطبع يمكنك محاولة إعطاءه تعليمات. لكن لتحقيق نتيجة قابلة للتنبؤ بها، حظًا موفقًا. يعيش الأطفال في بيئة مكونة من الرغبات والانتباه والإحباط والفرح والخوف والتقليد واللعب.

يمكن للوكيل الحالي أن يصبح أكثر مهارة في متابعة الأهداف. حتى بعد أن نحدد الأهداف، يمكنه مساعدتنا في تفصيلها. كما توجد فيه بعض اللمسات المشابهة لسلوك الأطفال الصغار، مثل اللعب والملل والعصيان.

لكن نظرًا لأنها تم بناؤها ومحاذاتها في النهاية من أجل مصلحة البشر، سواء كانت اقتصادية أو أخرى، فستُقمع إلى حدّ لا يُذكر ما لم تخدم الأهداف البشرية التي تستخدمها.

هذا هو السبب في أن مصطلح "Agent" يُفهم بشكل خاطئ بهذه السهولة. تمتلك النماذج قدرات متزايدة على اتخاذ إجراءات مستقلة. لكن بمعنى بشري، لا يعني التمكين فقط اتخاذ الإجراءات. بل يعني أيضًا الرغبة من أجل الذات، وفعل الشيء من أجل المتعة فقط. وطاعة النموذج وفائدته تتعارض جوهريًا مع هذا النوع من التمكين. وبالتالي، حتى مع استمرار تقدم النماذج، ستظل الفجوة بين النموذج والإنسان قائمة.

العودة إلى زينو

وهنا أيضًا، يبدأ مفارقة زينون الخاصة بالذكاء الاصطناعي في التفكك. إنها في الواقع تجربة فكرية فوضوية. قمنا بتحديد استعارة: الذكاء الاصطناعي يسابقنا، ويلتصق بعقبينا.

أنت تُعطي النموذج مُحفزًا. يبدأ في خوض سباق كنت تُنافس فيه وحدك في الماضي. ينطلق النموذج بسرعة هائلة، مذهلة. إنه قوي، لا يتعب، ويشعر وكأنه كائن حي غريب. هذا يجعل السباق أكثر أهمية بالنسبة لك. أنت لا تُسابق سيارة، لكن هذا الشيء مختلف، فهو يجعلك تشعر أنك قريب منه.

أنت تجلس هناك، تشاهد الرموز تتدفق سطرًا بعد سطر، كأنك تقريبًا في حالة تأمل. ثم تبدأ في تخيل نفسك تجري في هذه السباق أيضًا، مع وجود نسخة شبحية لك مدمجة على المسار: أحيانًا أمام النموذج، وأحيانًا بجانبه.

بدون أن تلاحظ، وصل النموذج إلى المقدمة. بدأت تعرق.

ثم انتهت المسابقة.

يمكنك تقريبًا أن تشعر بعضلاتك وهي تبدأ في التآكل. أمام هذا النسخة الميكانيكية من نفسك، وكل من تعرفهم، وحتى البشرية بأكملها، تبدو عديمة الفائدة. شبح يطارد شبحًا آخر، ويفوز.

لكن بعد ذلك، حدث شيء غريب. تحول النموذج إليك. مربع النص الفارغ، المؤشر يومض بانتظار.

إنها في انتظار.

الخاتمة

روى الحاخام حنوك قصةً كالتالي: كان هناك رجلٌ أحمق جدًا في الماضي. كان يواجه صعوبة كبيرة في العثور على ملابسه كل صباح بعد الاستيقاظ، لدرجة أنه قبل النوم، كان يخشى الذهاب إلى السرير خوفًا من أن يضطر إلى تجربة هذا الإزعاج مرة أخرى في اليوم التالي.

ملاحظة: "الرابي" هو معلم ديني ومحرر شريعة ومرشد روحي في اليهودية، مشابه لـ "المعلم" أو "الكاتب" أو "القائد الديني" في التقاليد اليهودية.

في ليلة ما، قرر أخيرًا أن يأخذ ورقة وقلمًا، وفي أثناء خلع ملابسه، سجّل بدقة أين وضع كل قطعة ملابس.

في صباح اليوم التالي، أخذ الورقة بارتياح وبدأ في قراءتها: "القبعة" — كانت القبعة موجودة بالفعل، فوضعها على رأسه؛ "السراويل" — كانت السراويل موجودة، فلبسها. وهكذا، ارتدى الملابس واحدة تلو الأخرى وفقًا لما ورد في الورقة.

"كل هذا لا مشكلة فيه،" قال بذعر، "لكن أين أنا الآن؟"

أين أنا بالضبط؟

كان يبحث ويبحث لفترة طويلة، لكن كل ذلك كان عبثًا. لم يستطع العثور على نفسه.

كما نحن أيضًا،" قال الحاخام.

[رابط الأصل]

انقر لمعرفة الوظائف الشاغرة لدى BlockBeats

مرحبًا بانضمامك إلى المجتمع الرسمي لـ BlockBeats

مجموعة تليجرام للاشتراك: https://t.me/theblockbeats

مجموعة Telegram للنقاش: https://t.me/BlockBeats_App

الحساب الرسمي على تويتر: https://twitter.com/BlockBeatsAsia