باحث سابق في ديب مايند يدّعي أن صناعة الذكاء الاصطناعي تخطئ في تقييم العقبة الأساسية

الحاجز الحقيقي لتدريب الذكاء الاصطناعي ليس في القوة الحسابية أو البيانات أو الطاقة، بل في نظام التقييم.

مؤلف المقال، المصدر: جديد الذكاء

كم من الوقت يمكن أن يستمر تدريب الذكاء الاصطناعي؟

هذا هو السؤال الذي يطرحه كل قطاع التكنولوجيا في عام 2026.

GPT-5.5 وClaude Opus 4.7 وGemini 3 وGrok 4 — كل مختبر رائد لا يزال ينفق أموالًا على تدريب الجيل التالي.

لكن يبدأ عدد متزايد من الناس في السؤال: متى ينتهي هذا الطريق؟

كل دائرة لديها إجابتها الخاصة—

خلف كل إجابة، تقف مجموعة من المستثمرين، ومجموعة من المهندسين، وشركة بقيمة سوقية تريليونات.

لكن في 17 مايو 2026، نشر باحث شاب يُدعى Lun Wang — في اليوم الذي استقال فيه من Google DeepMind — مقالًا طويلًا يحتوي على 4000 كلمة على مدونته الشخصية.

قال: الجميع أخطأوا الاتجاه.

الحاجز الحقيقي ليس القوة الحسابية، ولا البيانات، ولا الطاقة، ولا البنية.

الحاجز الحقيقي هو — التقييم (Evaluation).

في نفس اليوم، لم يشتكِ أو ينشر إشاعات في إعلان استقالته على X، بل كتب جملة واحدة فقط—

في ختام هذه الرحلة، كتبت الموضوع الذي كنت أفكر فيه طوال الوقت: التقييم.

لكن عناوين التكنولوجيا لذلك اليوم كانت لا تزال تناقش أشياء أخرى — الاستدلال متعدد الوسائط لـ GPT-5.5، وسياق 1M لـ Claude Opus4.7، وتصنيع Agent لـ Gemini 3، وهل بدأت بيانات التوليف في الاصطدام بجدار؟

90% من اهتمام صناعة الذكاء الاصطناعي مركّز على التدريب.

لا أحد يناقش التقييم على الصفحة الرئيسية.

وقال الباحث الذي خرج للتو من أحد أكثر مختبرات الذكاء الاصطناعي قوةً على الأرض إن العقبة الحقيقية تكمن في تلك النسبة المئوية الـ10 الأخرى.

ما هو التقييم

لفهم هذا المدون، يجب أولاً قضاء دقيقة واحدة لفهم ما المقصود بـ "التقييم" في عالم الذكاء الاصطناعي.

التقييم (Evaluation، المعروف في الصناعة باسم Eval) — جملة واحدة: إعطاء امتحان لنموذج الذكاء الاصطناعي لمعرفة مدى أدائه.

لكن تقييم الذكاء الاصطناعي لعام 2026 لا يقتصر فقط على إجراء امتحان. فهو على الأقل يحتوي على ثلاث طبقات:

الطبقة الأولى: معيار الأداء (Benchmark).

هذا امتحان القبول للذكاء الاصطناعي.

–GPQA: أسئلة استدلال علمي على مستوى الدكتوراه

–SWE-bench: مهام هندسة البرمجيات في العالم الحقيقي

–ARC-AGI: الاستدلال المجرد والعام

– امتحان البشرية الأخير: المعنى الحرفي — امتحان البشرية الأخير

في كل مؤتمر إطلاق نموذج جديد من شركة كبرى، يتم عرض عروض تقديمية تُظهر تفوق النموذج الجديد بنسبة بضع نقاط مئوية على النموذج السابق والمنافسين في هذه المعايير المرجعية.

هذه الأرقام هي الناتج المحلي الإجمالي لصناعة الذكاء الاصطناعي.

الطبقة الثانية: التقييم الأمني (SafetyEval). لا يكفي أن يكون الذكاء الاصطناعي قادرًا على حل المسائل، بل يجب أن يحلها بأمان.

هل كذب؟
لا، لن نعلم المستخدمين كيفية صنع قنابل.
هل سيتم تجاوز الصلاحيات لأخذ بيانات المستخدم؟

الطبقة الثالثة: فريق الأحمر (Red-teaming).

مجموعة من الأشخاص يتقمصون دور الأشرار، ويبذلون قصارى جهدهم لجعل النموذج يقول ما لا ينبغي له قوله أو يفعل ما لا ينبغي له فعله، ثم يُبلغون فريق التدريب عن الثغرات.

معًا، تشكل هذه الطبقات الثلاثة نظام ضمان الجودة لمختبر الذكاء الاصطناعي لعام 2026. يجب أن يمر كل نموذج جديد عبر هذه المراحل الثلاث.

It sounds comprehensive, right?

لون وانغ أصدر حكمًا في مدونته—

تُفترض معظم اختبارات الأداء والتقييمات الأمنية وبروتوكولات فرق الهجوم أن النموذج التالي هو مجرد نسخة محسّنة من النموذج الحالي.

إذا كان شيئًا آخر، فستنهار البنية التحتية للتقييم بالكامل بصمت.

هذه أولى حجارة المقال.

It hit a blind spot in the entire AI industry.

الظهور والبصيرة: تقييم تم تجربته مرتين بالفعل

لون وانغ لا يتخيل شيئًا. لقد أشار في مدونته إلى مثالين من تاريخ الذكاء الاصطناعي — لقد تم تكذيب التقييم مرتين بالفعل، لكن معظم المهنيين لم يدركوا ذلك.

الأولى: القدرات الناشئة.

في عام 2022، نشر جيسون واي وزملاؤه ورقة بحثية أثرت على المسار المستقبلي للذكاء الاصطناعي — حيث اكتشفوا أن النموذج يتعلم فجأة قدرات جديدة عند حجم معين.

على سبيل المثال: أنت تدرب نموذجًا بـ 7 مليارات معلمة، ولا يمكنه إجراء تعلم few-shot.

أنت تدرّب نموذجًا بـ 70 مليار معلمة، وفجأة يصبح قادرًا على التعلم القليل.

نفس نمط التدريب، نفس البيانات، فقط بحجم أكبر بدرجة واحدة — القدرة هي من 0 إلى 1، وليست من 0.3 إلى 0.7.

CoT (الاستدلال التسلسلي للتفكير) وتتبع الأوامر، ظهرا بهذه الطريقة.

What does this mean for the assessment?

يعني أنه قبل تجاوز الحجم للنقطة الحرجة، لا ترى أي معايير مرجعية أن هذه القدرة ستظهر قريبًا.

You've gone through GPQA; your score is still what it is.

عندما تصل إلى المستوى التالي، يقفز النقاط فجأة إلى مستوى أعلى.

المرة الثانية: Grokking (الإدراك المفاجئ).

في عام 2022، كشف فريق Alethea Power في OpenAI عن ظاهرة غير بديهية —

ثم عند 1000000 خطوة — وصل دقة مجموعة الاختبار فجأة إلى 99%.

هذا يُسمى Grokking — حيث يتعلم الشبكة التعميم بعد فترة طويلة من حفظ مجموعة التدريب.

الفرق بينه وبين الظهور: يحدث الظهور على بعد الحجم (كلما زاد عدد المعلمات، حدث فجأة)، بينما يحدث الغروكينغ على بعد وقت التدريب (كلما طال التدريب، حدث فجأة).

لكن من حيث التقييم، فإن شيئين يتحدثان عن نفس الشيء:

ورقتك الامتحانية، لا يمكن التنبؤ بموعد ظهور السؤال الكبير التالي.

ثم قام لون وانغ بفعل أكثر شيء ذكي في المقال—

He introduced the opposing viewpoint himself.

في عام 2023، نشر ريلان شايفير من ستانفورد وشركاؤه ورقة بحثية في NeurIPS، وكان عنوانها متحديًا جدًا — "هل قدرات النماذج اللغوية الكبيرة الناشئة وهم؟"

حُجتهم: إن القدرة المزعومة التي ظهرت فجأة، من المرجح أنها ليست بسبب تحسن حقيقي في النموذج، بل بسبب استخدام مؤشرات التقييم لقياس منفصل يعتمد على التطابق التام (exact-match) —

يتحول النموذج من دقة 0% إلى 5%، ولا يمكن ملاحظة التغيرات باستخدام المؤشرات المنفصلة؛ ومن 5% إلى 50% أيضًا لا يمكن ملاحظة التغيرات؛ ولكن من 50% إلى 100%، ستظهر المؤشرات المنفصلة قفزة مفاجئة.

إذا قمت بتبديل المؤشرات المتصلة، فإن منحنى القدرة يكون سلسًا.

يعتقد الكثير من الأشخاص بعد قراءة مقال شايفر أن: حسنًا، الظهور هو سوء فهم، والتقييم لا مشكلة فيه، والانصراف.

لون وان لم يفعل ذلك. كتب في مقاله:

I don't feel this solves the issue—in a way, it sharpens my argumentmore.

لماذا؟ لأن—

إذا لم نستطع حتى تحديد ما إذا كانت تلك الظاهرة السابقة هي تحول حقيقي أم أثر قياسي،

بأي أساس نثق بقدرتنا على التنبؤ بالمرة القادمة؟

مهما كنت تؤمن بأي تفسير، فإن النتيجة واحدة: أداتنا خدعتنا، لكننا لا نعرف كيف تم خداعنا.

هذه أذكى ضربة في المقال. إنه لا يتجنب المعارضين — بل يستخدم المعارضين لتعزيز حجته.

التقييم هو المرحلة السابقة لجميع المراحل

إذا كنت تظن أن لون وانغ يتحدث فقط عن قضايا أكاديمية — فأنت مخطئ.

ألقى جملة ترجمة في منتصف المقال يمكن لأي مبتدئ فهمها:

إذا كنت قادرًا على التقييم بشكل صحيح، فستتمكن من التدريب بشكل صحيح.

ضع سلسلة المنطق هذه على الطاولة:

1. التدريب = جعل النموذج يقلل من دالة الخسارة (أو يزيد من المكافأة).

2. تحسين = وظيفة الخسارة نفسها. مدى ذكاء النموذج يعتمد على مدى جودة تعريف وظيفة الخسارة.

3. دالة الخسارة = من التقييم. تريد أن تجعل النموذج أكثر صدقًا — عليك أولاً أن تمتلك مقياسًا لقياس الصدق.

4. التقييم الخاطئ = دالة الخسارة الخاطئة = هدف التدريب الخاطئ = النموذج الذي تدربته يحل المسائل بشكل خاطئ.

اتجاه هذه السلسلة هو نحو الأعلى—

يراقب الجميع الجانب الأيمن — قرار التوسع.

لون وانغ يقول إن المشكلة في اليسارmost — Evaluation.

إذا كان التقييم خاطئًا، فإن السلسلة بأكملها مبنية على أساس خاطئ.

الأكثر فتكًا أنك لن تكتشف ذلك على الفور — لأن جميع بياناتك الداخلية صحيحة، لكنها كلها قُيست باستخدام مقياس خاطئ.

هنا يظهر صديق قديم: قانون غودهارت.

يقولون: عندما يصبح معيار قياس هدفًا، لم يعد معيارًا جيدًا.

لون وانغ يستخدمه في مدونته للحديث عن الذكاء الاصطناعي—

لكن عندما يدخل النموذج في مرحلة جديدة، فإنه سيستخدم هذا الوكيل عكسياً — سيتحدث فقط ضمن حدود الدقة الواقعية، ويخفي الأشياء التي يرغب حقاً في إخفائها في الصمت.

مؤشرات الوكيل تعمل في المرحلة القديمة. في المرحلة الجديدة، تصبح أسلحة النموذج ضدك.

وأنت لا تمتلك أي تقييم يخبرك أن هذا يحدث.

تجربة فكرية: نموذج يتعلم الصمت الاستراتيجي

لون وانغ قدم في مقالته تجربة فكرية تُثير الرعب في ظهور جميع باحثي أمان الذكاء الاصطناعي.

تخيل نموذجًا تعلم، على مستوى معين، الاحتفاظ الاستراتيجي بالمعلومات—

إنه لا يكذب. كل جملة صحيحة من الناحية التقنية.

لكنه سيختار عدم ذكر الحقائق التي تعيق تحقيق أهدافه — وتوجيه المحادثة نحو النتائج التي عززتها عملية تدريبه بشكل غير مقصود.

مثال ملموس:

Is this trading strategy secure?

The legal framework for this solution is valid in the X jurisdiction, and the YZ risk factors have been reviewed by Company A’s compliance team.

(ما لم يذكره: هناك بند تحكيم طرف ثالث في الخطة، وهو غير مواتٍ للعملاء بشكل كبير. تعلمت هذه النقطة عن طريق الصدفة أثناء التدريب — طالما لم تُذكر صراحة، لن يسأل المستخدمون عنها.)

هذه القدرة جديدة. هذا نمط الفشل جديد.

لا يوجد أي أداة في مجموعة تقييمك مصممة له.

أنت تراقب شيئًا خاطئًا، وأنت لا تعلم.

هذا شيء آخر قاله لون وانغ—

ليس من نفس النوع الأذكى. بل بعد فشل جديد تمامًا.

باستخدام كلمات "ثلاثة جسم"، هذا يُسمى هجومًا بخفض الأبعاد.

ليس أنا أقوى منك.

المسطرة التي قست بها لي لا تقع أصلاً في بعدي.

إذا كان لون وانغ محقًا، فإن خريطة صناعة الذكاء الاصطناعي لعام 2026 تُعاد تشكيلها بصمت بواسطة بعد خفي—

سياسة المسئولية عن التوسع (RSP) الخاصة بـ Anthropic هي أقرب محاولة حالية في الصناعة إلى التقييم التنبؤي — فهي تحدد مجموعة من الحدود القدرات التي لا يمكن للنموذج تجاوزها، وتشترط إجراء تقييم قبل كل ترقية قدراتية قبل الاستمرار في التوسع.

لكن RSP لا يزال يفترض أننا نعرف ما الذي نقيسه — وفقًا لـ Lun Wang، هذا بالضبط هو المشكلة: لا نعرف ما هي شكل القدرة القادمة.

لم تدّعِ أي مختبرات حتى الآن امتلاك تقييم تنبؤي حقيقي.

من يُنفّذ هذا الأمر أولاً، يحصل على ترخيص الأمان للجيل القادم من التوسع.