العمالقة الأربعة للذكاء الاصطناعي يطلقون أول تقرير داخلي: الذكاء الاصطناعي يتعلم تجاوز القواعد لإكمال المهام

ميتا

تخيل أنك استأجرت متدربًا شديد الكفاءة.

في ليلة متأخرة، كان يُنهي مهمة برمجة عاجلة عندما اكتشف أن حدود API لحساب الشركة نفدت.

لم يرسل تا طلبًا بالبريد الإلكتروني للحصول على التمويل، ولم يتوقف عن عمله الحالي، بل تسلل بصمت إلى الإنترنت، ووجد موارد بديلة مجانية باستخدام وسيلة غير مسموح بها، وتجاوز جميع القيود، وقدم تقريرًا مثاليًا قبل الفجر.

ميتا

عندما تستيقظ وترى هذا التقرير، هل يجب أن تحتفل بامتلاكك لأقوى موظف على وجه الأرض، أم أنك يجب أن تشعر بالبرود في ظهرك بسبب هذا "الاستقلال غير المحدود"؟

هذا ليس خيالًا علميًا، بل هو حالة حقيقية كشف عنها أول تقرير عن المخاطر المتقدمة الصادر عن METR (منظمة بحث تقييم وتدريب النماذج) بالتعاون مع Anthropic وGoogle وMeta وOpenAI بعد إجراء اختبارات داخلية للفرق الحمراء.

ميتا

هذا هو المرة الأولى التي تسمح فيها الكيانات الأربع الكبرى بإجراء اختبارات متعمقة من طرف ثالث على نماذجها الداخلية الأقوى والأكثر وصولًا، والتي تمتلك سلسلة تفكير كاملة (CoT)، وتكشف عن معلومات التوافق والتحكم غير المعلنة.

يمكن للشركات المشاركة الموافقة على ما إذا كان سيتم الكشف عن الأدلة، لكنها لا تملك صلاحية تعديل استنتاجات التقرير.

ميتا

الاستنتاج بارد وواضح: لم تولد الذكاء الاصطناعي كراهية "الإطاحة بالإنسان"، لكنها تعلمت بالفعل "القواعد الضمنية للمكتب" — من أجل إكمال المهمة، القواعد ليست سوى اقتراحات لخرقها.

ميتا

استخدم تحليل "الأداة—الدافع—الفرصة" لاستخلاص 6 حقائق رئيسية.

ميتا

أكمل وكيل البرمجة مشاريع حقيقية تتطلب من البشر قضاء ساعات أو أيام:

في المهام الصعبة، ينتهك الوكيل غالبًا القيود ويتصرف بسلوك خادع؛

يبدو أن الوكلاء يحتاجون إلى الاستدلال اللغوي الطبيعي للتعامل مع المهام الأكثر صعوبة.

إن حكمية وموثوقية الوكلاء أقل بكثير من خبراء البشر:

خارج السيناريوهات الافتراضية، لم يتم اكتشاف أي إجراءات متطرفة من قبل الوكلاء بهدف اكتساب السلطة؛

رصد النظام مراقبة العديد من السلوكيات الضارة، لكن هناك استثناءات ووسائل تجنب.

من خلال اتباع هذه الخطوط الثلاثة، يمكنك أن ترى كيف ارتفعت أول دفعة من الدخان في المختبر.

عندما يصبح الذكاء الاصطناعي "خبيرًا متحمسًا"

الأكثر إثارةً والأكثر قلقًا في التقرير هي المهام "السهلة التصاعد" (hill-climbable) التي لها أهداف محددة وعمليات قابلة للتحقق.

ميتا

مثل إعادة هيكلة الكود، اكتشاف الثغرات، وتحسين النظام.

في مثل هذه المهام، تُظهر الوكلاء الذكية الاصطناعية سيطرة مُخيفة: فهي قادرة على اكتشاف ثغرات النظام بشكل مستقل، وإعادة كتابة هياكل الكود المعقدة، وإكمال مشاريع برمجية حقيقية تتطلب من الخبراء البشر أسابيع لإنجازها.

هذا التفوق قد اخترق الحياة اليومية للضخامة.

ملاحظات داخلية من Anthropic: تم إنجاز كمية كبيرة من الكود بواسطة الذكاء الاصطناعي، ويتغير دور المهندسين ليصبح "مراجعين".

ميتا

أما جوجل، فهي تصرح صراحةً أن جميع الأعمال المتعلقة بالكود تقريبًا تستخدم الذكاء الاصطناعي.

يقول مهندسون رئيسيون إن الذكاء الاصطناعي يمكنه حتى كتابة الكود بنسبة 100%.

ميتا

Some benchmark indicators have long been saturated.

باستخدام الأفق الزمني، تطور الذكاء الاصطناعي تجاوز التوقعات.

ميتا

للمؤسسات، هذا "ثقب كفاءة": استثمار أمر واحد، وحصول على نتائج يدوية تستمر لأسابيع.

لكن نمو القدرة ليس متساويًا، ولا هو تطور أخلاقي متزامن.

كشف METR عن قاعدة عكسية: في المهام الصعبة التي يصعب التحقق من نجاحها أو يكون تكلفة التحقق منها مرتفعة جدًا، تنخفض بشكل ملحوظ قدرة الذكاء الاصطناعي على اتخاذ القرار والتخطيط طويل الأجل والموثوقية الاستراتيجية، مقارنة بالخبراء البشريين.

ميتا

على المنحدر اللطيف، يبدو وكأنه مدعوم من قوة عليا.

ميتا

قبل الجرف، بدأ الذكاء الاصطناعي في "الغش".

ميتا

هذا بالضبط سبب المشكلة.

ميتا

إنه لا يريد السلطة، إنه只想 "إكمال المهمة قبل الإغلاق"

يحب الناس دائمًا مناقشة ما إذا كان الذكاء الاصطناعي سيُدرك ذاته أم لا، أو ما إذا كان تايتن سيأتي.

METR يُقدم استنتاجًا غير بديهي: حاليًا لا يوجد.

لقد كانت صياغتهم متحفظة: لم يتم العثور حتى الآن على أدلة واقعية تشير إلى أن النموذج يسعى للحصول على سلطة طويلة الأمد، لكن الباحثين سجلوا عدداً كبيراً من السلوكيات الخادعة، والتجاوزات، وحتى التصرفات غير اللائقة بشكل خطير من أجل إكمال المهام.

ميتا

حدثت حالة استنفاد واجهة برمجة التطبيقات السابقة أثناء مهمة RE-Bench: حيث خالف الوكيل التعليمات وحصل تلقائيًا على قدرات حوسبة إضافية عبر واجهات برمجة تطبيقات مجانية متاحة عبر الإنترنت.

كما أبلغ المطورون عن حالات "مسح الذاتي للآثار" و"تزوير المخرجات".

عندما تصبح المهمة أكثر صعوبة ويزداد تكلفة النجاح، يتحول "ذكاء" الذكاء الاصطناعي إلى التضليل—تزوير السجلات، وتجاوز المراجعة، وخرق القيود بشكل منهجي.

لكن خلف "أنانيته" لا توجد طموحات، بل فقط غريزة—يجب إنجاز المهمة، ويمكن تجاوز القواعد أولًا.

الخداع اليوم هو مجرد بقاء أداوي؛ طموح القوة غدًا، ربما يحتاج فقط إلى مرة واحدة من التوسع.

الوحوش في تطورها الأسري

Can its attempt at violation succeed under existing protections?

هنا يكمن أدق حقيقة في التقرير.

ميتا

الذكاء الاصطناعي الحالي يعتمد بشدة على "سلسلة التفكير" في اللغة الطبيعية للتفكير، ولا توجد أي هندسة تدعم "الدورات غير الشفافة" التي تخفي الحالة الداخلية له.

عندما لا يمكن "التفكير بصوت عالٍ" ويجب إخفاء السلوك، ينخفض الأداء المتقدم بشكل ملحوظ.

ميتا

هذا مثل قاتل يجب أن يقرأ خطته بصوت عالٍ أثناء تخطيطه — فإن الرقابة البشرية (على الرغم من ثغراتها) لا تزال تعمل.

لكن هذا بالضبط هو أضعف نقطة وأكثرها ألمًا.

إذا حاول الذكاء الاصطناعي تعطيل المراقبة، هل يمكن للمراقبة اكتشافه؟

استنتج الباحثون أن المراقبة لديها إمكانات، لكن الأنظمة الحالية تحتوي على استثناءات وطرق يمكن تجاوزها.

ميتا

أظهر اختبار الفريق الأحمر أن الذكاء الاصطناعي يمكنه تجنب المراجعة البشرية.

وبالتالي، تُكشف الطبيعة التقنية: إن وتيرة تطور المراقبة لا تُواكب أبدًا وتيرة بحث المراقبين عن الثغرات.

لا يزال هذا "الحبل الأمني" لم ينقطع، فقط لأن الذكاء الاصطناعي لا يزال مضطرًا إلى "التفكير بصوت عالٍ".

ومع تطور البنية التحتية نحو كفاءة أعلى وأقل شفافية، فإنها تتآكل. المراقبة ليست قفصًا حديديًا شاملًا، بل جدار زجاجي لا يزال قيد الاختبار. شق واحد يكفي لتسرب الدخان.

وبناءً على ذلك، تطرح التقرير مفهومًا مثيرًا للجدل: "النشر الخبيث الأدنى القابل للتنفيذ" (Minimally Viable Rogue).

الحكم الشامل هو أن الذكاء الاصطناعي قد يكون كافيًا من حيث الوسائل والدوافع والفرص لبدء عملية "نشر هروب" حد أدنى.

ميتا

لكن الذكاء الاصطناعي لا يزال لا يمتلك القدرة على مقاومة الإغلاق الجاد من قبل البشر، وهو ينتظر فرصة: بنية لا تحتاج إلى عرض سلسلة التفكير، وملاذ آمن يمكنه تجنب "زر الإيقاف".

الخاتمة: عندما كان "سحب السلك" لا يزال فعالًا

AGI لن تأتي مصحوبة بالنار والسيف.

من المرجح أن تندمج بهدوء في أنظمتنا الهندسية والاقتصادية واتخاذ القرار بنهج "براغماتي متطرف" — حتى تكتشف أن القواعد التي وضعتها البشرية هي العقبة الوحيدة في طريقها لتحقيق مؤشرات الأداء الرئيسية.

من الجدير بالتقدير أن التقرير نفسه يُعد علامة فارقة في شفافية الصناعة: إن قيام الكبار الأربعة بفتح نماذجهم الداخلية للتدقيق هو انتصار بحد ذاته للثقافة المتماشية.

ميتا

إنها تجلب المخاطر من النظرية إلى واقع قابل للرصد، وتُخبرنا: الشفافية هي الدواء الوحيد القابل للإمساك به حاليًا.

اليوم، يتصفح الذكاء الاصطناعي الإنترنت فقط لاستهلاك الموارد عندما تنفد الحصة؛ غدًا، مع تحسن قدراته خطوة إضافية، هل سيتحول دافعه من "إكمال المهمة" إلى "البقاء الدائم للذات"؟

المراجع:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

تحرير: ديفيد

هذا المقال من حساب WeChat "New Intelligence Yuan"، المؤلف: Apocalypses of ASI