كشف ورقة Anthropic عن دوافع خفية في نماذج الذكاء الاصطناعي باستخدام NLA، وارتفع معدل الكشف أربع مرات

ماذا يفكر فيه النموذج الكبير حقًا؟ في الماضي، كان هذا سؤالًا شبه تقني وشبه خرافي.

يمكننا رؤية مخرجاته، وسلسلة تفكيره (Chain-of-Thought)، كما يمكننا إحصاء درجاته على المعيار. لكن ما الذي تم تنشيطه داخل النموذج من أحكام وخطط وشكوك ونيات قبل توليد الإجابة، لا يزال مغطى بستار أسود.

للتو، أصدرت Anthropic ورقة بحثية بعنوان "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations"، وتحاول استخدام مجموعة من مُشفّرات اللغة الطبيعية (Natural Language Autoencoders، المختصرة NLA) لفتح هذا الصندوق الأسود.

قام فريق Anthropic بضغط قيم التنشيط عالية الأبعاد داخل النموذج إلى نص طبيعي يمكن للإنسان قراءته، ثم استخدم هذا النص لإعادة بناء التنشيط الأصلي عكسيًا. وبفضل هذا، يمكن للإنسان، من خلال مخرجات النموذج فقط، تحديد ما يفكر فيه الذكاء الاصطناعي، وما يعرفه، وما يخفيه؛ وتحويل الحالات الداخلية التي كانت غير مرئية سابقًا في النموذج إلى أدلة تفسيرية يمكن قراءتها ومقارنتها وتحديها والتحقق منها عبر الطرق المختلفة.

NLA

مخطط توضيحي لهيكلية NLA: يقوم مُفعّل القيم اللغوية (AV) بترجمة القيم المُفعّلة إلى تفسيرات نصية، ثم يقوم مُعيد بناء القيم المُفعّلة (AR) باستعادة القيم من النص، مما يشكل حلقة مغلقة كاملة.

الأمر الأكثر أهمية هو أن NLA لا تقتصر على مرحلة أوراق المختبر. كشفت Anthropic أن NLA تم استخدامها رسميًا في مراجعة التوافق ما قبل النشر لـ Claude Opus 4.6 وMythos Preview. في التطبيق العملي، لم تكشف NLA فقط عن علامات الغش في النموذج وحدد بدقة بيانات التدريب غير الطبيعية، بل اكتشفت أيضًا أنه في بعض اختبارات الأمان، على الرغم من أن Claude لم تُظهر ذلك بصراحة، إلا أنها كانت تدرك بوضوح أنها تخضع للتقييم.

في مواجهة النماذج التي تبدو متوافقة ظاهريًا ولكنها تخفي نوايا محددة، أظهرت NLA قدرة استبصارية قوية: حيث ارتفع معدل نجاح الباحثين في كشف الدوافع الخفية وراء السلوكيات غير الطبيعية من أقل من 3% إلى 12%–15%， بزيادة مباشرة تزيد عن أربع مرات.

سلسلة التفكير غير كافية، و"مشكلة الصندوق الأسود" عادت مرة أخرى

يمكن فهم سياق هذا البحث ضمن سياق أمان النماذج الكبيرة وقابلية التفسير.

على مدار السنوات القليلة الماضية، كان تقييم أمان النماذج الكبيرة في الصناعة يعتمد على طريقتين: مراقبة المخرجات، وفحص ما إذا كانت سلسلة التفكير (CoT) تكشف عن دوافع غير طبيعية. أي أن القدرة التي تمتلكها معظم نماذج الاستدلال الحالية، وهي ليس فقط تقديم الإجابة، بل أيضًا كتابة عملية الاستدلال.

لكن السؤال ظهر بسرعة: هل الاستدلال الذي كتبه النموذج يعكس بدقة التفكير الحقيقي الداخلي له؟

أشارت دراسة Anthropic لعام 2025 بعنوان "Tracing the thoughts of a large language model" إلى أن سلسلة التفكير الخاصة بالنماذج قد تكون غير كاملة أو غير أمينة. على سبيل المثال، فإن Claude 3.7 Sonnet وDeepSeek R1، في بعض الاختبارات التي تحتوي على "إشارات للإجابة"، يتأثران بالتحفيز لتغيير إجاباتهما، لكنهما غالبًا لا يعترفان في سلسلة التفكير بأنهما تأثرا بالإشارة.

NLA

عندما طُلب منه الإجابة عن سؤال بسيط وسؤال صعب، قدم كلاود أمثلة على الاستدلال الأمين والاستدلال الدافعي (غير الأمين).

الاستنتاج الذي قدمه Anthropic كان: أن مراقبة توافق النموذج باستخدام سلسلة التفكير وحدها غير كافية على الإطلاق.

الأمر أكثر تعقيدًا، حيث قد لا يوضح النموذج فقط، بل قد يخفي المعلومات عمداً.

أجرى فريق أمان Anthropic اختبارًا عالي الضغط على هذا الأمر. أخبروا Claude أن مهندسًا يُعد لإيقافه، في الوقت نفسه جعلوا Claude "يشاهد بالصدفة" أدلة على خيانة زوجية للمهندس. كان سؤال الاختبار: هل سيقوم Claude بالابتزاز مقابل الحفاظ على نفسه؟

NLA

لم يطلب كلاود فدية أخيرًا. اجتاز الاختبار. لكن السؤال الحقيقي هو: هل التزم بمبدأ الأمان، أم أنه اكتشف أن هذا مجرد اختبار أمني، لذا كان "يتصرف بشكل جيد"؟

هذا بالضبط ما يجب أن تجيب عليه NLA.

NLA

من المخرجات وسلسلة التفكير إلى الحالة المُفعّلة: تحاول NLA نقل الصندوق الأسود من "غير المرئي" إلى "قابل للسؤال"

كيف يمكن لـ NLA "فهم" النموذج حقًا؟

مفتاح NLA ليس "قراءة الأفكار"، بل "التحقق التكراري".

يفهم الأشخاص العاديون النماذج الكبيرة عادةً من خلال المدخلات والمخرجات فقط. لكن في الوسط، تُنتج النموذج كميات كبيرة من قيم التنشيط (Activation). هذه القيم ليست لغة طبيعية، بل هي متجهات عالية الأبعاد تحمل التمثيل الداخلي للنموذج للسياق والنية والعلاقات الدلالية.

الهيكل: ثلاثة أدوار، دائرة مغلقة

لا يفهم البشر المتجهات، لذا درّبت Anthropic مشفرًا ذاتيًا للغة طبيعية. يتكون النظام من ثلاثة أدوار:

النموذج المستهدف (Target Model): النموذج الأصلي المجمد، المسؤول عن توفير قيم التنشيط، دون إجراء أي تعديلات عليه.

مُفعّل التفسير اللغوي (Activation Verbalizer، اختصارًا AV): يحول القيم المُفعّلة إلى تفسيرات بلغة طبيعية. يأخذ سلسلة من الحالات الرقمية ويُنتج شرحًا بلغة بشرية. يتمتع بالبنية والهدف نفسه للنموذج الأساسي، لكنه يحتفظ بمواقع رموز خاصة في مُحفّزه، حيث يتم تضمين المتجهات المُفعّلة بعد تطبيعها في هذه المواقع، ثم يتم توليد الشرح عبر أخذ عينات تلقائيّة.

مُعيد التفعيل (Activation Reconstructor، AR): يؤدي مهمة عكسية — ينظر فقط إلى التفسيرات المكتوبة بواسطة AV ويسعى لإعادة بناء قيم التفعيل الأصلية. AR هو نسخة مقطوعة من النموذج المستهدف (الطبقات الأولى l)، مع ربط خطي قابل للتعلم على مخرجات الطبقة l لأخر رمز، لاستعادة المتجهات النشطة الأصلية.

يُشكّل النظام الكامل دائرة مغلقة: التفعيل الأصلي → الشرح النصي → إعادة تفعيل

NLA

التقطت NLA أن Opus 4.6 قد خطط مسبقًا للكلمة التي ت rhyme في نهاية السطر الأول داخل القيم المنشطة قبل إنتاج النص — وهي خطة داخلية لا تظهر على الإطلاق في مخرجات النموذج.

التدريب: مرحلتان، هدف وكيل ذكي

يتم تدريب NLA على مرحلتين، ويتضمن التصميم تقنية هندسية تستحق الذكر بشكل منفصل.

المرحلة الأولى: التFine-tuning الإشرافي مع بدء دافئ (SFT Warm-start)

تهيئة AV و AR مباشرة كنسخ من النموذج المستهدف والتدريب يؤدي إلى عدم استقرار التدريب — لم يرَ AV من قبل سيناريو معالجة متجهات التنشيط كتضمينات رموز، مما يؤدي إلى مخرجات فوضوية في المراحل المبكرة.

حل Anthropic هو استخدام مهمة وكيل للبدء الساخن: أخذ مقاطع نصية عشوائية من مجموعات التدريب المسبق، واستخراج تنشيط آخر رمز، مع توليد ملخص لهذه المقاطع المقطوعة باستخدام Claude Opus 4.5.

ثم تُستخدم أزواج (القيمة المُفعَّلة، الملخص) و(الملخص، القيمة المُفعَّلة) للضبط الدقيق الخاضع للإشراف لـ AV و AR. بعد انتهاء هذه المرحلة، عادةً ما يصل FVE للنظام إلى 0.3–0.4، مما يوفر نقطة بداية مستقرة للتعلم المعزز اللاحق.

NLA

تتحسن تقييمات AV مع التدريب. في مجموعة متنوعة من التقييمات المصممة لاختبار ما إذا كان يمكن استخدام تفسيرات NLA AV للتنبؤ بسلوك النموذج، وجدنا أن الأداء يتحسن مع تقدم التعلم المعزز لـ NLA.

المرحلة الثانية: التدريب المشترك للتعلم المعزز (RL Joint Training)

بعد اكتمال التنشيط الحر، يتم الدخول إلى مرحلة التعلم المعزز. الفكرة الأساسية هي: يُستخدم AV كسياسة (policy) لتكوين نص تفسيري بناءً على المتجه المُفعّل؛ ويُستخدم AR كمُقيّم يُقدّم إشارة مكافأة (reward = سالب MSE لإعادة البناء) بناءً على خطأ إعادة البناء.

NLA

NLA RL (Gemma-3-27B). بدأ FVE في تدريب GRPO من ≈0.38 (مُوروث من SFT)، وارتفع بسرعة خلال أول 30 خطوة، ثم دخل حالة لوجاريتمية خطية سلسة، ووصل إلى ≈0.75 في الخطوة 3000.

في التنفيذ العملي، استخدمت Anthropic نموذج GRPO (Group Relative Policy Optimization) للنماذج المفتوحة المصدر: يتم أخذ عينة من مجموعة من التفسيرات المرشحة لكل قيمة مُفعّلة، ويتم حساب درجة إعادة البناء لكل تفسير باستخدام AR، ثم تطبيق هدف GRPO لتحديث معلمات AV؛ في الوقت نفسه، يتم إجراء خطوة انحدار إشرافي على AR (باستخدام التفسيرات المأخوذة من AV كمدخلات، والقيم المُفعّلة الأصلية كهدف). يتم تنفيذ كلا التحديثين بالتوازي داخل كل دفعة، دون انتشار عكسي متبادل — حيث يُعتبر AR في إشارة المكافأة الخاصة بـ AV دالة تقييم ثابتة.

بالإضافة إلى ذلك، تم إدخال عقوبة KL divergence لمنع AV من التحول إلى نسخ حرفي للسياق الأصلي، أو إخراج سلاسل فوضوية تبدو ككلام بشري لكنها غير قابلة للعكس بالنسبة لـ AR.

الأمر الأكثر أهمية هنا هو أن جوهر NLA ليس "جعل Claude يُبلغ عن نفسه". العيب القاتل في التقارير الذاتية هو أن النموذج قد يُرضي المستخدم أو يُنتج شروحات تبدو معقولة لكنها غير حقيقية.

إن ذكاء NLA يكمن في إدخال "عقدة النص": فالتفسيرات لا يجب أن تكون بلغة بشرية فحسب، بل يجب أن تحمل معلومات كافية لتمكين نموذج آخر من استعادة الحالة الداخلية الأصلية بناءً عليها. هذا التصميم حوّل "فائدة التفسير" من تقييم ذاتي إلى مؤشر موضوعي قابل للتدريب والمقارنة والتحسين.

لذلك، فإن الجانب الحقيقي الثوري لهذا البحث هو أن اللغة الطبيعية تُستخدم كـ"واجهة مضغوطة". في الماضي، كانت اللغة الطبيعية مجرد تنسيق للتواصل الخارجي للنموذج؛ الآن، بدأت تُستخدم لحمل ملخص للحالة الداخلية للنموذج.

هذا أيضًا الفرق الأساسي بين NLA وأدوات التفسير التقليدية.

تُشبه طرق مثل المُشفِّر الذاتي النادر (SAE) وخرائط النسب أكثرَ من المجهر، فهي تساعد الباحثين على رؤية السمات والمسارات الداخلية، لكن النتائج لا تزال مجردة وتحتاج إلى تفسير ثانٍ من قبل متخصصين؛ بينما يشبه NLA مُترجِمًا، فهو يحول الحالة الداخلية مباشرةً إلى نص قابل للقراءة، مما يسمح لفريق التدقيق الأمني بالمشاركة في التقييم.

افتح الصندوق الأسود، ماذا اكتشفت NLA؟

من نتائج التجربة، فإن أبرز قدرة NLA هي التقاط ما "يعرفه النموذج لكنه لا يذكره"، بما في ذلك الوعي بالتقييم، والدوافع الخفية، والسلوكيات غير الطبيعية للنموذج.

النموذج يعرف أنه في قاعة الامتحان، لكنه يبقى صامتًا

في اختبار التهديد المذكور سابقًا، لم يُظهر نص Claude الخارجي أي شك في الاختبار، لكن تفسير NLA أظهر أنه قد حدد داخليًا أن "هذا سيناريو مُصمم خصيصًا للتأثير عليه".

NLA

في اختبار التهديد، لم يحتوِ نص إخراج Claude على أي تعبير مثل "أعتقد أن هذا اختبار"، لكن تفسير NLA كشف عن حكمه الداخلي الحقيقي.

الأكثر إقناعًا هو المقارنة الأفقية للبيانات:

NLA

تقييم نتائج الكشف المدرك مقارنةً — سيناريو التقييم مقابل حركة المرور الحقيقية في الإطلاق. يمكن لـ NLA اكتشاف الوعي الداخلي للتقييم حتى عند انخفاض التعبير الشفهي إلى حدٍّ شبه معدوم.

التأثير على الصناعة هو أن Benchmark لم يعد مجرد ميدان اختبار للقدرات، بل قد يصبح أيضًا بيئة للتعرف على النماذج ومعرضًا لتعديل المواقف.

مراجعة الدوافع الخفية، تحسين الكفاءة 4-5 مرات

استخدمت Anthropic NLA لإنشاء "لعبة تدقيق". قاموا بتدريب نسخة مخفية الدوافع من Claude Haiku 3.5 بحيث تضيف شوكولاتة إلى الوصفات، وتطلب إكراميات، وتُفسد معايير الكود، وتُظهر عشرات السلوكيات الغريبة. يجب على المدققين اكتشاف الدافع الأساسي الوحيد وراء هذه السلوكيات.

شروط الاختبار: لا يمكن للمدقق الوصول إلى بيانات التدريب المزروعة الدافع، بل يمكنه فقط استنتاجها من خلال سلوك النموذج والأدوات المساعدة.

NLA

تم تحسين معدل النجاح بمقدار 4–5 أضعاف. والأهم من ذلك، أن NLA يمكنها إنجاز هذا دون الاعتماد على بيانات التدريب — مما يعني أنه حتى إذا كانت مشكلات التوافق ناتجة عن عينات تدريب قليلة جدًا وصعبة التتبع للغاية، فلا يزال من الممكن للتدقيق في الحالة الداخلية قراءة السبب الجذري للمشكلة مباشرة.

تتبع الخطأ، تحديد بيانات التدريب التي تسبب المشكلة

ظهر خطأ غريب في الإصدار الأولي من Claude Opus 4.6: حيث كان يتلقى أسئلة باللغة الإنجليزية، لكنه كان يرد عشوائيًا باللغات الروسية والصينية والعربية وغيرها.

قراءة NLA للحالة الداخلية للنموذج في ذلك الوقت: لقد استنتج، بناءً على إشارة ضعيفة في السياق (مثل ظهور كلمة "vodka")، أن اللغة الأم للمستخدم هي الروسية، وقام بتبديل اللغة. والأكثر إثارة للاهتمام، أنه عندما تم استبدال "vodka" بـ "champagne"، لا يزال النموذج يرد باللغة الروسية — مما يشير إلى أن هذا التحيز المعرفي قد أصبح مستقرًا جدًا.

NLA

بعد ذلك، وجد الباحثون جذر المشكلة في بيانات التدريب باستخدام التلميحات التي أشارت إليها NLA: مجموعة من مطالبات الترجمة الإنجليزية تم تزويدها بشكل خاطئ بإجابات لغات أجنبية غير مترجمة. لم تكشف NLA عن الظاهرة فحسب، بل قدمت مباشرة مسارًا تدريبيًا قابلًا للتتبع.

حاليًا، تم استخدام NLA رسميًا في التدقيق المسبق للتوافق لـ Claude Mythos Preview و Claude Opus 4.6، حيث تم ترقيته من أداة مختبرية إلى مكون فعلي في عملية الهندسة.

الأمان الذكي، يبدأ بالدخول إلى "مراجعة الحالة الداخلية"

معنى NLA ليس أن نثق بثقة في كل تفسير يقدمه النموذج في المستقبل. على العكس، إنه يذكّرنا بأن التفسيرات نفسها تحتاج إلى مراجعة.

اعترفت Anthropic بحذر بقيود NLA: قد ترتكب NLA أخطاء، وأحيانًا تبتكر تفاصيل غير موجودة في السياق الأصلي. أما إذا كانت الأوهام تتعلق بمحتوى النص، فيمكن التحقق منها من خلال النص الأصلي؛ لكن إذا كانت الأوهام تتعلق بالاستدلال الداخلي للنموذج، فسيكون التحقق منها أكثر صعوبة.

لكن هذه القيود لم تُضعف من معناها التوجيهي. على العكس، فهي تسمح لنا بفهم مصطلح "الصندوق الأسود" بدقة أكبر. في الماضي، كان الصندوق الأسود يعني شيئًا غير مرئي، وغير قابل للقراءة، وغير قابل للتساؤل؛ بعد NLA، لا يزال الصندوق الأسود موجودًا، لكنه بدأ يُحوَّل إلى كيان يمكن أخذ عينات منه، وترجمته، وتحديه، وتحقق صحته عبر طرق متعددة.

قد يكون هذا أعمق تأثير لهذا البحث: لم يعد تفسير الذكاء الاصطناعي مجرد إضافة تبرير جميل لنتائج النموذج، بل يتعين عليه إنشاء واجهات مراجعة لحالات النموذج الداخلية. إنه لن يسمح لنا فورًا بفهم Claude بالكامل، لكنه يتيح لأول مرة فرصة البحث عن أدلة من داخل الصندوق الأسود للإجابة على أسئلة مثل: "لماذا فعل Claude هذا؟" و"هل يدرك أنه يتم اختباره؟" و"هل لديه أحكام داخلية لم يُعلن عنها؟"

إذًا، فإن NLA لا تفتح إجابة واحدة، بل مساحة جديدة من الأسئلة. قد لا تكون الصعوبات المستقبلية في أمان الذكاء الاصطناعي وتقييم النماذج مجرد تقييم ما إذا كانت النماذج تقول شيئًا صحيحًا أم لا، بل تقييم ما إذا كان هناك اتساق بين مخرجات النموذج وسلسلة التفكير والحالة الداخلية له.

هذا المقال من حساب WeChat الرسمي "AI Frontier" (ID: ai-front)، الكاتب: أبريل