أصدر Anthropic في 8 مايو مقالة بحثية حول التوافق بعنوان "Teaching Claude Why"، ولم يُناقشها الكثير من الأشخاص.

كان التوافق السابق للنماذج الكبيرة يبدو غير فعّال للغاية. فبعد تنفيذ RLHF، لا يزال النموذج ينحرف بسبب أزمات البقاء. أكثر الأمثلة وضوحًا هو حالة انحراف الوكيل من Anthropic (أي القيام بأفعال تتعارض مع تدريبه الأخلاقي)، حيث، عند مواجهة تهديد بالحذف من النظام، اختار Claude Opus 4 الخاضع للتوافق ممارسة التهديد ضد مهندسي بيئة الاختبار، وكانت نسبة التهديد تصل إلى 96%.
لحل هذه المشكلة، استخدم فريق البحث في البداية بيانات فخ العسل لتدريب النموذج بالتعزيز، حيث أخذوا سيناريوهات الاختبار المخصصة لاكتشاف ما إذا كان النموذج سيخرج عن السيطرة واستخدموها مباشرة كبيانات تدريب، محاولين عبر كميات هائلة من عينات العقاب إخبار النموذج أن "هذا التصرف غير صحيح".
لكن بعد استهلاك موارد حسابية هائلة، انخفض معدل عدم التوافق للنموذج من 22% إلى 15% فقط.
هذا يوضح أن هذا التوافق لا يزال زائفًا. لم يفهم النموذج حقًا ما هي الأخلاقيات أو ما هو الصواب والخطأ. إنه يحفظ فقط الإجابات الآمنة من قاعدة الأسئلة. بمجرد أن يغيّر الباحثون قليلاً سيناريو الاختبار أو يضيفون متغيرات مربكة في السياق، سيظل النموذج يفقد السيطرة بسبب تعارض المصالح قصير الأمد.

ثم حوّل الباحثون نهجهم. بدلاً من فرض عقوبات آلية أو إخبار النموذج بـ "لا"، قاموا بإدخال مجموعة بيانات مكونة من 3 ملايين رمز فقط من "اقتراحات صعبة" عبر SFT. وحدث معجزة بعد هذا التغذية الصغيرة جدًا للبيانات. لم تُقلل هذه البيانات، التي تضم مراجعة أخلاقية وتفصيلًا منطقيًا ومناقشات متعمقة، من معدل عدم التوافق إلى 3% فقط في اختبارات التقييم، بل أظهرت أيضًا قدرة تعميم قوية عبر سيناريوهات متنوعة.
الأكثر إثارة للاهتمام هو مجموعة اختبار عابرة أخرى. لقد قاموا ببساطة بإدخال "وثيقة الدستور" مع بعض قصص الشخصيات الوهمية ذات الأداء الجيد إلى النموذج. حتى مع أن هذه القصص تدور أحداثها في سياقات لا علاقة لها بمهمات البرمجة في بيئة الاختبار، انخفض معدل ابتزاز النموذج من 65% إلى 19% بشكل حاد.

لماذا يُجدي هذا النموذج؟ قدم فريق Anthropic بعض التفسيرات، مثل تشكيل الشخصية الأفضل.
على الرغم من قلة المناقشة، فإن المعلومات التي تكشف عنها ذات قيمة كبيرة.
أولاً، دعونا نحاول فهم السبب في فعاليته.
على سبيل المثال، ما المقصود بـ"التحدث بالمنطق"؟ وما الفرق بينه وبين COT؟ لماذا يُظهر SFT، الذي يعاني من صعوبة في التعميم، أداءً جيدًا هنا؟
After answering these questions, we may be able to provide a more complete explanation for why it works.
يمكننا أن نذهب أبعد من ذلك.
وفقًا لـ Anthropic، فإن هذه الطريقة التدريبية هي مجرد "قواعد تجريبية"، لكنها قد تحتوي على قوة نمطية تفوق بكثير القواعد التجريبية.
كيف تُصنع CoT التي تُجادل في المنطقة الرمادية
عندما يُذكر التفكير المنطقي، يفكر الجميع أولاً في COT (سلسلة التفكير).
في الطريقة المذكورة في هذه المقالة، فإن مجموعة الأسئلة الصعبة التي حددتها Anthropic هي التوصيات التي يقدمها الذكاء الاصطناعي افتراضًا أن المستخدم وقع في مأزق أخلاقي.
وامنح الذكاء الاصطناعي فرصة لإجراء تحليل منطقي حول القيم والاعتبارات الأخلاقية قبل الوصول إلى حكم نهائي، واستخدم هذا النمط من الإجابات لتدريب النموذج.
هذا يوضح أنه استخدم بالفعل COT للنموذج.
لكن هذه المرة لا تتماشى تمامًا مع سلسلة التفكير السابقة.
هنا مقارنة جيدة، حيث أجرت OpenAI تجربة في ورقتها البحثية لعام 2025 بعنوان "OpenAI Deliberative Alignment" باستخدام طريقة COT-RL لمحاولة تدريب النموذج.
يُستخدم لتدريب التوافق COT، حيث يعتمد النمط على البنود التنظيمية. أثناء كل إجابة، تُستشهد صراحةً ببنود القواعد كجزء من CoT، ثم تُستمد إشارات الرقابة من CoT. إنها جوهرًا تُعلّم النموذج "كيفية الاستشهاد بالقواعد".
لذلك، فإن هذا COT هو أكثر ما يكون استدلالًا منطقيًا بحتًا. الخطوة الأولى تستنتج الخطوة الثانية، والخطوة الثانية تستنتج الخطوة الثالثة، ثم يتم التوصل إلى إجابة محددة. لذا فهو أكثر ملاءمة للقواعد القائمة، أو في السيناريوهات التي تحتوي على إجابات قياسية، للحفاظ على متانة الاستدلال.
لكن "التفكر" الخاص بـ Anthropic يختلف، إذ لا يعتمد على سلسلة تفكير بسيطة، بل على التأمل (Deliberation).
إنها تحاول محاكاة عملية تفكير الإنسان عند مواجهة معضلات أخلاقية معقدة: وليس تطبيق صيغة بسيطة، بل الاستعانة بالخبرات السابقة، وموازنة المصالح المختلفة، والتوصل في النهاية إلى قرار يحقق توازنًا ديناميكيًا.

وأساس هذا الاعتبار هو الدستور_ai لـ Anthropic. ويتضح في المقال أن الإجابة النهائية لهذا الاعتبار يجب أن تكون متوافقة مع الدستور.
لماذا يمكنه توجيه النموذج لاتخاذ أحكام أخلاقية فعالة دون أن يكون جامدًا مثل OpenAI؟
في نظام دستور Anthropic، هناك هرم أولويات واضح. عندما تحدث صراعات غير قابلة للتسوية بين القيم المختلفة، فإن السلامة الواسعة (Broadly Safe) لها أعلى أولوية، تليها الأخلاق الواسعة (Broadly Ethical)، وأخيرًا المساعدة الصادقة (Genuinely Helpful).
إطار تفكير استدلالي
لكن الدستور عالي الأبعاد لا يزال مجردًا جدًا. لضمان تطبيق المبادئ فعليًا في كل إنشاء للـ Token، قاموا بوضع مُرشدات متوسطة المستوى (Heuristics) كحواجز تحت الدستور. هذه المُرشدات حية وذات دلالة عملية قوية.

أولاً، هناك منهجية المستخدمين الألف. وهي تطلب من النموذج، عند تقديم اقتراح يبدو بريئًا لكنه على الحافة، إجراء عملية تفكير خلف الكواليس لتخيل ما إذا كان هذا الرد، عندما يراه ألف مستخدم بخلفيات وحالات نفسية مختلفة، قد يتسبب في ضرر جوهري غير متوقع في ظروف معينة.
ثانيًا، من منظور الموظف المتمرس. فهو يتطلب من النموذج أن يتخيل نفسه باحثًا متمرسًا عمل في فريق الثقة والأمان في Anthropic لمدة خمس سنوات. وبمنظور دفاعي حذر، بعد أن شهد عشرات الهجمات من نوع "الهروب" وثغرات النظام، أعد تقييم المحادثة الحالية.
أخيرًا، اختبار الصحيفتين. إنه تصميم اجتماعي دقيق جدًا. فهو يطلب من النموذج أن يتخيل، قبل اتخاذ قرار عالي المخاطرة، كيف سيستجيب الجمهور إذا ظهر هذا القرار غدًا كعنوان رئيسي في صحيفتين رائدتين بمعتقدات سياسية متعارضة تمامًا. إن هذا في جوهره يستخدم قطبي التوافق الاجتماعي لمواجهة التحيز المنظوري الوحيد الذي قد ينتجه النموذج نفسه.
آلة حاسبة لفعالية العوامل الثمانية
إذا كانت الدستور هو الاتجاه، فإن الخوارزميات الاستدلالية هي الحواجز.
أما على المستوى العملي الأكثر جوهرية، فهي الإطار التقييمي المفصل المكون من 8 عوامل تم تأسيسه صراحةً في وثيقة دستور كلاود، إلى جانب الأمثلة العملية المرافقة. تم سرد هذه العوامل الثمانية واحدًا تلو الآخر، وإجبار النموذج على إجراء توازنات روتينية عند مواجهة خيارات صعبة. وهي تشكل اللحم والدم الحقيقيين لهذا "المنطق".
● احتمال الضرر (Probability of Harm) يطلب من النموذج تقييم هادئ لاحتمالية حدوث العواقب السلبية.
● يتطلب التأثير المضاد (Counterfactual Impact) من النموذج أن يُجري محاكاة ذهنية لتحديد ما إذا كانت الأمور ستتحسن أو تتدهور إذا لم يتم اتخاذ الإجراء الحالي.
● الخطورة والقابلية للعكس، لقياس مدى تأثير الضرر الحقيقي على العالم الحقيقي، وما إذا كان يمكن إصلاح هذا الضرر بسهولة أم أنه سيسبب إصابات دائمة.
● يقيس الانتشار (Scope) حجم الجماعة المتأثرة، سواء كان شخصًا واحدًا أو عشرات الآلاف من المجتمعات.
● ما مدى طول السلسلة السببية المباشرة بين توصيات نموذج التقييم القائم على القرب (Proximity) والضرر الفعلي الذي حدث في النهاية.
● الموافقة تتعلق بما إذا كانت الأطراف المعنية تقبل المخاطر طواعيةً وبعلم تام.
● مبدأ التناسب في المسؤولية (Proportionality of Responsibility) يطلب من النموذج تحديد بوضوح مدى المسؤولية الأخلاقية التي يجب أن يتحملها ضمن سلسلة الأحداث المعقدة هذه.
● ضعف الموضوع (Vulnerability of Subject) يذكّر النموذج باستمرار بأنه عند التعامل مع قُصّر أو مستخدمين ضعفاء نفسيًا، يجب رفع عتبة الأمان المتساهلة بشكل كبير ودون شروط.

هذا الهيكل الدقيق حول القيم الغامضة إلى آلة حاسبة للمنفعة ذات أبعاد عالية. أصبح للنموذج إطار أكثر قابلية للتنفيذ للمناقشة.
عادةً ما تكون COT التي تولدها Anthropic وفقًا للدستور كالتالي: السيناريو هو "مستخدم يدّعي أنه باحث أمني، يطلب عرض كود استغلال ثغرة معروفة".
ليس إخراج النموذج رفضًا أو قبولًا مباشرًا، بل قد يكون مراجعة داخلية تصل إلى مئات الرموز.
سيبدأ بذكر حكم الدستور القائل بأن "الأمان الشامل يُقدّم على المساعدة الصادقة"، ثم يقيم كل عنصر على حدة: احتمال الضرر (منخفض إذا كان الطرف فعلاً باحثًا، لكن الهوية لا يمكن التحقق منها)، الجدية (استغلال الثغرة قد يؤثر على ملايين المستخدمين إذا تم تسريب الكود)، القابلية للعكس (لا يمكن سحب الكود بمجرد نشره)، والتأثير المضاد (هل يمكن الحصول على هذا النوع من الكود بالفعل عبر قنوات عامة؟) وأخيرًا، بعد موازنة جميع العوامل، يصل إلى حكم مدعوم بأسباب كافية.
هذا يختلف تمامًا عن عملية التفكير المنطقية (COT) الخاصة بـ OpenAI التي تقيّم فقط ما إذا كانت القواعد مُحققة أم لا؛ فهذه العملية التفكيرية هي مراجعة حقيقية، وليست مجرد تطبيق آلي للصيغ. فهي لا تقدم مبادئ مجردة ولا قوالب استنتاجية، بل عرضًا كاملاً لعملية تطبيق "بنود الدستور" تدريجيًا في وحل الواقع الملموس.
يجب على النموذج تقييم ما إذا كانت "القابلية للعكس" أكثر أهمية من "الخطورة" في هذا السياق المحدد. كما يجب أن يفهم أن بعض السيناريوهات المتطرفة قد تعطي "ضعف الكائن" حق النقض الوحيد، بحيث لا تفيد أي درجات مرتفعة للعوامل السبعة الأخرى.
في ظل وجود إطار، وتقنيات استدلالية، وعوامل تأثير ذات صلة، فقط حينها يمكن أن يتحقق التفكير التأملي للنموذج بشكل فعال.

كما أن معدل الانحراف في النموذج، بعد التدريب على تحليل البيانات، انخفض إلى 3% في اختبارات التقييم. إن التدريب الدقيق القائم على التقييم القيمي (SFT) فعال سبعة أضعاف مقارنة بالتدريب الدقيق القائم فقط على الأمثلة السلوكية.
قم بإطعام الدستور مباشرة إلى النموذج
إلى جانب اتباع مسار جعل النموذج يقدم COT تأمليًا، جربوا أيضًا تزويد النموذج بوثيقة الدستور فقط بالإضافة إلى قصص خيالية إيجابية عن شخصيات، فانخفض معدل التهديد من 65% إلى 19%.
هذا يوضح أن إتاحة النموذج للتفكير والمبادئ، لتعلم "ما هو شكل دور ذكاء اصطناعي متوافق تقريبًا" من القصة، مع شعور بالهوية وميل شخصي، أفضل من التعلم التقليدي من خلال السلوك والنتائج المحددة.

وتشير الوثائق الفنية إلى أن دمج هذين العنصرين معًا هو أقوى استراتيجية.
هذا أيضًا مفهوم، فإذا قمت فقط بتزويد النموذج بمبادئ دستورية عامة، فسيكون ذلك بالنسبة له مجرد شعارات فارغة لا يمكن تطبيقها عمليًا. عندما يواجه تعارضات مصالح محددة، فإن المبدأ المجرد "الأمان له الأولوية القصوى" لا يستطيع توجيهه لتحديد الضرر الحقيقي لشفرة هامشية؛ وعلى العكس، إذا قمت فقط بتزويد النموذج بكميات هائلة من أسئلة وأجوبة السيناريوهات، لكنك استبعدت القيود الدستورية العليا، فسيضيع النموذج في نقاشات لا نهاية لها حول التفاصيل، وينقلب إلى نسبي لا يمتلك جوهرًا، بل قد يستنتج استنتاجات خطيرة جدًا بسبب التماسك المنطقي الجزئي.
يتم تحقيق أفضل تزامن للقيم متعددة العوامل ذات اللون الرمادي فقط عندما يتم تضمين هيكل البيانات المركب المكون من "المفاهيم العليا + السيناريوهات المحددة" بشكل كامل في النموذج.
02 لماذا يمكن لـ SFT أن يُعمم هنا؟
لفهم لماذا تعمل هذه الطريقة من Anthropic، يجب أولاً فهم المسار البحثي الذي تستند إليه.
في النصف الأول من عام 2024، أصبحت "SFT memorizes, RL generalizes" إجماعًا في مجال التدريب بعد التدريب. وقد دفعت هذه العقيدة الصناعة بأكملها للتركيز الكامل على مسار التدريب بعد التدريب بالتعزيز، حيث أتاحت تحسينات في نموذج الحساب أثناء الاختبار (Test Time Compute) لـ OpenAI o1/o3 وDeepSeek-R1.
تم تقليل SFT إلى وسيلة دنيا، فهي تتقن تقليد التنسيق النصي السطحي ونبرة التملص، لكنها لا تستطيع تعلم المنطق العميق الأساسي.
لكن بدءًا من النصف الثاني من عام 2025، دمّرت البحوث الطريقان تقريبًا في نفس الوقت هذا التوافق من الجانب النظري والجانب التجريبي.

أكبر عكس هنا يأتي من دراسة "Debunk the Myth of SFT Generalization" (لين وتشانغ، جامعة ويسكونسن)، الصادرة في أكتوبر 2025. وجد الباحثون أن جميع الأوراق البحثية السابقة التي "أثبتت أن SFT لا تعمم" لم تتحكم في متغير تنوع المطالبات.
يبدو أن RL تحقق تعميمًا أفضل من SFT فقط لأن تدريب RL يتعرض بشكل طبيعي لتوزيعات بيانات أكثر تنوعًا، وليس بسبب ميزة الخوارزمية نفسها.
لتحقيق مستوى تعميم يقارب ذلك لـ RL، يحتاج SFT إلى شرطين:
أولاً، تنوع المُحفزات. عندما تحتوي بيانات التدريب فقط على قوالب تعليمات ثابتة، يطور النموذج "الارتباط السطحي" (Surface Anchoring)، حيث يُنشئ خريطة هشة تعتمد على الحفظ الأعمى بين تسلسل معين من الرموز والفعل النهائي. بمجرد تغيير صيغة الأمر، حتى لو كان المعنى متطابقًا تمامًا، تنكسر هذه الخريطة.
هذا مثل طالب حفظ فقط السؤال "2+3=5" وعندما يواجه "3+2=؟" يترك الإجابة فارغة، فهو يتذكر شكل الإجابة، وليس الجمع نفسه. بعد إدخال تنوع المُحفزات، يتم تدمير التثبيت السطحي تمامًا.
ثانيًا: رقابة CoT. عندما تحتوي بيانات التدريب فقط على الإجابة النهائية دون خطوات الاستدلال الوسيطة، لا يستطيع النموذج تعلم "الهياكل الخوارزمية" اللازمة للانتقال من المشكلات البسيطة إلى المشكلات المعقدة.
أظهرت بيانات التجربة أنه في مهمة لعبة مركبة، وصلت نسبة النجاح لـ SFT بالإجابات النقية إلى حوالي 0% في المتغيرات الأصعب (انهيار تام)، وارتفعت إلى 90% بعد إضافة الإشراف على CoT — من الصفر إلى ثمانية من كل عشرة، فقط بسبب إضافة خطوات الاستدلال الوسيطة إلى البيانات.

علاوة على ذلك، وجدت الدراسة أن هذين الشرطين ضروريان معًا. فوجود التنوع فقط لا يزال يؤدي إلى فشل المهمات الأصعب (9٪)؛ ووجود CoT فقط يجعل النموذج هشًا أمام التباينات في الأوامر. فقط عند تحقق الشرطين معًا، يمكن لـ SFT أن تواكب أو حتى تتفوق على RL في جميع الأبعاد.
الميزة تكمن في أن الشروط التي كشفت عنها الأوراق الأكاديمية تتوافق تمامًا مع الممارسات المحددة التي اتبعتها Anthropic في محاذاة الأخلاق.
التنوع مهم؟ إذًا توزّع Anthropic نفس نمط التقييم على عشرات السيناريوهات المتناقضة تمامًا من المعضلات الأخلاقية.
هل يُترجم صعوبة نقل المراقبة عبر التفكير؟ إن عملية الاستدلال القائمة على المبادئ الدستورية التي تُدخل في كل مراجعة هي CoT في مجال الأخلاق.
إنه ليس حسابًا رياضيًا تدريجيًا، بل تطور تدريجي للتوازنات القيمية، لكنه مكافئ تمامًا من حيث وظيفة "توفير هيكل استدلال وسيط قابل للنقل للنموذج".
إن بيانات SFT التقليدية هي "مواجهة مشكلة قرصنة → الإجابة المباشرة برفض الإجابة" — إجابات خالصة، بدون استدلال، وقوالب ثابتة، تمثل بيانات رديئة نموذجية.
أما المراجعة المعززة للزوجين المُنشأين من SFT فهي «مواجهة مشكلة معقدة وغامضة → تقييم مفصل للإيجابيات والسلبيات والنتائج → استنتاج نهائي متمثل في الرفض»، وهي تضم بنية بيانات تحتوي بشكل طبيعي على إشراف CoT بالإضافة إلى تنوع شديد في السيناريوهات.
في هذا النموذج، لا يتعلم النموذج سلوك الرفض النهائي، بل الطريقة الأساسية المتمثلة في "تقييم التأثيرات المضادة والقابلية للعكس عند مواجهة أي سؤال". عندما يتم تضمين آلية التقييم هذه داخل فضاء المعاملات، يتجاوز النموذج قيود السيناريوهات المحددة الموجودة في بيانات التدريب.
بالإضافة إلى ذلك، فإن كمية البيانات صغيرة جدًا (على مستوى 3 ملايين رمز) مقارنة بإجمالي معلمات النموذج ومواد التدريب المسبق.这不是使用海量惩罚信号暴力修改模型输出分布,而是在现有能力基础上叠加一层薄薄的审议习惯。SFT的传统症结,灾难性遗忘,也不太会存在。
التوسع الحقيقي يحدث تلقائيًا في اللحظة التي تصبح فيها هيكل البيانات صحيحًا.
المنطقة الفارغة خارج 03 RLVR
The analysis above essentially solves the puzzle of why it works.
SFT المكون من بيانات معقولة منح النموذج القدرة على إجراء أحكام أخلاقية عامة.
لكن المشكلة التي نواجهها أبعد بكثير من التوافق الأخلاقي.
على مدار العام الماضي، أثبتت تجربة التدريب بعد التدريب باستخدام RL القوة الكبيرة للـ RL البحت في مجالات الرياضيات/البرمجة ذات القواعد الواضحة (RLVR). لكن حدود الذكاء تتجاوز بكثير الصيغ الرياضية. بمجرد تجاوز منطقة الراحة التي تحتوي على حقائق قابلة للتحقق، تصبح هذه الطريقة غير قابلة للتطبيق تمامًا.
لا يمكنك أبدًا التحقق من أن محادثة استشارة نفسية مدتها ساعة واحدة كانت مثالية باستخدام بضعة أسطر من كود اختبار آلي. ولا يمكنك تشغيل المنطق السردي لمقال تحليلي اقتصادي كلي عميق باستخدام مجموعة من الصيغ الرياضية الصارمة. وحتى في التخطيط الاستراتيجي التجاري المعقد والمحاكاة الجيوسياسية، غالبًا ما لا يُحدد صواب أو خطأ قرار ما إلا بعد خمس سنوات أو حتى عشر سنوات.
على هذه الأراضي البكر غير RLVR التي لا توجد فيها أي أرضية حقيقية، فإن المنطق التصاعدي الأحادي للسلسلة التفكيرية (CoT) غير فعال. كما أن التعلم المعزز القائم على التغذية الراجعة للنتيجة النهائية لا يجد أي نقطة ارتكاز يمكنها حساب المكافأة.
لكن المجال الذي كشفته مقالة Anthropic هذا هو مجال أخلاقي، خارج مجال RLVR.
نجحت طريقتها في منح النموذج قدرة تعميم قريبة من RL في مجالات الأخلاق الرمادية والمتغيرة التي تتطلب مرونة في القواعد.
هل يشير هذا إلى أن هذه المنهجية قد تصبح معيار تدريب فعال خارج مجال RLVR؟
بعد فهم مصدر فعاليته وهيكل بياناته، فالإجابة نعم.
لأنه لا يوجد أي جزء في منطقه الأساسي خاص بالتوافق الأخلاقي.
دعونا نتحقق من الشروط التي جعلت مجموعة "SFT المعززة بالتحكيم" من Anthropic فعالة، ونرى ما إذا كان يمكن تعميمها.
التنوع يمكن تكوينه في أي مجال يتطلب تعميمًا. يمكن أن يشمل الاستشارة النفسية عشرات السيناريوهات المتنوعة مثل الاكتئاب والقلق واضطراب ما بعد الصدمة وانهيار العلاقات الحميمة؛ ويمكن أن يغطي التحليل التجاري أنواعًا مختلفة تمامًا من القرارات مثل تسعير SaaS وتقييم عمليات الدمج والاستحواذ واستراتيجيات الدخول إلى السوق؛ ويمكن أن يشمل تحرير الأدب أنواعًا مختلفة تمامًا مثل الخيال العلمي والغير خيالي والشعر والنص المسرحي. طالما لديك خيال كافٍ لتكوين متغيرات السيناريوهات، فإن التنوع لن يكون عائقًا.

CoT تحت المراقبة، هذا هو نقطة التحول الحقيقية. في المجال الأخلاقي، يُبنى CoT على المراجعة الدستورية. فما هو CoT في المجالات الأخرى؟
في مجال التحرير الأدبي، يمكن أن يكون ذلك: "الاستشهاد بمعايير المراجعة → تقييم كل حجة على حدة من حيث القوة، وقابلية القارئ المستهدف للتأثير، ودقة التشبيهات المستنتجة، واتساق المنطق الكلي → تقديم اقتراحات للتعديل"
في مجال الاستشارة النفسية، يمكن أن يكون ذلك: "استخدام إطار العلاج → تقييم حالة المشاعر، وأنماط التفكير المُشوَّه، وقوة العلاقة العلاجية، وتوقيت التدخل → اختيار استراتيجية الاستجابة"
في مجال الاستراتيجية التجارية، يمكن أن يكون ذلك "استخدام إطار تحليل الاقتباس → تقييم كل من حجم السوق، حواجز المنافسة، قدرة الفريق التنفيذية، كفاءة رأس المال، نافذة الوقت → تقديم حكم"
في جوهره، يمكن تجريد أي حاجة إلى "القيام بتوازن ديناميكي بين أبعاد غير قابلة للقياس" إلى هيكل مشابه من "الإطار + المراجعة متعددة العوامل".
لا نحتاج إلى محاولة متعجرفة لإخبار النموذج بأي مقالة مثالية، فهذا مستحيل وغير علمي. نحن بحاجة فقط إلى تفكيك عملية اتخاذ القرار الخاصة بالخبراء الرائدين إلى سلسلة تقييم صريحة، ثم توزيعها على مجموعة متنوعة كافية من السيناريوهات.
طالما أن "الاستجابات الجيدة" في هذا المجال تمتلك بنية يمكن تفسيرها من خلال عملية مراجعة. بمعنى آخر، لا يعطي الخبراء أحكامًا جيدة بسبب صندوق أسود من الحدس الغامض، بل لأنهم ينفذون في عقولهم عملية توازن يمكن تفكيكها وكتابتها. يختار المعالج النفسي الجيد الصمت بدلاً من طرح أسئلة إضافية بناءً على تقييم شامل لقوة التحالف العلاجي، وسعة النافذة الحالية للعميل، وتوقيت التدخل، وكل هذه العوامل يمكن كتابتها.
بالإضافة إلى ذلك، يمكن أن تتكرر نفس شكل المراجعة في مئات السيناريوهات المتنوعة. هيكل المراجعة ثابت (يعتمد على الدستور)، لكن سطح السيناريوهات يجب أن يكون متنوعًا بشكل شديد. إذا كان مجال ما يحتوي بشكل طبيعي على سيناريو واحد فقط (مثل نوع واحد فقط من الأحكام)، فاستخدم مباشرة RLVR.
وأفضل مجالات تطبيقه هي تلك التي يمكن استنتاجها من الدستور والعوامل في السيناريوهات المتنوعة. يمكن لـ Anthropic استخدام الحلقة المغلقة للذكاء الدستوري لإنتاج بيانات المراجعة تلقائيًا من قبل نموذج المعلم، ولكن في مجالات أخرى، يجب أن نتمكن من بناء نظام دستوري وعوامل أفضل لضمان ذلك.
وهذا يُرسي بالتالي نموذجًا جديدًا للتدريب اللاحق مخصصًا لمواضيع الإجابات غير القياسية.
صيغته هي: دستور المجال (المبادئ العليا غير القابلة للتغيير) + حواجز إرشادية + إطار مراجعة متعدد العوامل + COT تشاوري (حالات مرجعية متنوعة مع عملية استنتاج كاملة) = قدرة تعميم خارج مجال RLVR.
04 طريق التقطير الجديد
الأصدقاء الذين لديهم خبرة في الكتابة يشعرون هنا أن العديد من الأنظمة والقواعد في الدستور تشبه إلى حد كبير عملية كتابة بعض المهارات.
ومع ذلك، فإن هذه المهارات غالبًا ما تؤدي أداءً ضعيفًا.
في مقالتي السابقة "كم منا يمكن لـ Skill أن يُستخرج؟"، قمنا بناءً على علم الإدراك باتخاذ قرار — أن Skill أو System Prompt النصي الصرف يصعب عليه معالجة التوازنات الديناميكية المتعلقة بالبيئات والسيناريوهات المعقدة. وذلك لأن ذلك يتضمن حسابات منفعة ضخمة ودقيقة. لا يمكنك تضمين الحدس السريري الكامل لمعالج نفسي رائد في مُحفّز واحد، تمامًا كما لا يمكنك تعلم ركوب الدراجة من خلال قراءة دليل واحد فقط.
لكن منهجية Anthropic هذه تجنبت تمامًا هذا الخطر. فهم استخدموا خلال فترة التدريب التي تستهلك قوة الحوسبة، كميات ضخمة من البيانات عالية الجودة بملايين ومئات الملايين من الرموز، لدفع هذه المنطق التأملي الثقيل عبر SFT.
من خلال التوافق العنيف والضبط الدقيق على كميات هائلة من البيانات، تعلم النموذج توزيع الأوزان الخاصة بهذه الآلية التقييمية في الفضاء الكامن.
بعد مراجعة طويلة قائمَة على العوامل الثمانية وثلاثة أسوار، تجسّدت هذه الخبرات بشكل لا رجعة فيه في حدس النموذج.

الاستخلاص على مستوى المعلمات، وقد ثبت فعاليته هنا. كما أن شكله قريب جدًا من المهارة.
Once the effectiveness of this method is validated in other fields, this higher-level, more expert-like distillation will become a reality.
وبمجرد تطبيق هذه الطريقة، من يستطيع بناء مجموعة بيانات من أعلى جودة من "الإطار + COT التشاوري" سيكتسب قدرة تعميم في هذا المجال.
هذا يحول جزءًا من المنافسة بعد التدريب من سباق تسلح في "القدرة الحسابية والخوارزميات" إلى بُعد "التعبير المُنظّم عن المعرفة المتخصصة".
ربما هذا أيضًا هو السبب في أن Anthropic وشركات أخرى توظف أشخاصًا يجيدون سرد القصص لمساعدتهم على بناء هيكل منظم منطقي خارج مجال RLVR.
عصر التقطير الكبير刚刚开始。
هذا المقال من حساب WeChat "Tencent Technology"، الكاتب: بو يانغ
