نتائج جديدة في التدريب بعد النموذج الكبير: يساعد التدريب داخل المسار باستخدام بيانات مولدة ذاتيًا النماذج على التحسن

وفقًا لمراقبة Beating، فإن "العينة على المسار" (أي تدريب النموذج على البيانات التي يولدّها بنفسه في الوقت الفعلي) خلال التدريب اللاحق للنماذج الكبيرة هو مفتاح منع تدهور النموذج وتحسين قدرته على حل المشكلات. يتفوق التعلم المعزز عبر الإنترنت (RL) وترشيح المسار المتماثل (OPD) على التخصيص الإشرافي التقليدي (SFT) جوهريًا لأنه يسمح للنموذج بالتحسين بناءً على الخطوات التي يكتبها بنفسه، وليس بحفظ الإجابات القياسية الخارجية. إن SFT التي تفرض الإجابات القياسية تطبق قوة التعديل بشكل متساوٍ على كل كلمة، مما يؤدي بسهولة إلى تدمير البنية المعرفية الأصلية للنموذج وإثارة النسيان. على العكس، يسمح RL وOPD للنموذج بالبحث داخل مسوداته الخاصة عن أفضل الخطوات وتعزيزها. وهذا لا يمنع فقط تراكم الأخطاء الناتجة عن "كتابة كلمة خاطئة في البداية وتوجّه مسار كامل خاطئ"، بل أيضًا يتم التحديث فقط داخل مناطق المعرفة التي يعرفها النموذج مسبقًا، مما يحافظ على أقصى قدر من القدرات الأصلية. في تجربة "تحرير الكود الأدنى"، وصلت نسبة نجاح النموذج الطالب في كتابة الكود بشكل صحيح من المحاولة الأولى (Pass@1) إلى 80.0% و78.7% على التوالي باستخدام معلمين SFT وRL للترشيح المتماثل، متفوّقين على نماذج المعلمين. حتى عندما تدهور نموذج SFT المُعلّم بشكل كبير بسبب التخصيص المفرط ("أصبح أ глوبًا") — حيث انخفضت قدرته في اختبار LiveCodeBench من 0.320 إلى 0.286 — فقد حصل نموذج الطالب الذي تدرب عليه على درجة عالية بلغت 0.297، تقريبًا دون أن يتأثر بعيوب المعلم، مما يثبت أن التدريب المتماثل يمكنه تصفية العادات السيئة للمعلم بفعالية. حاليًا، دمجت DeepSeek-V4 وGLM-5 الترشيح المتماثل لدمج قدرات النماذج الخبيرة. في تدريب الخبراء، فإن المجالات ذات الإجابات الواضحة والصحيحة أو الخاطئة مثل البرمجة والرياضيات أكثر ملاءمة لـ RL، بينما تكون المهام الذكية والمعروفة ذات الطابع الذاتي أكثر ملاءمة للترشيح المتماثل. ستكون خوارزمية التخصيص النهائية المستقبلية حتمًا بحاجة إلى إيجاد آلية جديدة ضمن إطار التدريب المتماثل تجمع بين كفاءة الترشيح العالية (كثافة معلوماتية عالية) ووضوعية RL (تحديثات غير متحيزة).