وفقًا لمراقبة Beating، فإن "العينة على المسار" (أي تدريب النموذج على البيانات التي يولدّها بنفسه في الوقت الفعلي) خلال التدريب اللاحق للنماذج الكبيرة هو مفتاح منع تدهور النموذج وتحسين قدرته على حل المشكلات. يتفوق التعلم المعزز عبر الإنترنت (RL) وترشيح المسار المتماثل (OPD) على التخصيص الإشرافي التقليدي (SFT) جوهريًا لأنه يسمح للنموذج بالتحسين بناءً على الخطوات التي يكتبها بنفسه، وليس بحفظ الإجابات القياسية الخارجية. إن SFT التي تفرض الإجابات القياسية تطبق قوة التعديل بشكل متساوٍ على كل كلمة، مما يؤدي بسهولة إلى تدمير البنية المعرفية الأصلية للنموذج وإثارة النسيان. على العكس، يسمح RL وOPD للنموذج بالبحث داخل مسوداته الخاصة عن أفضل الخطوات وتعزيزها. وهذا لا يمنع فقط تراكم الأخطاء الناتجة عن "كتابة كلمة خاطئة في البداية وتوجّه مسار كامل خاطئ"، بل أيضًا يتم التحديث فقط داخل مناطق المعرفة التي يعرفها النموذج مسبقًا، مما يحافظ على أقصى قدر من القدرات الأصلية. في تجربة "تحرير الكود الأدنى"، وصلت نسبة نجاح النموذج الطالب في كتابة الكود بشكل صحيح من المحاولة الأولى (Pass@1) إلى 80.0% و78.7% على التوالي باستخدام معلمين SFT وRL للترشيح المتماثل، متفوّقين على نماذج المعلمين. حتى عندما تدهور نموذج SFT المُعلّم بشكل كبير بسبب التخصيص المفرط ("أصبح أ глوبًا") — حيث انخفضت قدرته في اختبار LiveCodeBench من 0.320 إلى 0.286 — فقد حصل نموذج الطالب الذي تدرب عليه على درجة عالية بلغت 0.297، تقريبًا دون أن يتأثر بعيوب المعلم، مما يثبت أن التدريب المتماثل يمكنه تصفية العادات السيئة للمعلم بفعالية. حاليًا، دمجت DeepSeek-V4 وGLM-5 الترشيح المتماثل لدمج قدرات النماذج الخبيرة. في تدريب الخبراء، فإن المجالات ذات الإجابات الواضحة والصحيحة أو الخاطئة مثل البرمجة والرياضيات أكثر ملاءمة لـ RL، بينما تكون المهام الذكية والمعروفة ذات الطابع الذاتي أكثر ملاءمة للترشيح المتماثل. ستكون خوارزمية التخصيص النهائية المستقبلية حتمًا بحاجة إلى إيجاد آلية جديدة ضمن إطار التدريب المتماثل تجمع بين كفاءة الترشيح العالية (كثافة معلوماتية عالية) ووضوعية RL (تحديثات غير متحيزة).
نتائج جديدة في التدريب بعد النموذج الكبير: يساعد التدريب داخل المسار باستخدام بيانات مولدة ذاتيًا النماذج على التحسن
MarsBitمشاركة
أظهرت أبحاث جديدة أن التدريب داخل المسار باستخدام بيانات مولدة ذاتيًا يعد طريقة رئيسية لتعزيز أداء النموذج وتجنب التدهور. على عكس SFT التقليدي، يسمح التعلم المعزز عبر الإنترنت والتدريج داخل المسار (OPD) للنماذج بتحسين خطواتها في الوقت الحقيقي. أظهرت الاختبارات الحديثة أن النماذج الطلابية المدربة بهذه الطريقة تفوقت على النماذج المرشدة، حتى مع تأثير بيانات التضخم والتغيرات السوقية على المعايير الخارجية. وتستخدم بالفعل منصات مثل DeepSeek-V4 وGLM-5 هذه الطريقة لدمج المعرفة المتخصصة. وقد تستفيد قوائم الرموز الجديدة من نماذج أكثر دقة وتكيفًا باستخدام التدريج داخل المسار.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.