يكسر فريق وان غوان، خريج كلية تشينغهوا من فئة عام 2000، النموذج التقليدي للتدريب المسبق للنماذج الكبيرة:
استخدموا نموذج التكرار الطبقي (HRM) بدلًا من Transformer القياسي، واقترحوا HRM-Text فعالًا للتدريب المسبق يتجاوز التحجيم.

رابط الورقة البحثية: https://arxiv.org/abs/2605.20613
على الرغم من استخدام HRM-Text لعدد أقل بحوالي 100-900 مرة من رموز التدريب مقارنة بنموذج baseline القياسي، وكمية حسابية مقدرة أقل بـ 96-432 مرة، فقد حقق أداءً يعادل نماذج مفتوحة المصدر ذات 2B إلى 7B معلمة.
في الوقت نفسه، حقق HRM-Text باستخدام 1B معلمة و40B رمز غير مكرر وتكلفة تدريب تقارب 1500 دولار، النتائج التالية في الاختبارات المرجعية الرئيسية: MMLU 60.7% وARC-C 81.9% وDROP 82.2% وGSM8K 84.5% وMATH 56.2%.

الرسم التوضيحي | كفاءة التدريب المسبق.
على هذا الأساس، حددوا بوضوح أن المقدمات الهيكلية وأهداف التدريب المستهدفة يمكنها تقليل عتبة التدريب المسبق بشكل ملحوظ. يمكن لهذا البرنامج التدريبي جعل تدريب النماذج الأساسية من الصفر ممكنًا.
كيف تم تصميم HRM-Text؟
يصبح تدريب نماذج اللغة الكبيرة (LLM) أكثر اعتمادًا على عدد قليل من المؤسسات التي تمتلك موارد حوسبة وبيانات كافية. غالبًا ما يتطلب تدريب نموذج أساسي تنافسي تريليونات من الرموز، وألوفًا من وحدات معالجة الرسومات (GPU)، وحتى ملايين الدولارات في استثمارات الحوسبة.
ومع ذلك، فإن نمط التدريب الحالي غير فعّال، حيث يُهدر قدر كبير من الحوسبة على رموز غير ذات صلة مثل عبارات التوجيه وتعبئة التنسيق وضوضاء الويب، مما يؤدي إلى عدم توجيه جزء كبير من قوة التدريب مباشرة نحو الاستدلال.
في هذه الدراسة، أعاد فريق البحث تصميم البنية وهدف التدريب لجعل التدريب المسبق لـ HRM-Text أكثر كفاءة نسبيًا.
الهيكل: يعتمد على نموذج حلقي هرمي بمقاييس زمنية مزدوجة، حيث يتم تقسيم الحساب إلى وحدة H بطيئة ووحدة L سريعة. بينما تقوم نماذج Transformer القياسية بعملية تقدمية واحدة فقط لكل رمز، فإن HRM تقوم بعدة تحديثات تكرارية على نفس الرمز. تمثل وحدتا H وL نصف معلمات النواة التكرارية كل منهما، مع إجمالي كمية حسابية تكافئ تقريبًا أربع تكرارات لنفس مجموعة المعلمات، مما يزيد عمق الحساب دون زيادة عدد المعلمات.
الهدف التدريبي: التوقف عن استخدام التدريب المسبق الذاتي التام على النص الكامل، والتدريب مباشرة على أزواج التعليمات-الإجابات، وحساب الخسارة فقط على جزء الإجابة، مع دمج تغطية PrefixLM لتمكين الانتباه الثنائي للجزء التعليمي، وتكوين الجزء الإجابة باستخدام تغطية سببية.

الشكل | هيكلية HRM-Text.
لتحسين استقرار التدريب التكراري، أدخل فريق البحث MagicNorm وWarmup Deep Credit Assignment.
MagicNorm هي استراتيجية تطبيع مختلطة تستفيد من عدم التماثل بين عمق الحسابات الأمامية والخلفية تحت التربيع العكسي المقطوع (Truncated BPTT)، حيث تستخدم PreNorm داخل الوحدة، وتضيف تطبيعًا إضافيًا عند مخرجات الوحدة، لتعزيز استقرار تدريب الشبكات التكرارية العميقة.
يقوم تعيين الائتمان العميق للتدفئة فقط بعكس التدرجات خلال آخر خطوتين متكررتين في بداية التدريب، ثم يوسع خطياً ليشمل آخر 5 خطوات. هذه الآلية التدريبية تسمح للنموذج بالاستقرار والتوافق على مسارات ائتمان أقصر، ثم تدريجياً إدخال علاقات أطول.
How effective is it?
أظهرت النتائج التجريبية أن HRM-Text يمتلك ميزات واضحة من حيث كفاءة البنية، وهدف التدريب، والأداء العام.
1. تحت قوة تدريب ثابتة، هل البنية التكرارية أكثر فعالية؟
أظهرت النتائج أنه تحت شروط محاذاة FLOPs، تفوق HRM 1B على Transformer 1B و Transformer 3B و Looped Transformer 1B و RINS 1B في معظم المعايير؛ كما أظهرت المقارنة مع TRM أن تدريب HRM أكثر استقرارًا.

الرسم البياني | مقارنة الأداء والاستقرار مع نموذج Transformer. حافظ HRM على ديناميكيات تدريب مستقرة عبر جميع المقاييس، بينما واجه نموذج Transformer عدم استقرار شديد عند حجم 1 مليار معلمة. بالإضافة إلى ذلك، في حجم 0.6B، حقق HRM أداءً تنافسيًا على معظم المعايير باستخدام حسابات أقل بمرتين مقارنة بنموذج Transformer.
2. هل أهداف إكمال المهمة و PrefixLM مفيدة؟
أظهرت تجارب الإزالة أنه في ظل ظروف محاذاة FLOPs، ارتفع أداء نموذج Transformer بحجم 1B على MMLU من 40.55 في النموذج التكراري القياسي إلى 47.72 بعد إدخال هدف إكمال المهمة، ثم إلى 53.15 بعد إضافة PrefixLM، وأخيرًا إلى 60.73 بعد التحول إلى بنية HRM.

الرسم البياني | مقارنة الأداء بين هياكل النماذج وأهداف التدريب المختلفة
كيف تقارن كفاءة HRM-Text مع النماذج المفتوحة الحديثة؟
حقق HRM-Text 1B درجات 60.7 و81.9 و82.2 و84.5 و56.2 على التوالي في MMLU وARC-C وDROP وGSM8K وMATH. مقارنةً بالنماذج المفتوحة التي تستخدم ميزانيات تدريب أكبر بكثير، فإنها تدخل نطاق الأداء للنماذج المفتوحة من 2B إلى 7B باستخدام فقط 40 مليار رمز فريد و1B معلمة؛ حيث تتطلب تدريبها ما يصل إلى 900 مرة أقل من الرموز، وأقل بـ 432 مرة في تكاليف الحوسبة.

الرسم البياني | نتائج تقييم HRM-Text 1B مقارنةً بجميع النماذج المفتوحة المصدر والنماذج ذات الأوزان المفتوحة في نفس الفترة
4. هل أدى الهيكل الدوري إلى عمق فعال أكبر؟
أظهرت النتائج أن Transformer القياسي و Transformer المُحَلَّق يميلان إلى الاستقرار في الطبقات الأقل عمقًا، بينما يحافظ HRM على تغييرات أوضح بين الكتل في الطبقات الأعمق، وانخفاضًا في التشابه جيبي، وقيم أعلى لـ KL في عدسة اللوجيت.

الرسم البياني | تحليل العمق الفعال.

الرسم التوضيحي | تحليل KL لعدسة اللوجيت على طبقات.
النقاط الناقصة والاتجاهات المستقبلية
على الرغم من أن HRM-Text أظهر أداءً قويًا في المهام المكثفة بالاستدلال، إلا أن هذه الطريقة لا تزال تواجه قيودًا وتقترح اتجاهات للبحث المستقبلي.
1. التوجه نحو فصل "المعرفة" عن "الاستدلال"
حاليًا، لا يزال التغطية الأوسع للمعرفة الواقعية تعتمد بشكل أكبر على حجم النموذج واتساع البيانات. تم تدريب HRM-Text فقط على 40 مليار رمز فريد، وتشكل المصادر المعرفية الصريحة جزءًا فقط من بيانات المزج المُنسَّقة للمهمة. في المستقبل، يحتاج الباحثون إلى تصميم نواة استدلال مضغوطة منفصلة عن تخزين الحقائق الخارجي، وترك اتساع المعرفة للنصوص المختارة أو وحدات تعزيز الاسترجاع أو الذاكرة القابلة للتعلم.
2. وقت الحساب التكيفي
إن الجدولة الدورية لـ HRM-Text تؤدي إلى عمق تسلسلي فعال أكبر، لكن هذا يعني أن النموذج يحتاج إلى تنفيذ عدد ثابت من خطوات التكرار أثناء الاستدلال. في المستقبل، فإن اتجاهًا يستحق الاستكشاف هو إدخال آلية زمن حساب تكيفية تسمح للعينات البسيطة بالتوقف المبكر عن الحساب، والاحتفاظ بالميزانية الكاملة للتكرار للعينات الصعبة، مما يقلل من تكلفة الاستدلال.
3. نطاق التحقق المُوسَّع الحالي لا يزال محدودًا
حاليًا، تغطي تجارب التوسيع فقط مجموعة المقارنة Transformer بـ 3B معلمة وHRM-Text بـ 1B معلمة. وأفاد فريق البحث أن ما إذا كان يمكن الحفاظ على مزايا الكفاءة المشابهة عند مقاييس نماذج أكبر لا يزال بحاجة إلى مزيد من التحقق في أعمال مستقبلية.
4. PrefixLM وإطار الاستدلال
حاليًا، لا يزال PrefixLM يواجه قيودًا هندسية في التنفيذ العملي. على الرغم من أنه يمكن تشغيله على أطر عمل قياسية لتوليد النصوص مثل vLLM، إلا أن هذا يتطلب من الإطار دعم قناع انتباه مخصص في مرحلة prefill. إذا تم توسيعه لسيناريوهات المحادثة متعددة الجولات، فسيكون من الضروري تصميم آلية KV-cache بشكل إضافي، بحيث تضمن رؤية ثنائية الاتجاه داخل مقاطع المستخدم، مع الحفاظ في الوقت نفسه على الالتزام بالقيود السببية في عملية توليد المساعد.
لمزيد من التفاصيل التقنية، راجع الورقة الأصلية.
هذا المقال من حساب ويشات الرسمي "أكاديميا توت" (ID: SciTouTiao)، الكاتب: شيا تشيانسي
