چنگہوا کے فارغ التحصیل وانگ گوان کا HRM-Text 1/900 ٹوکن اور 1/432 کمپیوٹ کے ساتھ SOTA حاصل کرتا ہے

پارمیٹر کے روایتی پری ٹریننگ ماڈل کو توڑ دیا، کھواہش کے 00 کے بعد کے فارغ التحصیل وانگ گوان کی ٹیم نے نیا کام کیا:

انہوں نے معیاری Transformer کے بجائے ہائرارکیکل رنگ مڈل (HRM) کا استعمال کرتے ہوئے ایک موثر پری ٹرینڈ HRM-Text پیش کیا جو اسکیلنگ سے آگے بڑھ جاتا ہے۔

چنگہوا

کاغذ کا لنک: https://arxiv.org/abs/2605.20613

HRM-Text نے صرف معیاری بیس لائن ماڈل کے مقابلے میں تقریباً 100-900 گنا کم ٹریننگ ٹوکن اور 96-432 گنا کم تخمینہ کمپوٹیشن کے ساتھ 2B سے 7B پیرامیٹر کے اوپن سورس ماڈلز کے برابر پرفارمنس حاصل کی۔

اسی دوران، HRM-Text نے 1B پیرامیٹرز، 40B غیر تکراری ٹوکنز، اور تقریباً 1500 امریکی ڈالر کی تربیت کی لاگت کے ساتھ مین لین بینچ مارکس میں درج ذیل کارکردگی حاصل کی: MMLU 60.7%، ARC-C 81.9%، DROP 82.2%، GSM8K 84.5%، MATH 56.2%۔

چنگہوا

تصویر | پیش تربیت کی کارکردگی۔

اس کے علاوہ، وہ واضح طور پر کہتے ہیں کہ ساختی اولویت اور ہدف مند تربیت کے مقاصد، پری ٹریننگ کی رکاوٹ کو نمایاں طور پر کم کر سکتے ہیں۔ اس تربیتی منصوبہ بنیادی ماڈل کو صفر سے ٹرین کرنے کو ممکن بناتا ہے۔

HRM-Text کو کیسے ڈیزائن کیا گیا ہے؟

بڑے زبان ماڈلز (LLM) کی پری ٹریننگ، جس میں صرف کچھ ایسے ادارے شامل ہیں جن کے پاس کافی کمپوٹیشنل طاقت اور ڈیٹا وسائل ہیں، پر زیادہ انحصار کیا جا رہا ہے۔ ایک مقابلہ کرنے لائق بنیادی ماڈل کو ٹرین کرنے کے لیے عام طور پر تریلینوں ٹوکن، ہزاروں GPU، اور کئی ملین امریکی ڈالر کی کمپوٹیشنل سرمایہ کاری درکار ہوتی ہے۔

تاہم، موجودہ تربیت کا طریقہ کار کارآمد نہیں ہے، جس میں زیادہ تر کمپیوٹیشنل طاقت پروپٹس، فارمیٹ فل کرنے اور ویب سائٹ کے اضافی ڈیٹا جیسے غیر متعلق ٹوکن پر خرچ ہو رہی ہے، جس کی وجہ سے بہت ساری تربیتی کمپیوٹنگ طاقت براہ راست استدلال کے لیے استعمال نہیں ہو رہی۔

اس کام میں، تحقیقی ٹیم نے آرکیٹیکچر اور ٹریننگ ہدف کو دوبارہ ڈیزائن کیا تاکہ HRM-Text کی پری-ٹریننگ نسبتاً زیادہ موثر ہو۔

آرکیٹیکچر: دو وقتی سcales کے ساتھ ہائرارکیکل ریکریسیو ماڈل استعمال کیا جاتا ہے، جس میں حساب کو آہستہ H ماڈول اور تیز L ماڈول میں تقسیم کیا جاتا ہے۔ معیاری Transformer ہر ٹوکن پر صرف ایک بار فارورڈ پاس کرتا ہے، جبکہ HRM ایک ہی ٹوکن پر متعدد دفعات ریکریسیو اپڈیٹس کرتا ہے۔ H اور L ماڈولز میں سے ہر ایک ریکریسیو کور پیرامیٹرز کا نصف حصہ رکھتا ہے، اور کل حسابی کارروائی تقریباً ایک ہی سیٹ پیرامیٹرز پر 4 بار ریکریسیو ایکسپینشن کے برابر ہوتی ہے، جبکہ پیرامیٹرز کی تعداد میں اضافہ نہیں ہوتا۔

ہدف: معیاری مکمل متن کی خود-regressive پری ٹریننگ کو جاری رکھنے کے بجائے، ہدایات-جواب جوڑوں پر تربیت دی جائے گی، صرف جواب کے حصے کے لیے نقصان کا حساب لگایا جائے گا، اور PrefixLM ماسک کے ساتھ مل کر ہدایات کے حصے کو دو طرفہ توجہ دی جائے گی، جبکہ جواب کا حصہ سب سے پہلے کا ماسک استعمال کرتے ہوئے تخلیق کیا جائے گا۔

چنگہوا

تصویر | HRM-Text اسکیما۔

Recursive training کی استحکام کو بہتر بنانے کے لیے، تحقیقی ٹیم نے MagicNorm اور Warmup Deep Credit Assignment کو متعارف کرایا۔

MagicNorm ایک مخلوط نارملائزیشن اسٹریٹیجی ہے جو ٹرنسکیٹڈ بی پی ٹی ٹی کے تحت فارورڈ اور بیک ورڈ کمپوٹیشن کی گہرائی کے عدم توازن کا فائدہ اٹھاتی ہے، جس میں ماڈیول کے اندر PreNorm استعمال کیا جاتا ہے اور ماڈیول کے خروج پر اضافی نارملائزیشن شامل کی جاتی ہے تاکہ گہرے ریکر سوو ٹریننگ کی استحکام بڑھایا جا سکے۔

وارماپ ڈیپ کریڈٹ ایسائنمنٹ تربیت کے آغاز میں صرف آخری 2 ریکرسیو اسٹیپس پر گریڈینٹs واپس بھیجتا ہے، اور پھر خطی طور پر آخری 5 اسٹیپس تک وسعت دیتا ہے۔ یہ تربیت کا طریقہ ماڈل کو مختصر کریڈٹ پاتھس پر مستحکم طور پر مرتکز ہونے دیتا ہے، اور پھر تدریجی طور پر لمبے تعلقات شامل کرتا ہے۔

کیا اثر ہوا؟

تجربی نتائج ظاہر کرتے ہیں کہ HRM-Text کی ساختی کارکردگی، تربیتی مقاصد اور کل پرفارمنس میں واضح فرق ہے۔

1. ثابت تربیتی کیپسیٹی کے تحت، سائکلک آرکیٹیکچر زیادہ موثر ہے کیا

نتائج سے پتہ چلتا ہے کہ FLOPs کے مطابق ہونے کی صورت میں، HRM 1B زیادہ تر بنچ مارکس پر Transformer 1B، Transformer 3B، Looped Transformer 1B اور RINS 1B سے بہتر کارکردگی دکھاتا ہے؛ TRM کے ساتھ موازنہ سے یہ بھی ظاہر ہوتا ہے کہ HRM کی تربیت زیادہ مستحکم ہے۔

چنگہوا

تصویر | ٹرانسفارمر ماڈل کے ساتھ کارکردگی اور استحکام کا موازنہ۔ HRM تمام سائزز میں مستحکم تربیتی ڈائنامکس برقرار رکھتا ہے، جبکہ ٹرانسفارمر ماڈل 10 ارب پیرامیٹرز کے سائز پر شدید عدم استحکام کا شکار ہو گیا۔ علاوہ ازیں، 0.6B سائز پر، HRM نے ٹرانسفارمر ماڈل کے مقابلے میں تقریباً صرف دوگنا کم کمپیوٹیشن کے ساتھ زیادہ تر بنچ مارکس پر مقابلہ کرنے لائق کارکردگی حاصل کی۔

2. کام مکمل کرنے کا مقصد اور PrefixLM کیا مدد کرتے ہیں

ابلاٹیون ایکسپیریمنٹس سے پتہ چلتا ہے کہ FLOPs کے مطابق ہونے کی صورت میں، 1B ٹرانسفارمر کا MMLU معیاری خود از خود ریگریشن سے 40.55 سے بڑھ کر ٹاسک کمپلیشن ہدف کے شامل ہونے پر 47.72، پریفکسLM شامل ہونے پر 53.15، اور HRM آرکیٹیکچر میں تبدیل ہونے پر 60.73 ہو گیا۔

چنگہوا

تصویر | مختلف ماڈل آرکیٹیکچرز اور ٹریننگ اہداف کے درمیان کارکردگی کا موازنہ

3. HRM-Text کی کارکردگی جدید کھلے ماڈلز کے مقابلے میں کیسی ہے؟

HRM-Text 1B نے MMLU، ARC-C، DROP، GSM8K، اور MATH پر کریمی 60.7، 81.9، 82.2، 84.5 اور 56.2 حاصل کیے۔ عام طور پر زیادہ تربیتی بجٹ والے کھلے ماڈلز کے مقابلے میں، یہ صرف 40 ارب منفرد ٹوکن اور 1 ارب پیرامیٹرز کے ساتھ 2 ارب سے 7 ارب کھلے ماڈلز کے پرفارمنس رینج میں داخل ہو گیا؛ اس کے لیے درکار ٹوکنز میں زیادہ سے زیادہ 900 گنا کم، اور کمپوٹیشنل خرچ میں زیادہ سے زیادہ 432 گنا کم۔

چنگہوا

تصویر | HRM-Text 1B اور اسی دوران تمام اوپن سورس ماڈلز اور اوپن ویٹ ماڈلز کا جائزہ

4. کیا سائکل سٹرکچر نے زیادہ اثراتی گہرائی لائی؟

نتائج ظاہر ہوتے ہیں کہ معیاری ٹرانسفارمر اور لوپڈ ٹرانسفارمر گہرائی کے کم سطح پر استحکام حاصل کر لیتے ہیں، جبکہ HRM گہرائی کے زیادہ سطح پر بھی بیک وچ نمائندگی کے زیادہ واضح تبدیلیوں، کم کوزائن مماثلت اور زیادہ لوجٹ لینس KL اقدار برقرار رکھتی ہے۔

چنگہوا

تصویر | مؤثر گہرائی کا تجزیہ۔

چنگہوا

تصویر | سطحی Logit Lens KL تجزیہ۔

کمی اور مستقبل کی سمت

ہر ایم-ٹیکسٹ نے استدلالی کاموں میں مضبوط کارکردگی دکھائی، لیکن اس طریقہ کار میں اب بھی کچھ حدود ہیں اور مستقبل کے تحقیقی راستے پیش کرتی ہیں۔

1. "علم" اور "استدلال" کے درمیان الگائی کی طرف

ابھی، زیادہ وسیع حقیقی علم کا دائرہ کار اب بھی ماڈل کے سائز اور ڈیٹا کی وسعت پر منحصر ہے۔ HRM-Text صرف 40 ارب منفرد ٹوکن پر تربیت یافتہ ہے، اور واضح طور پر علم سے متعلق ذرائع صرف اس کے ٹاسک فارمیٹنگ مکسڈ ڈیٹا کا ایک حصہ ہیں۔ مستقبل میں، تحقیق کاروں کو مختصر استدلال کے مرکز کو باہری حقیقی ذخیرہ سے الگ ڈیزائن کرنا ہوگا، جہاں علم کی وسعت کو منتخب کردہ کارپس، ریٹریول اینہانسڈ ماڈیول یا سیکھنے والی یادداشت پر چھوڑ دیا جائے۔

2. خودکار حساب کیا گیا وقت

HRM-Text کے سائکلک شیڈولنگ سے زیادہ موثر سیریل ڈیپتھ حاصل ہوتی ہے، لیکن اس کا مطلب یہ بھی ہے کہ مدل کو انفرینس کے دوران مقررہ تعداد میں ریکرسیو اسٹیپس کرنے پڑتے ہیں۔ مستقبل میں، ایک قابلِ تحقیق سمت ایڈاپٹو کمپوٹیشن ٹائم میکنزم کو شامل کرنا ہوگا، جس سے آسان نمونے زیادہ جلد کمپوٹیشن بند کر سکیں اور مکمل سائکلک بجٹ مشکل نمونوں کے لیے محفوظ رہے، جس سے انفرینس کا خرچ کم ہوگا۔

3. موجودہ سکیلڈ ویریفیکیشن رینج اب بھی محدود ہے

موجودہ اسکیلنگ تجربات صرف 3B پیرامیٹر والے ٹرانسفارمر کنٹرول گروپ اور 1B پیرامیٹر والے HRM-Text تک محدود ہیں۔ تحقیقی ٹیم کا کہنا ہے کہ بڑے ماڈل سائز پر بھی کیا یہ کارکردگی کا فرق برقرار رہے گا، اس کی تصدیق مستقبل کے کاموں سے کی جانی ہوگی۔

4. PrefixLM اور استدلال فریم ورک

ابھی، PrefixLM کو عملی طور پر لاگو کرتے وقت کچھ انجینئرنگ پابندیاں موجود ہیں۔ حالانکہ یہ vLLM جیسے معیاری ٹیکسٹ جنریشن انفرنس فریم ورکس پر چل سکتی ہے، لیکن اس کے لیے فریم ورک کو prefill مرحلے میں کسٹم توجہ ماسک کی حمایت کرنی ہوگی۔ اگر اسے متعدد چیٹ سیناریوز تک وسعت دی جائے تو، KV-cache مکانزم کو مزید ڈیزائن کرنے کی ضرورت ہوگی تاکہ صارف کے حصوں کے اندر دو طرفہ دسترس برقرار رہے اور مددگار کے پیداواری عمل میں سب سے پہلے کا قاعدہ جاری رہے۔

مزید تکنیکی تفصیلات کے لیے اصل تحقیقی مقالہ دیکھیں۔

یہ مضمون ویچن گروپ "اکیڈمک ٹوٹ" (ID: SciTouTiao) سے ہے، مصنف: شیا کینس