চিংহুয়া প্রাক্তন শিক্ষার্থী ওয়াং গুয়ানের এইচআরএম-টেক্সট 1/900 টোকেন এবং 1/432 কম্পিউটের সাথে এসওটিএএ অর্জন করেছে

প্রাচীন বড় মডেল প্রিট্রেনিং পদ্ধতি ভাঙ্গে, কিংহুয়া বিশ্ববিদ্যালয়ের ২০০০-এর দশকের স্নাতক ওয়াং গুয়ানের দল আবার একটি নতুন কাজ তৈরি করেছে:

তারা স্ট্যান্ডার্ড Transformer-এর পরিবর্তে হাইয়ারার্কিক্যাল রিকারেন্ট মডেল (HRM) ব্যবহার করে স্কেলিংকে ছাড়িয়ে যাওয়া দক্ষ প্রিট্রেইনড HRM-Text প্রস্তাব করেছে।

ক্লারা

পেপার লিঙ্ক: https://arxiv.org/abs/2605.20613

HRM-Text শুধুমাত্র স্ট্যান্ডার্ড বেসলাইন মডেলের চেয়ে প্রায় 100-900 গুণ কম ট্রেনিং টোকেন এবং 96-432 গুণ কম হিসাবিত গণনা ব্যবহার করেও 2B থেকে 7B প্যারামিটারের ওপেন-সোর্স মডেলের সমতুল্য পারফরম্যান্স অর্জন করেছে।

একইসাথে, 1B প্যারামিটার, 40B অ-পুনরাবৃত্ত টোকেন এবং প্রায় 1500 ডলার প্রশিক্ষণ খরচ ব্যবহার করে, HRM-Text প্রধান বেঞ্চমার্কগুলিতে নিম্নলিখিত ফলাফল অর্জন করেছে: MMLU 60.7%, ARC-C 81.9%, DROP 82.2%, GSM8K 84.5%, MATH 56.2%।

ক্লারা

চিত্র｜প্রি-ট্রেনিং দক্ষতা।

এই ভিত্তিতে, তারা স্পষ্টভাবে উল্লেখ করেছে: স্ট্রাকচারাল প্রিয়র এবং লক্ষ্যনির্দিষ্ট ট্রেনিং টার্গেট প্রিট্রেনিংয়ের বাধা উল্লেখযোগ্যভাবে কমিয়ে দিতে পারে। এই ট্রেনিং পদ্ধতি শূন্য থেকে বেস মডেল ট্রেন করাকে সম্ভব করে তুলতে পারে।

HRM-Text কীভাবে ডিজাইন করা হয়েছে?

বড় ভাষা মডেল (LLM) প্রি-ট্রেনিং, এখন প্রচুর ক্যালকুলেশন এবং ডেটা সম্পদ সম্পন্ন কয়েকটি প্রতিষ্ঠানের উপর বেশি নির্ভরশীল হয়ে পড়ছে। একটি প্রতিযোগিতামূলক বেস মডেল ট্রেন করতে প্রায় কয়েক ট্রিলিয়ন টোকেন, হাজার হাজার GPU, এবং কখনও কখনও কয়েক মিলিয়ন ডলারের ক্যালকুলেশন ব্যয় প্রয়োজন।

তবে, বর্তমান প্রশিক্ষণ মডেলটি কার্যকর নয়, যেহেতু বড় পরিমাণ গণনা প্রম্পট, ফরম্যাট পূরণ এবং ওয়েবসাইটের অপ্রাসঙ্গিক টোকেনের মতো অপ্রাসঙ্গিক জিনিসে ব্যয় হচ্ছে, যার ফলে বড় পরিমাণ প্রশিক্ষণ কম্পিউটিং ক্ষমতা সরাসরি উপসংহারের জন্য ব্যবহৃত হচ্ছে না।

এই কাজে, গবেষণা দল HRM-Text-এর প্রি-ট্রেনিংকে আরও দক্ষ করে তোলার জন্য আর্কিটেকচার এবং ট্রেনিং লক্ষ্য পুনর্নির্মাণ করেছে।

আর্কিটেকচার: একটি দ্বৈত-সময় স্কেল হাইয়ারার্কিক্যাল রিকারেন্ট মডেল ব্যবহার করা হয়েছে, যেখানে গণনাকে ধীরগতির H মডিউল এবং দ্রুতগতির L মডিউলে বিভক্ত করা হয়েছে। স্ট্যান্ডার্ড Transformer প্রতিটি টোকেনের জন্য শুধুমাত্র একবার ফরওয়ার্ড প্রপাগেশন করে, অন্যদিকে HRM একই টোকেনের উপর একাধিক পুনরাবৃত্তি আপডেট করে। H এবং L মডিউলগুলি প্রতিটি পুনরাবৃত্তি কোর প্যারামিটারের অর্ধেক অংশ নেয়, এবং মোট গণনা প্রায় একই সেটের প্যারামিটারগুলির উপর 4টি পুনরাবৃত্তি প্রসারণের সমতুল্য, যা প্যারামিটারের পরিমাণ বাড়ানোর ছাড়াই গণনা গভীরতা বৃদ্ধি করে।

লক্ষ্য: স্ট্যান্ডার্ড ফুল-টেক্সট অটোরিগ্রেসিভ প্রিট্রেইনিংয়ের পরিবর্তে সরাসরি ইনস্ট্রাকশন-অ্যানসওয়ার জোড়াতে ট্রেইন করা, শুধুমাত্র উত্তর অংশের জন্য লস গণনা করা এবং PrefixLM মাস্কিংয়ের সাথে সমন্বয় করে ইনস্ট্রাকশন অংশকে বাইডিরেকশনাল অ্যাটেনশন এবং উত্তর অংশকে কার্সুয়াল মাস্কিংয়ের মাধ্যমে জেনারেট করা।

ক্লারা

চিত্র | HRM-Text আর্কিটেকচার।

পুনরাবৃত্ত প্রশিক্ষণের স্থিতিশীলতা বাড়ানোর জন্য গবেষণা দল MagicNorm এবং Warmup Deep Credit Assignment চালু করেছে।

MagicNorm একটি মিশ্র নর্মালাইজেশন স্ট্র্যাটেজি যা ট্রাঙ্কেটেড ব্যাকপ্রোপাগেশন (Truncated BPTT) এর অধীনে ফরওয়ার্ড এবং ব্যাকওয়ার্ড ক্যালকুলেশনের গভীরতার অসমতাকে ব্যবহার করে, মডিউলের ভিতরে PreNorm ব্যবহার করে এবং মডিউলের আউটপুটে অতিরিক্ত নর্মালাইজেশন যোগ করে গভীর রিকারসিভ ট্রেনিংয়ের স্থিতিশীলতা বাড়ায়।

ওয়ার্মআপ ডিপ ক্রেডিট অ্যাসাইনমেন্ট শুধুমাত্র প্রশিক্ষণের প্রাথমিক পর্যায়ে শেষ 2টি পুনরাবৃত্তিমূলক পদক্ষেপে গ্রেডিয়েন্ট ফিরিয়ে আনে, এরপর রৈখিকভাবে শেষ 5টি পদক্ষেপে বিস্তারিত হয়। এই প্রশিক্ষণ পদ্ধতির মাধ্যমে মডেলটি সংক্ষিপ্ত ক্রেডিট পথে স্থিতিশীলভাবে অভিসারী হয়, এরপর ধীরে ধীরে দীর্ঘতর নির্ভরশীলতা প্রবর্তন করা হয়।

কেমন হলো ফলাফল?

পরীক্ষার ফলাফল দেখায় যে, HRM-Text আর্কিটেকচারের দক্ষতা, প্রশিক্ষণ লক্ষ্য এবং সামগ্রিক কর্মক্ষমতায় স্পষ্ট সুবিধা প্রদর্শন করে।

1. স্থির ট্রেনিং ক্ষমতার অধীনে, সাইক্লিক আর্কিটেকচার কি বেশি কার্যকর?

FLOPs সমান অবস্থায়, HRM 1B বেশিরভাগ বেঞ্চমার্কে Transformer 1B, Transformer 3B, Looped Transformer 1B এবং RINS 1B এর চেয়ে ভালো পারফর্ম করে; TRM এর সাথে তুলনায়, HRM এর প্রশিক্ষণ আরও স্থিতিশীল বলে দেখা যায়।

ক্লারা

চিত্র: ট্রান্সফরমার মডেলের পারফরম্যান্স এবং স্থিতিশীলতার সাথে তুলনা। HRM সমস্ত স্কেলে স্থিতিশীল ট্রেনিং ডাইনামিক্স বজায় রাখে, যখন ট্রান্সফরমার মডেল 10 বিলিয়ন প্যারামিটার স্কেলে গুরুতর অস্থিতিশীলতা দেখায়। এছাড়াও, 0.6B স্কেলে, HRM বেশিরভাগ বেঞ্চমার্কে ট্রান্সফরমার মডেলের তুলনায় মাত্র দ্বিগুণ কম গণনা প্রয়োজনীয়তা দিয়ে প্রতিযোগিতামূলক পারফরম্যান্স অর্জন করে।

2. কাজ সম্পন্নের লক্ষ্য এবং PrefixLM কি সহায়ক?

অ্যাবলেশন পরীক্ষাগুলি দেখিয়েছে যে, FLOPs-এর সাথে সামঞ্জস্যপূর্ণ অবস্থায়, 1B Transformer-এর MMLU মান স্ট্যান্ডার্ড অটোরিগ্রেসিভ মডেলের 40.55 থেকে কাজ সম্পন্ন লক্ষ্য যোগ করার পর 47.72-এ, PrefixLM যোগ করার পর 53.15-এ, এবং HRM আর্কিটেকচারে পরিবর্তন করার পর 60.73-এ উন্নতি পায়।

ক্লারা

চিত্র: বিভিন্ন মডেল আর্কিটেকচার এবং প্রশিক্ষণ লক্ষ্যের মধ্যে পারফরম্যান্সের তুলনা

3. এই HRM-টেক্সট বর্তমান ওপেন মডেলগুলির তুলনায় কতটা দক্ষ?

HRM-Text 1B এমএমএলইউ, এআরসি-সি, ড্রপ, জিএসএম৮কে এবং ম্যাথে যথাক্রমে 60.7, 81.9, 82.2, 84.5 এবং 56.2 স্কোর অর্জন করে। এটি সাধারণত বড় ট্রেনিং বাজেট ব্যবহার করে এমন ওপেন মডেলগুলির তুলনায় শুধুমাত্র 400 বিলিয়ন ইউনিক টোকেন এবং 1B প্যারামিটার ব্যবহার করে 2B থেকে 7B ওপেন-সোর্স মডেলগুলির পারফরম্যান্স ইন্টারভালে প্রবেশ করে; এটি ট্রেনিংয়ের জন্য প্রয়োজনীয় টোকেনগুলিকে সর্বোচ্চ 900 গুণ কম এবং কম্পিউটেশনাল খরচকে সর্বোচ্চ 432 গুণ কম ব্যবহার করে।

ক্লারা

চিত্র: HRM-Text 1B এবং একই সময়ের সমস্ত ওপেন-সোর্স এবং ওপেন-ওয়েট মডেলের মূল্যায়ন ফলাফল

4. সাইক্লিক স্ট্রাকচার কি বড় ইফেক্টিভ ডেপথ আনে?

ফলাফল দেখায় যে, স্ট্যান্ডার্ড ট্রান্সফরমার এবং লুপড ট্রান্সফরমার কম গভীর স্তরেই স্থিতিশীল হয়ে যায়, যেখানে HRM গভীর স্তরেও ব্লকের মধ্যে প্রতিনিধিত্বের পরিবর্তন, কম কোসাইন সাদৃশ্য এবং উচ্চতর লগিট লেন্স KL মান বজায় রাখে।

ক্লারা

চিত্র | কার্যকরী গভীরতা বিশ্লেষণ।

ক্লারা

চিত্র: স্তর দ্বারা লগিট লেন্স কেএল বিশ্লেষণ।

অপর্যাপ্ততা এবং ভবিষ্যতের দিকনির্দেশ

যদিও HRM-Text রিজনিং-ঘন কাজে শক্তিশালী পারফরম্যান্স দেখিয়েছে, এই পদ্ধতিটির সীমাবদ্ধতা রয়েছে এবং ভবিষ্যতের গবেষণার দিকনির্দেশ প্রস্তাব করেছে।

1. "জ্ঞান" এবং "যুক্তি" এর বিচ্ছিন্নতা এর দিকে

বর্তমানে, আরও ব্যাপক প্রামাণ্য জ্ঞান কভারেজ মডেলের আকার এবং ডেটার বিস্তারের উপর বেশি নির্ভরশীল। HRM-Text কেবল 400 বিলিয়ন ইউনিক টোকেনে প্রশিক্ষিত হয়েছে, এবং স্পষ্টভাবে কিছু জ্ঞান-ভিত্তিক উৎস কেবল টাস্ক ফরম্যাটেড মিক্সড ডেটার একটি অংশ। ভবিষ্যতে, গবেষকদের প্রয়োজন সংকুচিত যুক্তি কোরকে বাইরের প্রামাণ্য সংগ্রহের সাথে আলাদাভাবে ডিজাইন করা, যেখানে জ্ঞানের বিস্তারকে নির্বাচিত কর্পাস, রিট্রিভাল-অ্যাডভান্সড মডিউল বা শিখতে পারা মেমোরির উপর ছেড়ে দেওয়া হবে।

2. অ্যাডাপ্টিভ কম্পিউটেশনাল টাইম

HRM-Text-এর সাইক্লিক শিডিউলিং বড় কার্যকরী সিরিয়াল ডেপথ আনে, কিন্তু এর অর্থ হল যে মডেলটি ইনফারেন্সের সময় নির্দিষ্ট সংখ্যক রিকার্সিভ স্টেপ প্রয়োগ করে। ভবিষ্যতে, একটি গুরুত্বপূর্ণ অনুসন্ধানের দিক হল অ্যাডাপটিভ কম্পিউটেশন টাইম মেকানিজম চালু করা, যাতে সহজ নমুনাগুলি আগেই গণনা বন্ধ করতে পারে এবং পূর্ণ সাইক্লিক বাজেট কঠিন নমুনাগুলির জন্য সংরক্ষিত থাকে, যা ইনফারেন্স খরচ কমায়।

3. বর্তমানে স্কেলড ভেরিফিকেশন পরিসর সীমিত

বর্তমান স্কেলিং পরীক্ষাগুলি শুধুমাত্র 3B প্যারামিটারের ট্রান্সফরমার কন্ট্রোল গ্রুপ এবং 1B প্যারামিটারের HRM-Text কে কভার করে। গবেষণা দল বলেছেন যে, বড় মডেল স্কেলেও এই ধরনের দক্ষতার সুবিধা বজায় থাকবে কিনা, তা ভবিষ্যতের কাজের মাধ্যমে আরও যাচাইয়ের প্রয়োজন।

4. প্রিফিক্সএলএম এবং ইনফারেন্স ফ্রেমওয়ার্ক

বর্তমানে, PrefixLM-এর বাস্তব বাস্তবায়নে কিছু প্রকৌশলগত সীমাবদ্ধতা রয়েছে। যদিও এটি vLLM এর মতো মানক টেক্সট জেনারেশন ইনফারেন্স ফ্রেমওয়ার্কে চলে, তবে এটি প্রিফিল পর্যায়ে কাস্টম অ্যাটেনশন মাস্ক সমর্থন চায়। এটিকে মাল্টি-রাউন্ড ডায়ালগ সিনারিওতে বিস্তারিত করতে, KV-cache মেকানিজমকে আরও ডিজাইন করা প্রয়োজন, যাতে ব্যবহারকারীর অংশের ভিতরে দ্বিদিকীয় দৃশ্যতা বজায় থাকে এবং সহায়কের উত্পাদন প্রক্রিয়াটি কারণগত সীমাবদ্ধতা অনুসরণ করতে থাকে।

আরও প্রযুক্তিগত বিস্তারিত জন্য, মূল গবেষণাপত্রটি দেখুন।

এই লেখাটি ওয়েইচ্যাট গ্রুপ "অ্যাকাডেমিক টুট" (ID: SciTouTiao) থেকে, লেখক: শিয়ান কানসি