ทำลายรูปแบบการฝึกโมเดลขนาดใหญ่แบบดั้งเดิม ทีมของหวังกวน ศิษย์เก่ารุ่นปี 2000 ของมหาวิทยาลัยชิงหัว ได้เปิดตัวผลงานชิ้นใหม่:
พวกเขาใช้แบบจำลองวงจรชั้นเดียว (HRM) แทน Transformer มาตรฐาน เพื่อเสนอ HRM-Text ที่มีประสิทธิภาพสูงในการฝึกล่วงหน้าที่เกินกว่าการปรับขนาด

ลิงก์เอกสารวิจัย: https://arxiv.org/abs/2605.20613
HRM-Text ยังคงบรรลุประสิทธิภาพที่เทียบเท่ากับโมเดลโอเพนซอร์สที่มีพารามิเตอร์ 2B ถึง 7B โดยใช้โทเค็นการฝึกอบรมน้อยกว่ามาตรฐาน baseline ประมาณ 100-900 เท่า และปริมาณการคำนวณที่ประมาณน้อยกว่า 96-432 เท่า
ในขณะเดียวกัน โดยใช้พารามิเตอร์ 1B และ 40B ที่ไม่ซ้ำกัน พร้อมต้นทุนการฝึกอบรมประมาณ 1,500 ดอลลาร์สหรัฐ HRM-Text ได้รับผลลัพธ์ดังต่อไปนี้ในการทดสอบมาตรฐานหลัก: MMLU 60.7% ARC-C 81.9% DROP 82.2% GSM8K 84.5% MATH 56.2%

รูป|ประสิทธิภาพการฝึกล่วงหน้า
บนพื้นฐานนี้ พวกเขาได้ระบุอย่างชัดเจนว่า: โครงสร้างเชิงก่อนหน้าและเป้าหมายการฝึกที่มุ่งเป้าสามารถลดอุปสรรคในการฝึกล่วงหน้าอย่างมีนัยสำคัญ แผนการฝึกนี้ทำให้การฝึกโมเดลพื้นฐานตั้งแต่เริ่มต้นเป็นไปได้
HRM-Text ถูกออกแบบมาอย่างไร?
การฝึกโมเดลภาษาขนาดใหญ่ (LLM) กำลังพึ่งพาองค์กรไม่กี่แห่งที่มีทรัพยากรด้านการประมวลผลและข้อมูลเพียงพอ การฝึกโมเดลพื้นฐานที่มีความสามารถในการแข่งขันมักต้องการทรัพยากรการประมวลผลหลายล้านล้านโทเค็น หลายพันหน่วย GPU และแม้แต่เงินลงทุนหลายล้านดอลลาร์
อย่างไรก็ตาม โหมดการฝึกปัจจุบันไม่มีประสิทธิภาพ เนื่องจากทรัพยากรการคำนวณจำนวนมากถูกใช้ไปกับโทเค็นที่ไม่เกี่ยวข้อง เช่น คำชี้นำ การเติมรูปแบบ และเสียงรบกวนจากเว็บไซต์ ทำให้พลังการประมวลผลในการฝึกจำนวนมากไม่ได้ถูกใช้เพื่อสนับสนุนการให้คำตอบโดยตรง
ในงานนี้ ทีมวิจัยได้รีดีไซน์สถาปัตยกรรมและเป้าหมายการฝึกอบรมใหม่ เพื่อให้การฝึกล่วงหน้าของ HRM-Text มีประสิทธิภาพมากขึ้น
สถาปัตยกรรม: ใช้แบบจำลองวนซ้ำแบบชั้นเดียวที่มีสองช่วงเวลา โดยแบ่งการคำนวณออกเป็นโมดูลช้า H และโมดูลเร็ว L แบบ Transformer มาตรฐานจะดำเนินการส่งข้อมูลไปข้างหน้าเพียงครั้งเดียวสำหรับแต่ละโทเค็น แต่ HRM จะทำการอัปเดตแบบวนซ้ำหลายรอบบนโทเค็นเดียวกัน โมดูล H และ L แต่ละตัวมีพารามิเตอร์หลักของการวนซ้ำเพียงครึ่งหนึ่ง โดยรวมการคำนวณเทียบเท่ากับการขยายการวนซ้ำ four ครั้งบนพารามิเตอร์ชุดเดียวกัน โดยไม่เพิ่มปริมาณพารามิเตอร์ แต่เพิ่มความลึกของการคำนวณ
เป้าหมายการฝึกอบรม: ไม่ใช้การฝึกล่วงหน้าแบบอัตโนมัติแบบเต็มข้อความอีกต่อไป แต่ฝึกโดยตรงบนคู่คำสั่ง-คำตอบ โดยคำนวณค่าความสูญเสียเฉพาะส่วนคำตอบเท่านั้น และร่วมกับการซ่อนแบบ PrefixLM เพื่อให้ส่วนคำสั่งสามารถให้ความสนใจแบบสองทิศทาง และส่วนคำตอบสร้างตามการซ่อนแบบเหตุและผล

รูป|โครงสร้าง HRM-Text
เพื่อเพิ่มความเสถียรของการฝึกแบบเรียกซ้ำ ทีมวิจัยได้แนะนำ MagicNorm และ Warmup Deep Credit Assignment
MagicNorm เป็นกลยุทธ์การปรับมาตรฐานแบบผสมที่ใช้ความไม่สมดุลของความลึกในการคำนวณแบบฟอร์เวิร์ดและแบ็กเวิร์ดภายใต้การย้อนกลับแบบตัดทอน (Truncated BPTT) โดยใช้ PreNorm ภายในโมดูลและเพิ่มการปรับมาตรฐานเพิ่มเติมที่จุดออกของโมดูล เพื่อเพิ่มความเสถียรในการฝึกอบรมแบบวนซ้ำที่ลึก
Warmup Deep Credit Assignment จะส่งกลับกราเดียนต์เฉพาะขั้นตอนการวนซ้ำสุดท้าย 2 ขั้นตอนในช่วงเริ่มต้นของการฝึกฝน แล้วจึงขยายแบบเชิงเส้นไปยังขั้นตอนสุดท้าย 5 ขั้นตอน กลไกการฝึกฝนนี้ช่วยให้โมเดลสามารถรวมตัวอย่างมั่นคงบนเส้นทางความรับผิดชอบที่สั้นกว่า ก่อนจะค่อยๆ เพิ่มความสัมพันธ์ที่ยาวนานขึ้น
ผลเป็นอย่างไร?
ผลการทดลองแสดงให้เห็นว่า HRM-Text มีข้อได้เปรียบอย่างชัดเจนในด้านประสิทธิภาพของสถาปัตยกรรม เป้าหมายการฝึกอบรม และประสิทธิภาพโดยรวม
1. ภายใต้กำลังการประมวลผลการฝึกที่คงที่ สถาปัตยกรรมแบบวนซ้ำมีประสิทธิภาพมากกว่าหรือไม่
ผลการทดลองแสดงว่าภายใต้เงื่อนไขการจับคู่ FLOPs HRM 1B ทำได้ดีกว่า Transformer 1B, Transformer 3B, Looped Transformer 1B และ RINS 1B ในเกือบทุกเบนช์มาร์ก; การเปรียบเทียบกับ TRM ยังแสดงให้เห็นว่าการฝึก HRM มีความเสถียรมากกว่า

รูป|เปรียบเทียบประสิทธิภาพและความเสถียรของโมเดล Transformer โมเดล HRM รักษาไดนามิกการฝึกอบรมที่เสถียรในทุกระดับขนาด ขณะที่โมเดล Transformer แสดงความไม่เสถียรอย่างรุนแรงที่ขนาดพารามิเตอร์ 1 พันล้าน ยิ่งไปกว่านั้น ที่ขนาด 0.6B HRM ใช้ปริมาณการคำนวณน้อยกว่าโมเดล Transformer เพียงครึ่งหนึ่งเพื่อให้ผลลัพธ์ที่มีความสามารถแข่งขันได้บนเกณฑ์ส่วนใหญ่
2. เป้าหมายการเสร็จสิ้นภารกิจและ PrefixLM มีประโยชน์หรือไม่
การทดลองแบบ ablative แสดงให้เห็นว่าภายใต้เงื่อนไขการจัดแนว FLOPs ค่า MMLU ของ Transformer ขนาด 1B เพิ่มขึ้นจาก 40.55 ของแบบอัตโนมัติมาตรฐาน ตามลำดับเป็น 47.72 เมื่อเพิ่มเป้าหมายการเสร็จสิ้นงาน 53.15 เมื่อเพิ่ม PrefixLM และ 60.73 เมื่อเปลี่ยนเป็นสถาปัตยกรรม HRM

รูป|เปรียบเทียบประสิทธิภาพระหว่างสถาปัตยกรรมโมเดลและเป้าหมายการฝึกอบรมที่แตกต่างกัน
3. ประสิทธิภาพของ HRM-Text เมื่อเทียบกับโมเดลเปิดปัจจุบัน
HRM-Text 1B ได้คะแนน 60.7, 81.9, 82.2, 84.5 และ 56.2 ตามลำดับบน MMLU, ARC-C, DROP, GSM8K และ MATH โดยใช้เพียง 400 พันล้าน token ที่ไม่ซ้ำกันและพารามิเตอร์ 1 พันล้านตัว จึงสามารถเข้าสู่ช่วงประสิทธิภาพของโมเดลโอเพนซอร์สขนาด 2B ถึง 7B แม้จะมีงบประมาณการฝึกอบรมน้อยกว่าโมเดลเปิดทั่วไปอย่างมาก; จำนวน token ที่ต้องใช้ในการฝึกอบรมน้อยที่สุดถึง 900 เท่า และค่าใช้จ่ายด้านการประมวลผลน้อยที่สุดถึง 432 เท่า

รูป|ผลการประเมิน HRM-Text 1B เทียบกับโมเดลโอเพนซอร์สและโมเดลที่เปิดให้ใช้น้ำหนักในช่วงเวลาเดียวกัน
4. โครงสร้างวงจรทำให้ความลึกที่มีประสิทธิภาพมากขึ้นหรือไม่
ผลการวิเคราะห์แสดงให้เห็นว่า Standard Transformer และ Looped Transformer มีแนวโน้มที่จะคงที่ในชั้นที่ตื้นกว่า ขณะที่ HRM ยังคงรักษาการเปลี่ยนแปลงของตัวแทนระหว่างบล็อกที่ชัดเจนกว่า ค่าความคล้ายคลึงแบบโคไซน์ต่ำกว่า และค่า logit lens KL สูงกว่าในชั้นที่ลึกกว่า

รูป | การวิเคราะห์ความลึกที่มีประสิทธิภาพ

รูป|การวิเคราะห์ KL ของ Logit Lens แบบทีละชั้น
ข้อจำกัดและทิศทางในอนาคต
แม้ว่า HRM-Text จะแสดงประสิทธิภาพที่แข็งแกร่งในงานที่ต้องใช้การคำนวณเชิงตรรกะอย่างหนัก แต่วิธีการนี้ยังมีข้อจำกัด และเปิดทางให้กับทิศทางการวิจัยในอนาคต
1. การแยกความรู้และการให้เหตุผล
ในปัจจุบัน ความครอบคลุมของความรู้ความจริงทั่วไปยังคงขึ้นอยู่กับขนาดของโมเดลและความกว้างของข้อมูล HRM-Text ได้รับการฝึกอบรมบน token ที่ไม่ซ้ำกันเพียง 40 พันล้านตัว และแหล่งข้อมูลเชิงความรู้แบบชัดเจนยังคงเป็นเพียงส่วนหนึ่งของชุดข้อมูลที่มีรูปแบบงานผสมผสาน ในอนาคต นักวิจัยจำเป็นต้องออกแบบแกนการให้เหตุผลที่กะทัดรัดให้แยกจากฐานข้อมูลความรู้ภายนอก โดยมอบความกว้างของความรู้ให้กับชุดข้อมูลที่เลือกสรร โมดูลที่เสริมด้วยการค้นหา หรือหน่วยความจำที่สามารถเรียนรู้ได้
2. เวลาคำนวณแบบปรับตัว
การจัดตารางแบบวนซ้ำของ HRM-Text ช่วยเพิ่มความลึกของการเรียงลำดับที่มีประสิทธิภาพ แต่ก็หมายความว่าโมเดลต้องดำเนินการขั้นตอนการเรียกซ้ำจำนวนคงที่ในระหว่างการอนุมาน ในอนาคต ทิศทางที่น่าสนใจในการศึกษาคือการนำกลไกเวลาการคำนวณแบบปรับตัวเข้ามา เพื่อให้ตัวอย่างที่ง่ายสามารถหยุดการคำนวณได้เร็วขึ้น และเก็บงบประมาณการวนซ้ำทั้งหมดไว้สำหรับตัวอย่างที่ยาก เพื่อลดต้นทุนในการอนุมาน
3. ขอบเขตการตรวจสอบในระดับการผลิตยังคงจำกัด
การทดลองด้านการปรับขนาดในปัจจุบันครอบคลุมเฉพาะกลุ่มเปรียบเทียบ Transformer ขนาด 3B พารามิเตอร์ และ HRM-Text ขนาด 1B พารามิเตอร์ ทีมวิจัยระบุว่า ยังคงต้องการการยืนยันเพิ่มเติมผ่านงานในอนาคตเพื่อตรวจสอบว่า ข้อได้เปรียบด้านประสิทธิภาพในลักษณะเดียวกันจะยังคงมีอยู่เมื่อใช้โมเดลขนาดใหญ่กว่านี้หรือไม่
4. PrefixLM และเฟรมเวิร์กการให้เหตุผล
ในปัจจุบัน การปรับใช้งาน PrefixLM ในทางปฏิบัติยังเผชิญกับข้อจำกัดด้านการดำเนินงานทางวิศวกรรม แม้ว่ามันจะสามารถทำงานได้บนเฟรมเวิร์กการสร้างข้อความแบบมาตรฐานเช่น vLLM แต่สิ่งนี้ต้องการให้เฟรมเวิร์กสนับสนุนการปิดกั้นความสนใจแบบกำหนดเองในขั้นตอน prefill หากขยายไปยังสถานการณ์การสนทนาแบบหลายรอบ จำเป็นต้องออกแบบกลไก KV-cache เพิ่มเติม เพื่อให้มั่นใจว่าส่วนของผู้ใช้ยังคงสามารถมองเห็นกันแบบสองทาง ขณะเดียวกันก็ต้องรักษาข้อจำกัดเชิงเหตุและผลในการสร้างของฝ่ายผู้ช่วย
สำหรับรายละเอียดทางเทคนิคเพิ่มเติม โปรดดูที่บทความต้นฉบับ
บทความนี้มาจากบัญชี微信 “Academic Headline” (ID: SciTouTiao) โดยผู้เขียน: Xia Qiansi
