วัง กวน ศิษย์เก่ามหาวิทยาลัยชิงหัว ประสบความสำเร็จด้วย HRM-Text ที่บรรลุ SOTA ด้วยการใช้โทเค็นเพียง 1/900 และการคำนวณเพียง 1/432

ทำลายรูปแบบการฝึกโมเดลขนาดใหญ่แบบดั้งเดิม ทีมของหวังกวน ศิษย์เก่ารุ่นปี 2000 ของมหาวิทยาลัยชิงหัว ได้เปิดตัวผลงานชิ้นใหม่:

พวกเขาใช้แบบจำลองวงจรชั้นเดียว (HRM) แทน Transformer มาตรฐาน เพื่อเสนอ HRM-Text ที่มีประสิทธิภาพสูงในการฝึกล่วงหน้าที่เกินกว่าการปรับขนาด

Tsinghua

ลิงก์เอกสารวิจัย: https://arxiv.org/abs/2605.20613

HRM-Text ยังคงบรรลุประสิทธิภาพที่เทียบเท่ากับโมเดลโอเพนซอร์สที่มีพารามิเตอร์ 2B ถึง 7B โดยใช้โทเค็นการฝึกอบรมน้อยกว่ามาตรฐาน baseline ประมาณ 100-900 เท่า และปริมาณการคำนวณที่ประมาณน้อยกว่า 96-432 เท่า

ในขณะเดียวกัน โดยใช้พารามิเตอร์ 1B และ 40B ที่ไม่ซ้ำกัน พร้อมต้นทุนการฝึกอบรมประมาณ 1,500 ดอลลาร์สหรัฐ HRM-Text ได้รับผลลัพธ์ดังต่อไปนี้ในการทดสอบมาตรฐานหลัก: MMLU 60.7% ARC-C 81.9% DROP 82.2% GSM8K 84.5% MATH 56.2%

Tsinghua

รูป｜ประสิทธิภาพการฝึกล่วงหน้า

บนพื้นฐานนี้ พวกเขาได้ระบุอย่างชัดเจนว่า: โครงสร้างเชิงก่อนหน้าและเป้าหมายการฝึกที่มุ่งเป้าสามารถลดอุปสรรคในการฝึกล่วงหน้าอย่างมีนัยสำคัญ แผนการฝึกนี้ทำให้การฝึกโมเดลพื้นฐานตั้งแต่เริ่มต้นเป็นไปได้

HRM-Text ถูกออกแบบมาอย่างไร?

การฝึกโมเดลภาษาขนาดใหญ่ (LLM) กำลังพึ่งพาองค์กรไม่กี่แห่งที่มีทรัพยากรด้านการประมวลผลและข้อมูลเพียงพอ การฝึกโมเดลพื้นฐานที่มีความสามารถในการแข่งขันมักต้องการทรัพยากรการประมวลผลหลายล้านล้านโทเค็น หลายพันหน่วย GPU และแม้แต่เงินลงทุนหลายล้านดอลลาร์

อย่างไรก็ตาม โหมดการฝึกปัจจุบันไม่มีประสิทธิภาพ เนื่องจากทรัพยากรการคำนวณจำนวนมากถูกใช้ไปกับโทเค็นที่ไม่เกี่ยวข้อง เช่น คำชี้นำ การเติมรูปแบบ และเสียงรบกวนจากเว็บไซต์ ทำให้พลังการประมวลผลในการฝึกจำนวนมากไม่ได้ถูกใช้เพื่อสนับสนุนการให้คำตอบโดยตรง

ในงานนี้ ทีมวิจัยได้รีดีไซน์สถาปัตยกรรมและเป้าหมายการฝึกอบรมใหม่ เพื่อให้การฝึกล่วงหน้าของ HRM-Text มีประสิทธิภาพมากขึ้น

สถาปัตยกรรม: ใช้แบบจำลองวนซ้ำแบบชั้นเดียวที่มีสองช่วงเวลา โดยแบ่งการคำนวณออกเป็นโมดูลช้า H และโมดูลเร็ว L แบบ Transformer มาตรฐานจะดำเนินการส่งข้อมูลไปข้างหน้าเพียงครั้งเดียวสำหรับแต่ละโทเค็น แต่ HRM จะทำการอัปเดตแบบวนซ้ำหลายรอบบนโทเค็นเดียวกัน โมดูล H และ L แต่ละตัวมีพารามิเตอร์หลักของการวนซ้ำเพียงครึ่งหนึ่ง โดยรวมการคำนวณเทียบเท่ากับการขยายการวนซ้ำ four ครั้งบนพารามิเตอร์ชุดเดียวกัน โดยไม่เพิ่มปริมาณพารามิเตอร์ แต่เพิ่มความลึกของการคำนวณ

เป้าหมายการฝึกอบรม: ไม่ใช้การฝึกล่วงหน้าแบบอัตโนมัติแบบเต็มข้อความอีกต่อไป แต่ฝึกโดยตรงบนคู่คำสั่ง-คำตอบ โดยคำนวณค่าความสูญเสียเฉพาะส่วนคำตอบเท่านั้น และร่วมกับการซ่อนแบบ PrefixLM เพื่อให้ส่วนคำสั่งสามารถให้ความสนใจแบบสองทิศทาง และส่วนคำตอบสร้างตามการซ่อนแบบเหตุและผล

Tsinghua

รูป｜โครงสร้าง HRM-Text

เพื่อเพิ่มความเสถียรของการฝึกแบบเรียกซ้ำ ทีมวิจัยได้แนะนำ MagicNorm และ Warmup Deep Credit Assignment

MagicNorm เป็นกลยุทธ์การปรับมาตรฐานแบบผสมที่ใช้ความไม่สมดุลของความลึกในการคำนวณแบบฟอร์เวิร์ดและแบ็กเวิร์ดภายใต้การย้อนกลับแบบตัดทอน (Truncated BPTT) โดยใช้ PreNorm ภายในโมดูลและเพิ่มการปรับมาตรฐานเพิ่มเติมที่จุดออกของโมดูล เพื่อเพิ่มความเสถียรในการฝึกอบรมแบบวนซ้ำที่ลึก

Warmup Deep Credit Assignment จะส่งกลับกราเดียนต์เฉพาะขั้นตอนการวนซ้ำสุดท้าย 2 ขั้นตอนในช่วงเริ่มต้นของการฝึกฝน แล้วจึงขยายแบบเชิงเส้นไปยังขั้นตอนสุดท้าย 5 ขั้นตอน กลไกการฝึกฝนนี้ช่วยให้โมเดลสามารถรวมตัวอย่างมั่นคงบนเส้นทางความรับผิดชอบที่สั้นกว่า ก่อนจะค่อยๆ เพิ่มความสัมพันธ์ที่ยาวนานขึ้น

ผลเป็นอย่างไร?

ผลการทดลองแสดงให้เห็นว่า HRM-Text มีข้อได้เปรียบอย่างชัดเจนในด้านประสิทธิภาพของสถาปัตยกรรม เป้าหมายการฝึกอบรม และประสิทธิภาพโดยรวม

1. ภายใต้กำลังการประมวลผลการฝึกที่คงที่ สถาปัตยกรรมแบบวนซ้ำมีประสิทธิภาพมากกว่าหรือไม่

ผลการทดลองแสดงว่าภายใต้เงื่อนไขการจับคู่ FLOPs HRM 1B ทำได้ดีกว่า Transformer 1B, Transformer 3B, Looped Transformer 1B และ RINS 1B ในเกือบทุกเบนช์มาร์ก; การเปรียบเทียบกับ TRM ยังแสดงให้เห็นว่าการฝึก HRM มีความเสถียรมากกว่า

Tsinghua

รูป｜เปรียบเทียบประสิทธิภาพและความเสถียรของโมเดล Transformer โมเดล HRM รักษาไดนามิกการฝึกอบรมที่เสถียรในทุกระดับขนาด ขณะที่โมเดล Transformer แสดงความไม่เสถียรอย่างรุนแรงที่ขนาดพารามิเตอร์ 1 พันล้าน ยิ่งไปกว่านั้น ที่ขนาด 0.6B HRM ใช้ปริมาณการคำนวณน้อยกว่าโมเดล Transformer เพียงครึ่งหนึ่งเพื่อให้ผลลัพธ์ที่มีความสามารถแข่งขันได้บนเกณฑ์ส่วนใหญ่

2. เป้าหมายการเสร็จสิ้นภารกิจและ PrefixLM มีประโยชน์หรือไม่

การทดลองแบบ ablative แสดงให้เห็นว่าภายใต้เงื่อนไขการจัดแนว FLOPs ค่า MMLU ของ Transformer ขนาด 1B เพิ่มขึ้นจาก 40.55 ของแบบอัตโนมัติมาตรฐาน ตามลำดับเป็น 47.72 เมื่อเพิ่มเป้าหมายการเสร็จสิ้นงาน 53.15 เมื่อเพิ่ม PrefixLM และ 60.73 เมื่อเปลี่ยนเป็นสถาปัตยกรรม HRM

Tsinghua

รูป｜เปรียบเทียบประสิทธิภาพระหว่างสถาปัตยกรรมโมเดลและเป้าหมายการฝึกอบรมที่แตกต่างกัน

3. ประสิทธิภาพของ HRM-Text เมื่อเทียบกับโมเดลเปิดปัจจุบัน

HRM-Text 1B ได้คะแนน 60.7, 81.9, 82.2, 84.5 และ 56.2 ตามลำดับบน MMLU, ARC-C, DROP, GSM8K และ MATH โดยใช้เพียง 400 พันล้าน token ที่ไม่ซ้ำกันและพารามิเตอร์ 1 พันล้านตัว จึงสามารถเข้าสู่ช่วงประสิทธิภาพของโมเดลโอเพนซอร์สขนาด 2B ถึง 7B แม้จะมีงบประมาณการฝึกอบรมน้อยกว่าโมเดลเปิดทั่วไปอย่างมาก; จำนวน token ที่ต้องใช้ในการฝึกอบรมน้อยที่สุดถึง 900 เท่า และค่าใช้จ่ายด้านการประมวลผลน้อยที่สุดถึง 432 เท่า

Tsinghua

รูป｜ผลการประเมิน HRM-Text 1B เทียบกับโมเดลโอเพนซอร์สและโมเดลที่เปิดให้ใช้น้ำหนักในช่วงเวลาเดียวกัน

4. โครงสร้างวงจรทำให้ความลึกที่มีประสิทธิภาพมากขึ้นหรือไม่

ผลการวิเคราะห์แสดงให้เห็นว่า Standard Transformer และ Looped Transformer มีแนวโน้มที่จะคงที่ในชั้นที่ตื้นกว่า ขณะที่ HRM ยังคงรักษาการเปลี่ยนแปลงของตัวแทนระหว่างบล็อกที่ชัดเจนกว่า ค่าความคล้ายคลึงแบบโคไซน์ต่ำกว่า และค่า logit lens KL สูงกว่าในชั้นที่ลึกกว่า

Tsinghua

รูป | การวิเคราะห์ความลึกที่มีประสิทธิภาพ

Tsinghua

รูป｜การวิเคราะห์ KL ของ Logit Lens แบบทีละชั้น

ข้อจำกัดและทิศทางในอนาคต

แม้ว่า HRM-Text จะแสดงประสิทธิภาพที่แข็งแกร่งในงานที่ต้องใช้การคำนวณเชิงตรรกะอย่างหนัก แต่วิธีการนี้ยังมีข้อจำกัด และเปิดทางให้กับทิศทางการวิจัยในอนาคต

1. การแยกความรู้และการให้เหตุผล

ในปัจจุบัน ความครอบคลุมของความรู้ความจริงทั่วไปยังคงขึ้นอยู่กับขนาดของโมเดลและความกว้างของข้อมูล HRM-Text ได้รับการฝึกอบรมบน token ที่ไม่ซ้ำกันเพียง 40 พันล้านตัว และแหล่งข้อมูลเชิงความรู้แบบชัดเจนยังคงเป็นเพียงส่วนหนึ่งของชุดข้อมูลที่มีรูปแบบงานผสมผสาน ในอนาคต นักวิจัยจำเป็นต้องออกแบบแกนการให้เหตุผลที่กะทัดรัดให้แยกจากฐานข้อมูลความรู้ภายนอก โดยมอบความกว้างของความรู้ให้กับชุดข้อมูลที่เลือกสรร โมดูลที่เสริมด้วยการค้นหา หรือหน่วยความจำที่สามารถเรียนรู้ได้

2. เวลาคำนวณแบบปรับตัว

การจัดตารางแบบวนซ้ำของ HRM-Text ช่วยเพิ่มความลึกของการเรียงลำดับที่มีประสิทธิภาพ แต่ก็หมายความว่าโมเดลต้องดำเนินการขั้นตอนการเรียกซ้ำจำนวนคงที่ในระหว่างการอนุมาน ในอนาคต ทิศทางที่น่าสนใจในการศึกษาคือการนำกลไกเวลาการคำนวณแบบปรับตัวเข้ามา เพื่อให้ตัวอย่างที่ง่ายสามารถหยุดการคำนวณได้เร็วขึ้น และเก็บงบประมาณการวนซ้ำทั้งหมดไว้สำหรับตัวอย่างที่ยาก เพื่อลดต้นทุนในการอนุมาน

3. ขอบเขตการตรวจสอบในระดับการผลิตยังคงจำกัด

การทดลองด้านการปรับขนาดในปัจจุบันครอบคลุมเฉพาะกลุ่มเปรียบเทียบ Transformer ขนาด 3B พารามิเตอร์ และ HRM-Text ขนาด 1B พารามิเตอร์ ทีมวิจัยระบุว่า ยังคงต้องการการยืนยันเพิ่มเติมผ่านงานในอนาคตเพื่อตรวจสอบว่า ข้อได้เปรียบด้านประสิทธิภาพในลักษณะเดียวกันจะยังคงมีอยู่เมื่อใช้โมเดลขนาดใหญ่กว่านี้หรือไม่

4. PrefixLM และเฟรมเวิร์กการให้เหตุผล

ในปัจจุบัน การปรับใช้งาน PrefixLM ในทางปฏิบัติยังเผชิญกับข้อจำกัดด้านการดำเนินงานทางวิศวกรรม แม้ว่ามันจะสามารถทำงานได้บนเฟรมเวิร์กการสร้างข้อความแบบมาตรฐานเช่น vLLM แต่สิ่งนี้ต้องการให้เฟรมเวิร์กสนับสนุนการปิดกั้นความสนใจแบบกำหนดเองในขั้นตอน prefill หากขยายไปยังสถานการณ์การสนทนาแบบหลายรอบ จำเป็นต้องออกแบบกลไก KV-cache เพิ่มเติม เพื่อให้มั่นใจว่าส่วนของผู้ใช้ยังคงสามารถมองเห็นกันแบบสองทาง ขณะเดียวกันก็ต้องรักษาข้อจำกัดเชิงเหตุและผลในการสร้างของฝ่ายผู้ช่วย

สำหรับรายละเอียดทางเทคนิคเพิ่มเติม โปรดดูที่บทความต้นฉบับ

บทความนี้มาจากบัญชี微信 “Academic Headline” (ID: SciTouTiao) โดยผู้เขียน: Xia Qiansi