Sapient เปิดแหล่งที่มาของโมเดล HRM-Text ขนาดพารามิเตอร์ 1 พันล้าน ด้วยต้นทุนการฝึกอบรมต่ำกว่า 1,300 เท่า

ข้อความจาก AIMPACT เมื่อวันที่ 19 พฤษภาคม (UTC+8) ตามการติดตามของ Beating Sapient Intelligence เปิดตัวโมเดลพื้นฐานสำหรับการสร้างข้อความ HRM-Text ขนาด 1 พันล้านพารามิเตอร์ (1B) ซึ่งเป็นโมเดลที่ฝึกแบบเพียงแค่การฝึกล่วงหน้า (pre-training) โดยใช้สถาปัตยกรรม Hierarchical Reasoning Model (HRM) โมเดลนี้ลดการใช้พลังการคำนวณในการฝึกโมเดลพื้นฐานลง 130 ถึง 600 เท่า โดยการนำแนวคิดการให้เหตุผลในพื้นที่เชิงแฝง (latent space reasoning) มาใช้ในชั้นล่างของสถาปัตยกรรม โดยเฉพาะอย่างยิ่ง HRM-Text สามารถฝึกได้สำเร็จด้วยข้อมูลเพียง 40 พันล้าน (40B) Token ที่มีโครงสร้าง ซึ่งมีปริมาณข้อมูลประมาณหนึ่งในพันของโมเดลทั่วไปในระดับเดียวกัน การทดสอบอย่างเป็นทางการแสดงว่า สามารถฝึกเวอร์ชัน 1B จากศูนย์ได้ภายในเวลาประมาณ 46 ชั่วโมงโดยใช้เซิร์ฟเวอร์สองเครื่อง แต่ละเครื่องมี GPU H100 8 ตัว โดยมีต้นทุนการคำนวณประมาณ 1,472 ดอลลาร์สหรัฐ ส่วนเวอร์ชัน 0.6B สามารถฝึกได้บนโหนดเดียวภายในเวลา 50 ชั่วโมง โดยมีต้นทุนฮาร์ดแวร์ประมาณ 800 ดอลลาร์สหรัฐ โครงร่างงานทางวิศวกรรมทั้งหมดรวมถึงการดึงข้อมูล การแพ็กเกจลำดับ และการฝึกแบบกระจายของ PyTorch ได้รับการเปิดเผยพร้อมกันแล้ว การลดต้นทุนอย่างสุดขีดนี้เกิดจากออกแบบวงจรวนสองระดับเวลา (Dual-timescale recurrent) ที่เป็นเอกลักษณ์ โดยโมเดลมีโมดูล Transformer สองชุดภายในตัวเอง: ชุดเร็ว (ชั้นล่าง) และชุดช้า (ชั้นสูง) สองชุดนี้จะวนซ้ำสลับกันบนอินพุตชุดเดียวกัน และแลกเปลี่ยนข้อมูลผ่านการบวกสถานะ การออกแบบนี้ช่วยให้โมเดลสามารถขยายความลึกของการคำนวณแบบไดนามิกได้โดยการเพิ่มจำนวนรอบการวนซ้ำ โดยไม่ต้องเปลี่ยนจำนวนพารามิเตอร์ทางกายภาพที่มีอยู่ การลดขีดจำกัดในการฝึกล่วงหน้าอย่างรุนแรงทำให้ทฤษฎีโมเดลต่างๆ ที่เคยถูกเลื่อนออกไปเนื่องจากต้นทุนการคำนวณสูง กลับมามีโอกาสได้รับการตรวจสอบด้วยต้นทุนต่ำอีกครั้ง โปรดสังเกตว่า เวอร์ชันที่เปิดเผยในครั้งนี้เป็นเพียงน้ำหนักการฝึกล่วงหน้าที่ยังไม่ได้จัดแนว (unaligned) เท่านั้น โมเดลสามารถทำหน้าที่เขียนต่อจากคำนำหน้า (prefix continuation) เท่านั้น และไม่สามารถใช้งานเป็นผู้ช่วยตอบคำถามได้โดยตรง (แหล่งที่มา: BlockBeats)