Sapient เปิดแหล่งที่มาของโมเดล HRM-Text ขนาดพารามิเตอร์ 1 พันล้าน ด้วยต้นทุนการฝึกอบรมต่ำกว่า 1,300 เท่า

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
Sapient Intelligence เปิดตัวข่าวบนโซ่เมื่อวันที่ 19 พฤษภาคม (UTC+8) โดยเปิดรหัสแหล่งที่มาของ HRM-Text โมเดลข้อความขนาด 1 พันล้านพารามิเตอร์ที่มีสถาปัตยกรรมการให้เหตุผลแบบมีลำดับชั้น โมเดลนี้ใช้การให้เหตุผลในพื้นที่แฝงเพื่อลดต้นทุนการฝึกอบรมล่วงหน้าลง 130 ถึง 600 เท่า โดยได้รับการฝึกอบรมบนข้อมูลโครงสร้าง 40 พันล้านโทเค็น ซึ่งเป็นสัดส่วนน้อยกว่าข้อมูลที่โมเดลที่คล้ายกันใช้ รุ่น 1 พันล้านสามารถฝึกอบรมได้ในเวลา 46 ชั่วโมงด้วยค่าใช้จ่าย 1,472 ดอลลาร์สหรัฐโดยใช้เซิร์ฟเวอร์ H100 สองเครื่อง แต่ละเครื่องมี GPU 8 ตัว ส่วนรุ่น 0.6 พันล้านมีค่าใช้จ่ายเพียง 800 ดอลลาร์สหรัฐ พร้อมกับเปิดรหัสแหล่งที่มาของกรอบงานวิศวกรรมเต็มรูปแบบ รวมถึงการดึงข้อมูลและการฝึกอบรมด้วย PyTorch ข้อมูลเงินเฟ้อและประสิทธิภาพในการฝึกอบรมเป็นจุดเด่นหลักของการเปิดตัวครั้งนี้

ข้อความจาก AIMPACT เมื่อวันที่ 19 พฤษภาคม (UTC+8) ตามการติดตามของ Beating Sapient Intelligence เปิดตัวโมเดลพื้นฐานสำหรับการสร้างข้อความ HRM-Text ขนาด 1 พันล้านพารามิเตอร์ (1B) ซึ่งเป็นโมเดลที่ฝึกแบบเพียงแค่การฝึกล่วงหน้า (pre-training) โดยใช้สถาปัตยกรรม Hierarchical Reasoning Model (HRM) โมเดลนี้ลดการใช้พลังการคำนวณในการฝึกโมเดลพื้นฐานลง 130 ถึง 600 เท่า โดยการนำแนวคิดการให้เหตุผลในพื้นที่เชิงแฝง (latent space reasoning) มาใช้ในชั้นล่างของสถาปัตยกรรม โดยเฉพาะอย่างยิ่ง HRM-Text สามารถฝึกได้สำเร็จด้วยข้อมูลเพียง 40 พันล้าน (40B) Token ที่มีโครงสร้าง ซึ่งมีปริมาณข้อมูลประมาณหนึ่งในพันของโมเดลทั่วไปในระดับเดียวกัน การทดสอบอย่างเป็นทางการแสดงว่า สามารถฝึกเวอร์ชัน 1B จากศูนย์ได้ภายในเวลาประมาณ 46 ชั่วโมงโดยใช้เซิร์ฟเวอร์สองเครื่อง แต่ละเครื่องมี GPU H100 8 ตัว โดยมีต้นทุนการคำนวณประมาณ 1,472 ดอลลาร์สหรัฐ ส่วนเวอร์ชัน 0.6B สามารถฝึกได้บนโหนดเดียวภายในเวลา 50 ชั่วโมง โดยมีต้นทุนฮาร์ดแวร์ประมาณ 800 ดอลลาร์สหรัฐ โครงร่างงานทางวิศวกรรมทั้งหมดรวมถึงการดึงข้อมูล การแพ็กเกจลำดับ และการฝึกแบบกระจายของ PyTorch ได้รับการเปิดเผยพร้อมกันแล้ว การลดต้นทุนอย่างสุดขีดนี้เกิดจากออกแบบวงจรวนสองระดับเวลา (Dual-timescale recurrent) ที่เป็นเอกลักษณ์ โดยโมเดลมีโมดูล Transformer สองชุดภายในตัวเอง: ชุดเร็ว (ชั้นล่าง) และชุดช้า (ชั้นสูง) สองชุดนี้จะวนซ้ำสลับกันบนอินพุตชุดเดียวกัน และแลกเปลี่ยนข้อมูลผ่านการบวกสถานะ การออกแบบนี้ช่วยให้โมเดลสามารถขยายความลึกของการคำนวณแบบไดนามิกได้โดยการเพิ่มจำนวนรอบการวนซ้ำ โดยไม่ต้องเปลี่ยนจำนวนพารามิเตอร์ทางกายภาพที่มีอยู่ การลดขีดจำกัดในการฝึกล่วงหน้าอย่างรุนแรงทำให้ทฤษฎีโมเดลต่างๆ ที่เคยถูกเลื่อนออกไปเนื่องจากต้นทุนการคำนวณสูง กลับมามีโอกาสได้รับการตรวจสอบด้วยต้นทุนต่ำอีกครั้ง โปรดสังเกตว่า เวอร์ชันที่เปิดเผยในครั้งนี้เป็นเพียงน้ำหนักการฝึกล่วงหน้าที่ยังไม่ได้จัดแนว (unaligned) เท่านั้น โมเดลสามารถทำหน้าที่เขียนต่อจากคำนำหน้า (prefix continuation) เท่านั้น และไม่สามารถใช้งานเป็นผู้ช่วยตอบคำถามได้โดยตรง (แหล่งที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา