Sapient ฝึกโมเดล HRM-Text ขนาดพารามิเตอร์ 1.15 พันล้านในราคา 1,500 ดอลลาร์สหรัฐในเวลา 1.9 วัน

การฝึกโมเดลภาษาขนาดใหญ่ตั้งแต่เริ่มต้นนั้นถูกคาดว่าจะมีค่าใช้จ่ายสูง แต่ Sapient Intelligence ทำได้ในราคาต่ำกว่าค่าใช้จ่ายของ MacBook Pro

สตาร์ทอัพที่มีสำนักงานใหญ่ในสิงคโปร์เปิดตัว HRM-Text ซึ่งเป็นโมเดลภาษาที่มีพารามิเตอร์ 1.15 พันล้านตัว ฝึกฝนบน GPU 16 ตัวเป็นเวลา 1.9 วัน โดยมีต้นทุนรวมระหว่าง $1,000 ถึง $1,500 โมเดลดังกล่าวเปิดซอร์สอย่างสมบูรณ์บน GitHub และ Hugging Face ซึ่งหมายความว่าทุกคนสามารถตรวจสอบ แก้ไข และนำไปใช้งานได้

วิธีการทำงานของ HRM-Text และเหตุผลที่มันสำคัญ

โมเดลแบบดั้งเดิมที่ใช้สถาปัตยกรรม Transformer ซึ่งเป็นพื้นฐานของ GPT และรุ่นพี่น้องอื่นๆ มักต้องการการฝึกอบรมบนทริลเลียนโทเค็น แต่ HRM-Text ได้รับการฝึกอบรมบนโทเค็นที่มีโครงสร้างประมาณ 40 พันล้านโทเค็น ซึ่งน้อยกว่าหลายลำดับขนาด แต่โมเดลยังคงได้คะแนนการเปรียบเทียบเชิงแข่งขัน

โฆษณา

บนการทดสอบ MATH HRM-Text ได้คะแนน 56.2 ใน DROP ซึ่งเป็นการทดสอบความเข้าใจการอ่านที่ต้องใช้การให้เหตุผลแบบแยกส่วน ได้คะแนน 82.2 Sapient เปรียบเทียบผลลัพธ์เหล่านี้กับโมเดลเช่น Llama 3.2 3B ของ Meta และ Qwen 3.5 2B ของ Alibaba ซึ่งต้องใช้ทรัพยากรมากกว่ามากในการฝึก

บริษัทที่อยู่เบื้องหลังโมเดล

Sapient Intelligence ก่อตั้งขึ้นในปี 2024 โดย Guan Wang และ William Chen บริษัทได้ระดมทุนรอบ seed มูลค่า 22 ล้านดอลลาร์สหรัฐในเดือนมกราคม 2025 ทำให้มูลค่าบริษัทเกิน 200 ล้านดอลลาร์สหรัฐ

สถาปัตยกรรม HRM เองเปิดตัวครั้งแรกในเอกสารเดือนมิถุนายน 2025 โดย Sapient แสดงประสิทธิภาพที่แข่งขันได้โดยใช้โมเดลที่มีพารามิเตอร์เพียง 27 ล้านค่า HRM-Text ขยายแนวทางนี้ออกประมาณ 40 เท่าในจำนวนพารามิเตอร์ ขณะที่ยังคงต้นทุนการคำนวณให้ต่ำมากเมื่อเทียบกับมาตรฐานอุตสาหกรรม

สิ่งนี้หมายความว่าอย่างไรสำหรับคริปโตและปัญญาประดิษฐ์แบบกระจาย

หนึ่งในอุปสรรคใหญ่ที่สุดสำหรับการอนุมาน AI บนโซ่คือต้นทุนการประมวลผล การรันโมเดลที่มีพารามิเตอร์หลายพันล้านบนเครือข่าย GPU แบบกระจายศูนย์เช่น Akash, Render หรือ io.net นั้นมีค่าใช้จ่ายสูงและช้า โมเดลที่สามารถให้เหตุผลที่มีความหมายที่พารามิเตอร์ 1.15 พันล้าน ซึ่งฝึกด้วยข้อมูลเพียงส่วนน้อยของข้อมูลทั่วไป กลับกลายเป็นตัวเลือกที่เป็นไปได้มากขึ้นอย่างมากสำหรับการปรับใช้แบบกระจายศูนย์

สถาปัตยกรรมโมเดลที่เปิดซอร์สอย่างสมบูรณ์ ซึ่งใครก็สามารถฝึกได้ในราคา 1,500 ดอลลาร์ สอดคล้องกับหลักการของเครือข่ายแบบกระจายศูนย์ที่ต้องการเสนอบริการปัญญาประดิษฐ์โดยไม่ต้องพึ่งพา API ของ OpenAI หรือ Anthropic