Sapient ฝึกโมเดล HRM-Text ขนาดพารามิเตอร์ 1.15 พันล้านในราคา 1,500 ดอลลาร์สหรัฐในเวลา 1.9 วัน

iconCryptoBriefing
แชร์
AI summary iconสรุป

การฝึกโมเดลภาษาขนาดใหญ่ตั้งแต่เริ่มต้นนั้นถูกคาดว่าจะมีค่าใช้จ่ายสูง แต่ Sapient Intelligence ทำได้ในราคาต่ำกว่าค่าใช้จ่ายของ MacBook Pro

สตาร์ทอัพที่มีสำนักงานใหญ่ในสิงคโปร์เปิดตัว HRM-Text ซึ่งเป็นโมเดลภาษาที่มีพารามิเตอร์ 1.15 พันล้านตัว ฝึกฝนบน GPU 16 ตัวเป็นเวลา 1.9 วัน โดยมีต้นทุนรวมระหว่าง $1,000 ถึง $1,500 โมเดลดังกล่าวเปิดซอร์สอย่างสมบูรณ์บน GitHub และ Hugging Face ซึ่งหมายความว่าทุกคนสามารถตรวจสอบ แก้ไข และนำไปใช้งานได้

วิธีการทำงานของ HRM-Text และเหตุผลที่มันสำคัญ

โมเดลแบบดั้งเดิมที่ใช้สถาปัตยกรรม Transformer ซึ่งเป็นพื้นฐานของ GPT และรุ่นพี่น้องอื่นๆ มักต้องการการฝึกอบรมบนทริลเลียนโทเค็น แต่ HRM-Text ได้รับการฝึกอบรมบนโทเค็นที่มีโครงสร้างประมาณ 40 พันล้านโทเค็น ซึ่งน้อยกว่าหลายลำดับขนาด แต่โมเดลยังคงได้คะแนนการเปรียบเทียบเชิงแข่งขัน

โฆษณา

บนการทดสอบ MATH HRM-Text ได้คะแนน 56.2 ใน DROP ซึ่งเป็นการทดสอบความเข้าใจการอ่านที่ต้องใช้การให้เหตุผลแบบแยกส่วน ได้คะแนน 82.2 Sapient เปรียบเทียบผลลัพธ์เหล่านี้กับโมเดลเช่น Llama 3.2 3B ของ Meta และ Qwen 3.5 2B ของ Alibaba ซึ่งต้องใช้ทรัพยากรมากกว่ามากในการฝึก

บริษัทที่อยู่เบื้องหลังโมเดล

Sapient Intelligence ก่อตั้งขึ้นในปี 2024 โดย Guan Wang และ William Chen บริษัทได้ระดมทุนรอบ seed มูลค่า 22 ล้านดอลลาร์สหรัฐในเดือนมกราคม 2025 ทำให้มูลค่าบริษัทเกิน 200 ล้านดอลลาร์สหรัฐ

สถาปัตยกรรม HRM เองเปิดตัวครั้งแรกในเอกสารเดือนมิถุนายน 2025 โดย Sapient แสดงประสิทธิภาพที่แข่งขันได้โดยใช้โมเดลที่มีพารามิเตอร์เพียง 27 ล้านค่า HRM-Text ขยายแนวทางนี้ออกประมาณ 40 เท่าในจำนวนพารามิเตอร์ ขณะที่ยังคงต้นทุนการคำนวณให้ต่ำมากเมื่อเทียบกับมาตรฐานอุตสาหกรรม

สิ่งนี้หมายความว่าอย่างไรสำหรับคริปโตและปัญญาประดิษฐ์แบบกระจาย

หนึ่งในอุปสรรคใหญ่ที่สุดสำหรับการอนุมาน AI บนโซ่คือต้นทุนการประมวลผล การรันโมเดลที่มีพารามิเตอร์หลายพันล้านบนเครือข่าย GPU แบบกระจายศูนย์เช่น Akash, Render หรือ io.net นั้นมีค่าใช้จ่ายสูงและช้า โมเดลที่สามารถให้เหตุผลที่มีความหมายที่พารามิเตอร์ 1.15 พันล้าน ซึ่งฝึกด้วยข้อมูลเพียงส่วนน้อยของข้อมูลทั่วไป กลับกลายเป็นตัวเลือกที่เป็นไปได้มากขึ้นอย่างมากสำหรับการปรับใช้แบบกระจายศูนย์

สถาปัตยกรรมโมเดลที่เปิดซอร์สอย่างสมบูรณ์ ซึ่งใครก็สามารถฝึกได้ในราคา 1,500 ดอลลาร์ สอดคล้องกับหลักการของเครือข่ายแบบกระจายศูนย์ที่ต้องการเสนอบริการปัญญาประดิษฐ์โดยไม่ต้องพึ่งพา API ของ OpenAI หรือ Anthropic

คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา