Sapient Melatih Model HRM-Text 1.15B-Parameter dengan Kos $1,500 dalam 1.9 Hari

Melatih model bahasa besar dari awal sepatutnya mahal. Sapient Intelligence baru saja melakukannya dengan kos kurang daripada harga MacBook Pro.

Startup berpangkalan di Singapura melancarkan HRM-Text, model bahasa dengan 1,15 bilion parameter yang dilatih menggunakan 16 GPU selama 1.9 hari dengan kos keseluruhan antara $1,000 dan $1,500. Model ini sepenuhnya dibuka sumbernya di GitHub dan Hugging Face, bermakna sesiapa sahaja boleh mengkaji, memodifikasi, dan melaksanakannya.

Bagaimana HRM-Text berfungsi, dan mengapa ia penting

Model berasaskan Transformer tradisional, arsitektur di sebalik GPT dan kerabatnya, biasanya memerlukan latihan pada triliunan token. HRM-Text dilatih pada sekitar 40 miliar token terstruktur. Itu adalah jumlah data yang jauh lebih sedikit, namun model ini masih mencapai skor benchmark yang kompetitif.

Pada ujian MATH, HRM-Text mencapai 56.2. Pada DROP, ujian pemahaman bacaan yang memerlukan penaakulan diskret, ia mencapai 82.2. Sapient meletakkan keputusan ini berbanding model seperti Llama 3.2 3B milik Meta dan Qwen 3.5 2B milik Alibaba, yang kedua-duanya memerlukan sumber yang jauh lebih banyak untuk dilatih.

Syarikat di sebalik model tersebut

Sapient Intelligence didirikan pada tahun 2024 oleh Guan Wang dan William Chen. Syarikat ini mengumpulkan putaran benih sebanyak $22 juta pada Januari 2025, mendorong penilaian melebihi $200 juta.

Arsitektur HRM itu sendiri diperkenalkan dalam kertas pada Jun 2025, di mana Sapient menunjukkan prestasi yang kompetitif menggunakan model dengan hanya 27 juta parameter. HRM-Text memperbesar pendekatan ini sebanyak kira-kira 40 kali dalam jumlah parameter sambil mengekalkan kos pengiraan hampir tidak signifikan mengikut piawaian industri.

Apakah yang dimaksudkan ini untuk kripto dan AI terdesentralisasi

Salah satu halangan utama bagi inferens AI atas rantai ialah kos pengiraan. Menjalankan model dengan bilion parameter ganda di rangkaian GPU terdesentralisasi seperti Akash, Render, atau io.net adalah mahal dan perlahan. Model yang mampu mencapai penaakulan bermakna pada 1.15 bilion parameter, dilatih pada sebahagian kecil data biasa, tiba-tiba menjadi calon yang jauh lebih realistik untuk pelaksanaan terdesentralisasi.

Arsitektur model sumber terbuka sepenuhnya yang boleh dilatih oleh sesiapa sahaja dengan harga $1,500 selari secara semula jadi dengan etos rangkaian terdesentralisasi yang ingin menawarkan perkhidmatan AI tanpa bergantung pada API OpenAI atau Anthropic.