Sapient Membuka Sumber Model HRM-Text 1M-Parameter dengan Biaya Pelatihan 1.300x Lebih Rendah

Pesan AIMPACT, 19 Mei (UTC+8), menurut pemantauan Beating, Sapient Intelligence telah melepaskan model dasar generasi teks dengan 1 miliar parameter (1B), HRM-Text. Ini adalah model pra-pelatihan murni berbasis arsitektur Hierarchical Reasoning Model (HRM). Dengan memperkenalkan inferensi ruang laten di lapisan bawah arsitektur, model ini mengurangi konsumsi daya komputasi pra-pelatihan model dasar sebesar 130 hingga 600 kali. Secara khusus, HRM-Text hanya menggunakan 40 miliar (40B) token terstruktur untuk pra-pelatihan, dengan jumlah data sekitar seribu kali lebih sedikit dibandingkan model standar sekelasnya. Uji coba resmi menunjukkan bahwa versi 1B dapat dilatih dari awal dalam sekitar 46 jam menggunakan dua server H100 8-GPU, dengan biaya komputasi sekitar $1.472; sementara versi 0.6B hanya memerlukan satu node selama 50 jam, dengan biaya perangkat keras sekitar $800. Kerangka kerja teknis lengkap, termasuk ekstraksi data, pengemasan urutan, dan pelatihan terdistribusi PyTorch, telah dirilis secara bersamaan. Dukungan penurunan biaya ekstrem berasal dari desain siklus skala waktu ganda (Dual-timescale recurrent) yang unik. Model ini memiliki dua set modul Transformer—cepat (lapisan bawah) dan lambat (lapisan atas)—yang beriterasi secara bergantian pada input yang sama dan bertukar informasi melalui penjumlahan status. Desain ini memungkinkan model untuk secara dinamis memperluas kedalaman komputasi dengan meningkatkan jumlah siklus, sambil tetap mempertahankan jumlah parameter fisik tetap. Penurunan tajam dalam ambang pra-pelatihan memberikan kesempatan baru bagi banyak teori model yang sebelumnya terhenti karena biaya komputasi tinggi untuk diverifikasi dengan biaya rendah. Perlu diperhatikan bahwa rilis kali ini hanya mencakup bobot pra-pelatihan yang belum diselaraskan; model hanya dapat melakukan tugas kelanjutan awalan dan tidak dapat langsung digunakan sebagai asisten tanya-jawab. (Sumber: BlockBeats)