Sapient Membuka Sumber Model HRM-Text 1B-Parameter dengan Kos Latihan 1.300x Lebih Rendah

Pesan AIMPACT, 19 Mei (UTC+8), menurut pemantauan Beating, Sapient Intelligence telah melepaskan model dasar generasi teks berparameter 1 miliar (1B), HRM-Text. Ini adalah model pra-pelatihan murni berdasarkan arsitektur Hierarchical Reasoning Model (HRM). Dengan memperkenalkan inferensi ruang laten di lapisan bawah arsitektur, model ini mengurangi konsumsi daya komputasi pra-pelatihan model dasar sebesar 130 hingga 600 kali. Secara khusus, HRM-Text hanya menggunakan 40 miliar (40B) token terstruktur untuk pra-pelatihan, dengan jumlah data sekitar seperseribu dari model biasa sekelasnya. Uji coba resmi menunjukkan bahwa versi 1B dapat dilatih dari awal dalam waktu sekitar 46 jam menggunakan dua server H100 8-kartu, dengan biaya komputasi sekitar $1.472; sementara versi 0.6B hanya memerlukan satu node selama 50 jam, dengan biaya perangkat keras sekitar $800. Kerangka kerja teknis lengkap, termasuk ekstraksi data, pengemasan urutan, dan pelatihan terdistribusi PyTorch, telah dirilis secara terbuka secara bersamaan. Dukungan penurunan biaya ekstrem berasal dari desain siklus skala waktu ganda (Dual-timescale recurrent) yang unik. Model ini memiliki dua set modul Transformer—cepat (lapisan bawah) dan lambat (lapisan atas)—yang beriterasi secara bergantian pada input yang sama dan bertukar informasi melalui penjumlahan status. Desain ini memungkinkan model untuk secara dinamis memperluas kedalaman komputasi dengan menambah jumlah siklus, sambil tetap mempertahankan jumlah parameter fisik yang tetap. Penurunan tajam dalam ambang pra-pelatihan memberikan peluang baru untuk menguji kembali teori model yang sebelumnya terhenti karena biaya komputasi yang mahal. Perlu diperhatikan bahwa versi yang dirilis kali ini hanya berupa bobot pra-pelatihan yang belum diselaraskan; model ini hanya dapat menjalankan tugas kelanjutan awalan dan tidak dapat digunakan langsung sebagai asisten tanya-jawab. (Sumber: BlockBeats)