Pesan AIMPACT, 19 Mei (UTC+8), menurut pemantauan Beating, Sapient Intelligence telah melepaskan model dasar generasi teks dengan 1 miliar parameter (1B), HRM-Text. Ini adalah model pra-pelatihan murni berbasis arsitektur Hierarchical Reasoning Model (HRM). Dengan memperkenalkan inferensi ruang laten di lapisan bawah arsitektur, model ini mengurangi konsumsi daya komputasi pra-pelatihan model dasar sebesar 130 hingga 600 kali. Secara khusus, HRM-Text hanya menggunakan 40 miliar (40B) token terstruktur untuk pra-pelatihan, dengan jumlah data sekitar seribu kali lebih sedikit dibandingkan model standar sekelasnya. Uji coba resmi menunjukkan bahwa versi 1B dapat dilatih dari awal dalam sekitar 46 jam menggunakan dua server H100 8-GPU, dengan biaya komputasi sekitar $1.472; sementara versi 0.6B hanya memerlukan satu node selama 50 jam, dengan biaya perangkat keras sekitar $800. Kerangka kerja teknis lengkap, termasuk ekstraksi data, pengemasan urutan, dan pelatihan terdistribusi PyTorch, telah dirilis secara bersamaan. Dukungan penurunan biaya ekstrem berasal dari desain siklus skala waktu ganda (Dual-timescale recurrent) yang unik. Model ini memiliki dua set modul Transformer—cepat (lapisan bawah) dan lambat (lapisan atas)—yang beriterasi secara bergantian pada input yang sama dan bertukar informasi melalui penjumlahan status. Desain ini memungkinkan model untuk secara dinamis memperluas kedalaman komputasi dengan meningkatkan jumlah siklus, sambil tetap mempertahankan jumlah parameter fisik tetap. Penurunan tajam dalam ambang pra-pelatihan memberikan kesempatan baru bagi banyak teori model yang sebelumnya terhenti karena biaya komputasi tinggi untuk diverifikasi dengan biaya rendah. Perlu diperhatikan bahwa rilis kali ini hanya mencakup bobot pra-pelatihan yang belum diselaraskan; model hanya dapat melakukan tugas kelanjutan awalan dan tidak dapat langsung digunakan sebagai asisten tanya-jawab. (Sumber: BlockBeats)
Sapient Membuka Sumber Model HRM-Text 1M-Parameter dengan Biaya Pelatihan 1.300x Lebih Rendah
KuCoinFlashBagikan






Sapient Intelligence merilis berita on-chain pada 19 Mei (UTC+8), membuka sumber HRM-Text, model teks berparameter 1 miliar dengan arsitektur penalaran hierarkis. Model ini menggunakan penalaran ruang laten untuk mengurangi biaya pra-pelatihan hingga 130 hingga 600 kali. Model ini dilatih pada 40 miliar token terstruktur, sebagian kecil dari data yang digunakan oleh model serupa. Versi 1 miliar dapat dilatih dalam 46 jam dengan biaya $1.472 menggunakan dua server H100 ber-GPU 8. Versi 0,6 miliar biayanya $800. Kerangka kerja teknis lengkap, termasuk ekstraksi data dan pelatihan PyTorch, juga dibuka sumbernya. Data inflasi dan efisiensi pelatihan merupakan poin utama dalam rilis ini.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.