Sapient Membuka Sumber Model HRM-Text 1B-Parameter dengan Kos Latihan 1.300x Lebih Rendah

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Sapient Intelligence mengeluarkan berita di rantai pada 19 Mei (UTC+8), membuka sumber HRM-Text, model teks 1 bilion parameter dengan arsitektur penalaran hierarki. Model ini menggunakan penalaran ruang laten untuk mengurangkan kos pra-pelatihan sebanyak 130 hingga 600 kali. Ia dilatih pada 40 bilion token terstruktur, sebahagian kecil data yang digunakan oleh model serupa. Versi 1 bilion boleh dilatih dalam 46 jam dengan kos $1,472 menggunakan dua pelayan H100 8-GPU. Versi 0.6 bilion berkos $800. Kerangka kejuruteraan penuh, termasuk pengekstrakan data dan pelatihan PyTorch, juga dibuka sumbernya. Data inflasi dan kecekapan pelatihan adalah ciri utama dalam rilis ini.

Pesan AIMPACT, 19 Mei (UTC+8), menurut pemantauan Beating, Sapient Intelligence telah melepaskan model dasar generasi teks berparameter 1 miliar (1B), HRM-Text. Ini adalah model pra-pelatihan murni berdasarkan arsitektur Hierarchical Reasoning Model (HRM). Dengan memperkenalkan inferensi ruang laten di lapisan bawah arsitektur, model ini mengurangi konsumsi daya komputasi pra-pelatihan model dasar sebesar 130 hingga 600 kali. Secara khusus, HRM-Text hanya menggunakan 40 miliar (40B) token terstruktur untuk pra-pelatihan, dengan jumlah data sekitar seperseribu dari model biasa sekelasnya. Uji coba resmi menunjukkan bahwa versi 1B dapat dilatih dari awal dalam waktu sekitar 46 jam menggunakan dua server H100 8-kartu, dengan biaya komputasi sekitar $1.472; sementara versi 0.6B hanya memerlukan satu node selama 50 jam, dengan biaya perangkat keras sekitar $800. Kerangka kerja teknis lengkap, termasuk ekstraksi data, pengemasan urutan, dan pelatihan terdistribusi PyTorch, telah dirilis secara terbuka secara bersamaan. Dukungan penurunan biaya ekstrem berasal dari desain siklus skala waktu ganda (Dual-timescale recurrent) yang unik. Model ini memiliki dua set modul Transformer—cepat (lapisan bawah) dan lambat (lapisan atas)—yang beriterasi secara bergantian pada input yang sama dan bertukar informasi melalui penjumlahan status. Desain ini memungkinkan model untuk secara dinamis memperluas kedalaman komputasi dengan menambah jumlah siklus, sambil tetap mempertahankan jumlah parameter fisik yang tetap. Penurunan tajam dalam ambang pra-pelatihan memberikan peluang baru untuk menguji kembali teori model yang sebelumnya terhenti karena biaya komputasi yang mahal. Perlu diperhatikan bahwa versi yang dirilis kali ini hanya berupa bobot pra-pelatihan yang belum diselaraskan; model ini hanya dapat menjalankan tugas kelanjutan awalan dan tidak dapat digunakan langsung sebagai asisten tanya-jawab. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.