Universitas Tsinghua dan Mianbi melepaskan secara open-source kerangka kerja pra-pelatihan AI-pemrograman pertama di dunia, ForgeTrain

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Universitas Tsinghua dan Mianbi melepaskan ForgeTrain, kerangka kerja pra-pelatihan pertama di dunia yang ditulis oleh AI untuk berita AI + kripto. Kerangka kerja ini mengungguli Megatron dari NVIDIA dan meningkatkan kecepatan sebesar 10% pada Huawei Ascend. Kerangka kerja ini juga menghasilkan MiniCPM5-1B, model kompak peringkat teratas. Proyek ini menyoroti potensi integrasi berita aset nyata (RWA) seiring kemajuan alat AI.
ME AI Berita, menurut pemantauan Beating, Baimian Intelligence dan Laboratorium NLP Tsinghua secara bersama-sama membuka sumber kode framework pelatihan pra-model besar tingkat produksi pertama di dunia yang sepenuhnya ditulis oleh AI, yaitu ForgeTrain, serta merilis model kecil sisi-akhir yang dilatih dengan ForgeTrain, MiniCPM5-1B. Sebagai contoh pertama yang menunjukkan siklus teknis 'AI membuat AI', ForgeTrain mencapai kinerja yang lebih unggul daripada Megatron dari NVIDIA dalam kondisi perangkat keras yang sama, serta mencapai percepatan 10% saat pelatihan pra-pada Ascend Huawei. Sejalan dengan itu, MiniCPM5-1B menduduki peringkat pertama dalam daftar model kecil berbobot terbuka di Artificial Analysis. Untuk memungkinkan AI membangun infrastruktur pelatihan pra-tingkat bawah secara mandiri, Baimian Intelligence mengusulkan paradigma pemrograman perangkat lunak 'Forge Engineering', yang meninggalkan framework universal yang kompatibel dengan semua perangkat keras dan tugas, beralih ke pemanfaatan kemampuan generasi kode berbiaya rendah AI untuk secara khusus memproduksi kode yang disesuaikan untuk model dan perangkat keras tertentu. Dalam mekanisme pembangunannya, ForgeTrain menggunakan pendekatan tiga tahap: pertama, mengumpulkan data kunci dari framework pelatihan pra-ada untuk membentuk ujian (Harness); kedua, secara iteratif menghasilkan kode framework yang konsisten secara biner dalam siklus otomatis; ketiga, melepaskan batasan dan mencapai kinerja yang melampaui implementasi referensi. Seluruh proses evolusi otomatis ini sesuai dengan tahap L3 hingga L4 dari 'AI membuat AI'. Sebagai model pertama yang dihasilkan oleh ForgeTrain, MiniCPM5-1B memiliki 1,08 miliar parameter, dengan arsitektur inti berbasis desain standar LlamaForCausalLM, yang secara signifikan menurunkan hambatan integrasi dan penyebaran inferensi turunan. Dalam evaluasi Artificial Analysis, model ini mencetak skor 18, melebihi Qwen3.5-2B berukuran 2B (skor 16), serta unggul atas Qwen3.5-0.8B (skor 11) dan LFM2.5-1.2B-Thinking (skor 8). Model ini mendukung format penyebaran seperti MLX 4-bit dan GGUF Q4_K_M; setelah kuantisasi INT4, bobotnya hanya 0,5 GB, dan secara asli mendukung konteks teks panjang hingga 131.072 token serta inferensi hibrida dual-mode berbasis enable_thinking. Dengan overhead perangkat keras yang sangat rendah, OpenBMB secara bersamaan membuka sumber kode aplikasi teman desktop berjalan offline murni, MiniCPM Desk Pet, yang mendukung respons real-time terhadap aktivitas pengkodean di alat pengembangan seperti Cursor serta pergantian persona LoRA. (Sumber: BlockBeats)
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.