L'université de Tsinghua et Mianbi ouvrent la source du premier cadre de pré-entraînement IA-codage au monde, ForgeTrain
KuCoinFlash
Partager
Résumé
L'université de Tsinghua et Mianbi ont open-sourcé ForgeTrain, le premier cadre de pré-entraînement écrit par une IA pour les actualités IA + crypto. Ce cadre surpasse Megatron de NVIDIA et augmente la vitesse de 10 % sur Huawei Ascend. Il a également produit MiniCPM5-1B, un modèle compact classé parmi les meilleurs. Ce projet met en lumière le potentiel d'intégration des actualités sur les actifs réels (RWA) à mesure que les outils IA progressent.
ME AI Message, selon la surveillance de Beating, Baidu FaceWall Intelligence et le laboratoire NLP de Tsinghua ont conjointement open-sourcé sur la communauté OpenBMB le tout premier cadre de pré-entraînement de modèle de grande taille entièrement écrit par une IA, ForgeTrain, et ont publié le petit modèle de périphérie entraîné avec ForgeTrain, MiniCPM5-1B. En tant que premier exemple démontrant un cycle d’ingénierie « IA créant l’IA », ForgeTrain dépasse les performances de Megatron de NVIDIA dans des conditions matérielles identiques et réalise une accélération de 10 % lors du pré-entraînement sur les accélérateurs Huawei Ascend. Par ailleurs, MiniCPM5-1B occupe la première place du classement des petits modèles à poids ouverts d’Artificial Analysis.
Afin de permettre à l’IA de construire autonomement les infrastructures de pré-entraînement sous-jacentes, Baidu FaceWall Intelligence a introduit le paradigme de programmation logicielle « Forge Engineering », abandonnant les cadres universels compatibles avec tous les matériels et tâches au profit d’une génération de code spécifique, à faible coût, par l’IA, pour des modèles et des matériels particuliers. Sur le plan mécanique, ForgeTrain adopte une approche en trois phases : tout d’abord, il collecte des données clés à partir des cadres de pré-entraînement existants pour créer un « Harness » ; ensuite, il génère itérativement, dans un cycle automatisé, du code de cadre binaire cohérent ; enfin, il supprime les restrictions pour dépasser l’implémentation de référence. Cette évolution automatisée correspond aux étapes L3 à L4 de l’IA créant l’IA.
En tant que premier modèle issu de ForgeTrain, MiniCPM5-1B possède 1,08 milliard de paramètres et repose sur une architecture standard basée sur LlamaForCausalLM, réduisant considérablement la barrière à l’intégration en aval et au déploiement en inférence. Dans les évaluations d’Artificial Analysis, le modèle obtient 18 points, dépassant Qwen3.5-2B (16 points) à une échelle de 2 milliards, ainsi que Qwen3.5-0.8B (11 points) et LFM2.5-1.2B-Thinking (8 points). Le modèle prend en charge les formats de déploiement MLX 4-bit et GGUF Q4_K_M ; après quantification INT4, ses poids ne pèsent que 0,5 Go et prennent nativement en charge un contexte long de 131 072 tokens ainsi qu’un raisonnement hybride bimodal basé sur enable_thinking. Grâce à sa faible consommation matérielle, OpenBMB a également open-sourcé en parallèle l’application de bureau en mode flottant entièrement hors ligne MiniCPM Desk Pet, capable de répondre en temps réel aux activités de codage dans des outils comme Cursor et de basculer les profils LoRA.
(Source : BlockBeats)
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.