L'université de Tsinghua et Mianbi ouvrent la source du premier cadre de pré-entraînement IA-codage au monde, ForgeTrain

ME AI Message, selon la surveillance de Beating, Baidu FaceWall Intelligence et le laboratoire NLP de Tsinghua ont conjointement open-sourcé sur la communauté OpenBMB le tout premier cadre de pré-entraînement de modèle de grande taille entièrement écrit par une IA, ForgeTrain, et ont publié le petit modèle de périphérie entraîné avec ForgeTrain, MiniCPM5-1B. En tant que premier exemple démontrant un cycle d’ingénierie « IA créant l’IA », ForgeTrain dépasse les performances de Megatron de NVIDIA dans des conditions matérielles identiques et réalise une accélération de 10 % lors du pré-entraînement sur les accélérateurs Huawei Ascend. Par ailleurs, MiniCPM5-1B occupe la première place du classement des petits modèles à poids ouverts d’Artificial Analysis. Afin de permettre à l’IA de construire autonomement les infrastructures de pré-entraînement sous-jacentes, Baidu FaceWall Intelligence a introduit le paradigme de programmation logicielle « Forge Engineering », abandonnant les cadres universels compatibles avec tous les matériels et tâches au profit d’une génération de code spécifique, à faible coût, par l’IA, pour des modèles et des matériels particuliers. Sur le plan mécanique, ForgeTrain adopte une approche en trois phases : tout d’abord, il collecte des données clés à partir des cadres de pré-entraînement existants pour créer un « Harness » ; ensuite, il génère itérativement, dans un cycle automatisé, du code de cadre binaire cohérent ; enfin, il supprime les restrictions pour dépasser l’implémentation de référence. Cette évolution automatisée correspond aux étapes L3 à L4 de l’IA créant l’IA. En tant que premier modèle issu de ForgeTrain, MiniCPM5-1B possède 1,08 milliard de paramètres et repose sur une architecture standard basée sur LlamaForCausalLM, réduisant considérablement la barrière à l’intégration en aval et au déploiement en inférence. Dans les évaluations d’Artificial Analysis, le modèle obtient 18 points, dépassant Qwen3.5-2B (16 points) à une échelle de 2 milliards, ainsi que Qwen3.5-0.8B (11 points) et LFM2.5-1.2B-Thinking (8 points). Le modèle prend en charge les formats de déploiement MLX 4-bit et GGUF Q4_K_M ; après quantification INT4, ses poids ne pèsent que 0,5 Go et prennent nativement en charge un contexte long de 131 072 tokens ainsi qu’un raisonnement hybride bimodal basé sur enable_thinking. Grâce à sa faible consommation matérielle, OpenBMB a également open-sourcé en parallèle l’application de bureau en mode flottant entièrement hors ligne MiniCPM Desk Pet, capable de répondre en temps réel aux activités de codage dans des outils comme Cursor et de basculer les profils LoRA. (Source : BlockBeats)