La Universidad Tsinghua y Mianbi lanzan en código abierto el primer marco de preentrenamiento de IA para programación, ForgeTrain

ME AI Noticia, según el monitoreo de Beating, Baidu Wall Intelligence y el Laboratorio de Procesamiento del Lenguaje Natural de Tsinghua han lanzado conjuntamente en la comunidad OpenBMB ForgeTrain, el primer marco de preentrenamiento de modelos grandes de producción completamente escrito por IA, y han publicado el modelo pequeño de borde entrenado con ForgeTrain, MiniCPM5-1B. Como el primer ejemplo que demuestra el ciclo de ingeniería «IA que fabrica IA», ForgeTrain supera el rendimiento de Megatron de NVIDIA en las mismas condiciones de hardware y logra un 10% de aceleración durante el preentrenamiento en Ascend de Huawei. Al mismo tiempo, MiniCPM5-1B ocupa el primer lugar en la lista de modelos pequeños con pesos abiertos de Artificial Analysis. Para permitir que la IA construya por sí misma la infraestructura básica de preentrenamiento, Baidu Wall Intelligence propone el paradigma de programación de software «Forge Engineering», rechazando marcos generales compatibles con todo tipo de hardware y tareas, y en su lugar aprovechando la capacidad de generación de código de bajo costo de la IA para forjar código especializado en tiempo real para modelos y hardware específicos. En términos de mecanismo de construcción, ForgeTrain utiliza un enfoque en tres etapas: primero recopila datos clave de marcos de preentrenamiento existentes para formar un entorno de prueba (Harness), luego itera automáticamente para generar código del marco con consistencia binaria, y finalmente elimina restricciones para superar la implementación de referencia. Todo este proceso de evolución automática corresponde a las fases L3 a L4 de «IA que fabrica IA». Como primer modelo producido por ForgeTrain, MiniCPM5-1B cuenta con 1.080 millones de parámetros y su arquitectura central se basa en el diseño estándar LlamaForCausalLM, reduciendo significativamente la barrera para la integración y el despliegue de inferencia. En las evaluaciones de Artificial Analysis, el modelo superó al Qwen3.5-2B de 2B (18 puntos frente a 16 puntos) y lidera al Qwen3.5-0.8B (11 puntos) y al LFM2.5-1.2B-Thinking (8 puntos). El modelo admite formatos de despliegue como MLX 4-bit y GGUF Q4_K_M; tras la cuantización INT4, su peso es solo de 0.5 GB, y admite nativamente contextos de texto largo de hasta 131,072 tokens y razonamiento híbrido bimodal basado en enable_thinking. Gracias a su bajo consumo de hardware, OpenBMB ha lanzado simultáneamente la aplicación de escritorio MiniCPM Desk Pet, que funciona completamente en modo offline y permite responder en tiempo real a actividades de codificación en herramientas como Cursor, así como cambiar personajes mediante LoRA. (Fuente: BlockBeats)