La Universidad Tsinghua y Mianbi lanzan en código abierto el primer marco de preentrenamiento de IA para programación, ForgeTrain
KuCoinFlash
Compartir
Resumen
La Universidad Tsinghua y Mianbi lanzaron ForgeTrain, el primer marco de preentrenamiento escrito por IA para noticias de IA + cripto. El marco supera a Megatron de NVIDIA y aumenta la velocidad un 10% en Huawei Ascend. También generó MiniCPM5-1B, un modelo compacto clasificado entre los mejores. El proyecto destaca el potencial de la integración de noticias sobre activos del mundo real (RWA) a medida que avanzan las herramientas de IA.
ME AI Noticia, según el monitoreo de Beating, Baidu Wall Intelligence y el Laboratorio de Procesamiento del Lenguaje Natural de Tsinghua han lanzado conjuntamente en la comunidad OpenBMB ForgeTrain, el primer marco de preentrenamiento de modelos grandes de producción completamente escrito por IA, y han publicado el modelo pequeño de borde entrenado con ForgeTrain, MiniCPM5-1B. Como el primer ejemplo que demuestra el ciclo de ingeniería «IA que fabrica IA», ForgeTrain supera el rendimiento de Megatron de NVIDIA en las mismas condiciones de hardware y logra un 10% de aceleración durante el preentrenamiento en Ascend de Huawei. Al mismo tiempo, MiniCPM5-1B ocupa el primer lugar en la lista de modelos pequeños con pesos abiertos de Artificial Analysis. Para permitir que la IA construya por sí misma la infraestructura básica de preentrenamiento, Baidu Wall Intelligence propone el paradigma de programación de software «Forge Engineering», rechazando marcos generales compatibles con todo tipo de hardware y tareas, y en su lugar aprovechando la capacidad de generación de código de bajo costo de la IA para forjar código especializado en tiempo real para modelos y hardware específicos. En términos de mecanismo de construcción, ForgeTrain utiliza un enfoque en tres etapas: primero recopila datos clave de marcos de preentrenamiento existentes para formar un entorno de prueba (Harness), luego itera automáticamente para generar código del marco con consistencia binaria, y finalmente elimina restricciones para superar la implementación de referencia. Todo este proceso de evolución automática corresponde a las fases L3 a L4 de «IA que fabrica IA». Como primer modelo producido por ForgeTrain, MiniCPM5-1B cuenta con 1.080 millones de parámetros y su arquitectura central se basa en el diseño estándar LlamaForCausalLM, reduciendo significativamente la barrera para la integración y el despliegue de inferencia. En las evaluaciones de Artificial Analysis, el modelo superó al Qwen3.5-2B de 2B (18 puntos frente a 16 puntos) y lidera al Qwen3.5-0.8B (11 puntos) y al LFM2.5-1.2B-Thinking (8 puntos). El modelo admite formatos de despliegue como MLX 4-bit y GGUF Q4_K_M; tras la cuantización INT4, su peso es solo de 0.5 GB, y admite nativamente contextos de texto largo de hasta 131,072 tokens y razonamiento híbrido bimodal basado en enable_thinking. Gracias a su bajo consumo de hardware, OpenBMB ha lanzado simultáneamente la aplicación de escritorio MiniCPM Desk Pet, que funciona completamente en modo offline y permite responder en tiempo real a actividades de codificación en herramientas como Cursor, así como cambiar personajes mediante LoRA. (Fuente: BlockBeats)
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.