Universidade Tsinghua e Mianbi lançam em código aberto o primeiro framework de pré-treinamento de IA para codificação do mundo, ForgeTrain

ME AI Notícia, conforme monitorado pelo Beating, a FaceWall Intelligence e o Laboratório de PNL da Universidade Tsinghua lançaram publicamente, na comunidade OpenBMB, o primeiro framework de pré-treinamento de modelo grande de nível produtivo totalmente escrito por IA, chamado ForgeTrain, e lançaram o pequeno modelo de borda treinado com ForgeTrain, o MiniCPM5-1B. Como o primeiro exemplo a demonstrar o ciclo de engenharia "IA criando IA", o ForgeTrain superou o Megatron da NVIDIA em desempenho sob as mesmas condições de hardware e alcançou uma aceleração de 10% durante o pré-treinamento no Huawei Ascend. Ao mesmo tempo, o MiniCPM5-1B alcançou o primeiro lugar na lista de modelos pequenos de peso aberto da Artificial Analysis. Para permitir que a IA construa autonomamente a infraestrutura básica de pré-treinamento, a FaceWall Intelligence propôs o paradigma de programação de software "Forge Engineering", abandonando frameworks genéricos compatíveis com todos os hardwares e tarefas e, em vez disso, aproveitando a capacidade de geração de código de baixo custo da IA para criar código dedicado especificamente para modelos e hardwares particulares. Na construção do mecanismo, o ForgeTrain adota um método em três fases: primeiro, coleta dados-chave de frameworks de pré-treinamento existentes para formar um ambiente de teste (Harness); em seguida, itera automaticamente para gerar código de framework consistente em binário; por fim, remove restrições e supera a implementação de referência. Todo esse processo automatizado corresponde às fases L3 a L4 da IA criando IA. Como o primeiro modelo produzido pelo ForgeTrain, o MiniCPM5-1B possui 1,08 bilhão de parâmetros, com arquitetura central baseada no LlamaForCausalLM padrão, reduzindo significativamente a barreira para integração e implantação de inferência downstream. Na avaliação da Artificial Analysis, o modelo obteve 18 pontos, superando o Qwen3.5-2B de 2B (16 pontos) e liderando o Qwen3.5-0.8B (11 pontos) e o LFM2.5-1.2B-Thinking (8 pontos). O modelo suporta formatos de implantação como MLX 4-bit e GGUF Q4_K_M; após quantização INT4, seus pesos são apenas 0,5 GB, e suporta nativamente contextos de texto longo de até 131.072 tokens e inferência híbrida de dois modos baseada em enable_thinking. Com base no baixo custo de hardware, a OpenBMB também lançou publicamente o aplicativo desktop MiniCPM Desk Pet, que roda totalmente offline e suporta resposta em tempo real às atividades de codificação em ferramentas como Cursor e troca de personas via LoRA. (Fonte: BlockBeats)