Universidade Tsinghua e Mianbi lançam em código aberto o primeiro framework de pré-treinamento de IA para codificação do mundo, ForgeTrain

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A Universidade Tsinghua e a Mianbi lançaram o ForgeTrain, o primeiro framework de pré-treinamento escrito por IA do mundo para notícias de IA + cripto. O framework supera o Megatron da NVIDIA e aumenta a velocidade em 10% no Huawei Ascend. Ele também produziu o MiniCPM5-1B, um modelo compacto classificado entre os melhores. O projeto destaca o potencial para integração de notícias sobre ativos do mundo real (RWA) à medida que as ferramentas de IA avançam.
ME AI Notícia, conforme monitorado pelo Beating, a FaceWall Intelligence e o Laboratório de PNL da Universidade Tsinghua lançaram publicamente, na comunidade OpenBMB, o primeiro framework de pré-treinamento de modelo grande de nível produtivo totalmente escrito por IA, chamado ForgeTrain, e lançaram o pequeno modelo de borda treinado com ForgeTrain, o MiniCPM5-1B. Como o primeiro exemplo a demonstrar o ciclo de engenharia "IA criando IA", o ForgeTrain superou o Megatron da NVIDIA em desempenho sob as mesmas condições de hardware e alcançou uma aceleração de 10% durante o pré-treinamento no Huawei Ascend. Ao mesmo tempo, o MiniCPM5-1B alcançou o primeiro lugar na lista de modelos pequenos de peso aberto da Artificial Analysis. Para permitir que a IA construa autonomamente a infraestrutura básica de pré-treinamento, a FaceWall Intelligence propôs o paradigma de programação de software "Forge Engineering", abandonando frameworks genéricos compatíveis com todos os hardwares e tarefas e, em vez disso, aproveitando a capacidade de geração de código de baixo custo da IA para criar código dedicado especificamente para modelos e hardwares particulares. Na construção do mecanismo, o ForgeTrain adota um método em três fases: primeiro, coleta dados-chave de frameworks de pré-treinamento existentes para formar um ambiente de teste (Harness); em seguida, itera automaticamente para gerar código de framework consistente em binário; por fim, remove restrições e supera a implementação de referência. Todo esse processo automatizado corresponde às fases L3 a L4 da IA criando IA. Como o primeiro modelo produzido pelo ForgeTrain, o MiniCPM5-1B possui 1,08 bilhão de parâmetros, com arquitetura central baseada no LlamaForCausalLM padrão, reduzindo significativamente a barreira para integração e implantação de inferência downstream. Na avaliação da Artificial Analysis, o modelo obteve 18 pontos, superando o Qwen3.5-2B de 2B (16 pontos) e liderando o Qwen3.5-0.8B (11 pontos) e o LFM2.5-1.2B-Thinking (8 pontos). O modelo suporta formatos de implantação como MLX 4-bit e GGUF Q4_K_M; após quantização INT4, seus pesos são apenas 0,5 GB, e suporta nativamente contextos de texto longo de até 131.072 tokens e inferência híbrida de dois modos baseada em enable_thinking. Com base no baixo custo de hardware, a OpenBMB também lançou publicamente o aplicativo desktop MiniCPM Desk Pet, que roda totalmente offline e suporta resposta em tempo real às atividades de codificação em ferramentas como Cursor e troca de personas via LoRA. (Fonte: BlockBeats)
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.