Marco da IA chinesa: Modelo DeepSeek com 1,6 trilhão de parâmetros totalmente treinado no Ascend 910C doméstico

ME AI mensagem, conforme monitorado pela Beating, uma equipe conjunta composta pelo Shenzhen Hekou College, HIT Shenzhen, Shenzhen Academy of Big Data e equipes relacionadas da Huawei, em colaboração com a plataforma de capacidade de IA da Shenzhen Smart City, anunciou o sucesso na execução do treinamento pós-treinamento completo (Post-training) do modelo de grande linguagem DeepSeek-V4-Pro com 1,6 trilhões de parâmetros em uma plataforma nacional de capacidade de IA. Este é o primeiro caso global realizado por uma instituição externa em uma plataforma de capacidade nacional a concluir o treinamento pós-treinamento completo de um modelo com escala de 1,6 trilhões de parâmetros. Em comparação com o pré-treinamento (Pre-training) do zero, a fase de pós-treinamento (principalmente composta por fine-tuning supervisionado SFT e aprendizado por reforço RL) foca em ensinar o modelo a seguir instruções e executar tarefas específicas por meio de instruções de alta qualidade e alinhamento com preferências humanas. No entanto, para um modelo MoE com 1,6 trilhões de parâmetros, o treinamento pós-treinamento completo exige requisitos extremamente rigorosos em termos de capacidade de memória VRAM do hardware subjacente, largura de banda de comunicação entre múltiplos chips (como comunicação ponto a ponto desencadeada pelo roteamento MoE) e estabilidade de clusters em grande escala. A equipe conjunta, apoiada por um cluster de capacidade Huawei Ascend 910C com mais de mil chips, superou os gargalos de comunicação por meio da otimização de estratégias de alocação distribuída e balanceamento de carga. Durante mais de 1.500 passos de treinamento, o sistema não sofreu nenhuma interrupção, a utilização da capacidade do modelo (MFU) superou 30%, a eficiência dos operadores-chave aumentou 14%, e todos os indicadores atingiram padrões operacionais industriais. Analistas do setor apontam que o sucesso do cluster Huawei Ascend 910C na execução de treinamentos de modelos em trilhões de parâmetros confirma a viabilidade técnica dos chips nacionais de IA para tarefas de treinamento profundo de modelos em escala ultra-grande. Anteriormente, o pré-treinamento central dos modelos de grande linguagem dependia fortemente de clusters NVIDIA GPU, e a capacidade nacional era principalmente utilizada para inferência (Inference) ou fine-tuning de parâmetros menores. O sucesso desta colaboração marca a transição acelerada da ecologia nacional de capacidade de IA da fase “apenas suporte à inferência” para um ciclo técnico completo capaz de suportar o treinamento completo de modelos com parâmetros ultra-grandes. (Fonte: MLion)