Marco da IA chinesa: Modelo DeepSeek com 1,6 trilhão de parâmetros totalmente treinado no Ascend 910C doméstico
KuCoinFlash
Compartilhar
Resumo
Uma equipe conjunta composta pelo Colégio HeTao de Shenzhen, HIT (Shenzhen), Instituto de Big Data de Shenzhen e Huawei concluiu o treinamento pós-entrenamento completo do modelo DeepSeek-V4-Pro com 1,6 trilhão de parâmetros na plataforma de IA Ascend 910C nacional. Esta notícia on-chain marca a primeira vez que um grupo externo alcançou o treinamento completo de um modelo de 1,6T parâmetros utilizando mais de 1.000 chips Ascend 910C. A equipe melhorou a utilização do cálculo do modelo em mais de 30% e a eficiência dos operadores-chave em 14%, sem falhas no sistema durante mais de 1.500 etapas de treinamento. A notícia AI + crypto destaca o crescente desenvolvimento das capacidades e infraestrutura nacionais em IA.
ME AI mensagem, conforme monitorado pela Beating, uma equipe conjunta composta pelo Shenzhen Hekou College, HIT Shenzhen, Shenzhen Academy of Big Data e equipes relacionadas da Huawei, em colaboração com a plataforma de capacidade de IA da Shenzhen Smart City, anunciou o sucesso na execução do treinamento pós-treinamento completo (Post-training) do modelo de grande linguagem DeepSeek-V4-Pro com 1,6 trilhões de parâmetros em uma plataforma nacional de capacidade de IA. Este é o primeiro caso global realizado por uma instituição externa em uma plataforma de capacidade nacional a concluir o treinamento pós-treinamento completo de um modelo com escala de 1,6 trilhões de parâmetros. Em comparação com o pré-treinamento (Pre-training) do zero, a fase de pós-treinamento (principalmente composta por fine-tuning supervisionado SFT e aprendizado por reforço RL) foca em ensinar o modelo a seguir instruções e executar tarefas específicas por meio de instruções de alta qualidade e alinhamento com preferências humanas. No entanto, para um modelo MoE com 1,6 trilhões de parâmetros, o treinamento pós-treinamento completo exige requisitos extremamente rigorosos em termos de capacidade de memória VRAM do hardware subjacente, largura de banda de comunicação entre múltiplos chips (como comunicação ponto a ponto desencadeada pelo roteamento MoE) e estabilidade de clusters em grande escala. A equipe conjunta, apoiada por um cluster de capacidade Huawei Ascend 910C com mais de mil chips, superou os gargalos de comunicação por meio da otimização de estratégias de alocação distribuída e balanceamento de carga. Durante mais de 1.500 passos de treinamento, o sistema não sofreu nenhuma interrupção, a utilização da capacidade do modelo (MFU) superou 30%, a eficiência dos operadores-chave aumentou 14%, e todos os indicadores atingiram padrões operacionais industriais. Analistas do setor apontam que o sucesso do cluster Huawei Ascend 910C na execução de treinamentos de modelos em trilhões de parâmetros confirma a viabilidade técnica dos chips nacionais de IA para tarefas de treinamento profundo de modelos em escala ultra-grande. Anteriormente, o pré-treinamento central dos modelos de grande linguagem dependia fortemente de clusters NVIDIA GPU, e a capacidade nacional era principalmente utilizada para inferência (Inference) ou fine-tuning de parâmetros menores. O sucesso desta colaboração marca a transição acelerada da ecologia nacional de capacidade de IA da fase “apenas suporte à inferência” para um ciclo técnico completo capaz de suportar o treinamento completo de modelos com parâmetros ultra-grandes. (Fonte: MLion)
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.