Lançamento do modelo DeepSeek V4 de código aberto com 1,6 trilhões de parâmetros e licença MIT

Notícia da ME, 24 de abril (UTC+8): De acordo com monitoramento da Beating, a versão prévia da série DeepSeek V4 aberta sob licença MIT já está disponível no Hugging Face e no ModelScope. A série inclui dois modelos MoE: o V4-Pro, com 1,6 trilhão de parâmetros totais e 49 bilhões (49B) ativados por token; e o V4-Flash, com 284 bilhões (284B) de parâmetros totais e 13 bilhões (13B) ativados por token. Ambos suportam contexto de 1 milhão de tokens. Três melhorias na arquitetura: um mecanismo de atenção híbrido (atenção esparsa comprimida CSA + atenção altamente comprimida HCA) reduz drasticamente o custo de contextos longos — sob contexto de 1 milhão de tokens, os FLOPs por token do V4-Pro são apenas 27% dos do V3.2, e o cache KV (uso de memória para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; a superconexão com restrição de variedade mHC substitui as conexões residuais tradicionais, aumentando a estabilidade da propagação de sinal entre camadas; o treinamento agora utiliza o otimizador Muon para acelerar a convergência. Os dados de pré-treinamento superam 32 trilhões de tokens. O pós-treinamento ocorre em duas etapas: primeiro, especialistas em cada domínio são treinados separadamente por SFT e aprendizado por reforço GRPO; depois, são unificados em um único modelo por meio de distilação online. O V4-Pro-Max (modo de maior poder de inferência) afirma ser o modelo aberto mais poderoso atualmente, alcançando desempenho de ponta em benchmarks de codificação e reduzindo significativamente a lacuna em tarefas de inferência e agentes em comparação com modelos fechados. O V4-Flash-Max apresenta desempenho de inferência próximo ao do Pro quando dotado de orçamento suficiente de pensamento, mas é limitado em tarefas puramente de conhecimento e agentes complexos devido ao tamanho dos parâmetros. Os pesos são armazenados em precisão mista FP4+FP8. (Fonte: BlockBeats)