Série DeepSeek V4 lançada com 1,6 trilhão de parâmetros e licença MIT

ChainThink mensagem, 24 de abril, conforme informações oficiais, a versão prévia da série DeepSeek V4 foi lançada como código aberto sob licença MIT, e os pesos do modelo já estão disponíveis no Hugging Face e ModelScope.

A série inclui dois modelos MoE, sendo que o V4-Pro possui um total de 1,6 trilhão de parâmetros, com 49 bilhões de parâmetros ativados por token;

V4-Flash possui 284 bilhões de parâmetros totais e ativa 13 bilhões de parâmetros por token; ambos os modelos suportam contexto de 1 milhão de tokens.

A arquitetura desta série inclui três atualizações: o mecanismo de atenção híbrida (Atenção Esparsa Compactada CSA + Atenção Altamente Compactada HCA) reduz significativamente o custo de contexto longo; em cenários com contexto de 1M, os FLOPs por token para inferência do V4-Pro são apenas 27% dos do V3.2, e o uso de memória para o cache KV é apenas 10% do do V3.2;

A conexão superconectada com restrição de variedade mHC substitui as conexões residuais tradicionais, aumentando a estabilidade da propagação de sinal entre camadas; o treinamento passa a utilizar o otimizador Muon para acelerar a convergência. O modelo foi pré-treinado com mais de 32T tokens.

O pós-treinamento é dividido em duas fases: primeiro, os modelos especialistas em cada domínio são treinados separadamente por meio de SFT e aprendizado por reforço GRPO; em seguida, são unificados em um modelo final por meio de distilação online.

O V4-Pro-Max afirma ser o modelo de código aberto mais poderoso atualmente, com desempenho em benchmarks de codificação em nível superior e lacuna significativamente reduzida em tarefas de inferência e agentes em comparação com modelos avançados fechados;

O V4-Flash-Max apresenta desempenho de raciocínio próximo ao Pro após obter orçamento de pensamento suficiente, mas é limitado pelo tamanho dos parâmetros em tarefas puramente de conhecimento e agentes complexos. Os pesos do modelo são armazenados com precisão mista FP4+FP8.