ChainThink mensagem, 24 de abril, conforme informações oficiais, a versão prévia da série DeepSeek V4 foi lançada como código aberto sob licença MIT, e os pesos do modelo já estão disponíveis no Hugging Face e ModelScope.
A série inclui dois modelos MoE, sendo que o V4-Pro possui um total de 1,6 trilhão de parâmetros, com 49 bilhões de parâmetros ativados por token;
V4-Flash possui 284 bilhões de parâmetros totais e ativa 13 bilhões de parâmetros por token; ambos os modelos suportam contexto de 1 milhão de tokens.
A arquitetura desta série inclui três atualizações: o mecanismo de atenção híbrida (Atenção Esparsa Compactada CSA + Atenção Altamente Compactada HCA) reduz significativamente o custo de contexto longo; em cenários com contexto de 1M, os FLOPs por token para inferência do V4-Pro são apenas 27% dos do V3.2, e o uso de memória para o cache KV é apenas 10% do do V3.2;
A conexão superconectada com restrição de variedade mHC substitui as conexões residuais tradicionais, aumentando a estabilidade da propagação de sinal entre camadas; o treinamento passa a utilizar o otimizador Muon para acelerar a convergência. O modelo foi pré-treinado com mais de 32T tokens.
O pós-treinamento é dividido em duas fases: primeiro, os modelos especialistas em cada domínio são treinados separadamente por meio de SFT e aprendizado por reforço GRPO; em seguida, são unificados em um modelo final por meio de distilação online.
O V4-Pro-Max afirma ser o modelo de código aberto mais poderoso atualmente, com desempenho em benchmarks de codificação em nível superior e lacuna significativamente reduzida em tarefas de inferência e agentes em comparação com modelos avançados fechados;
O V4-Flash-Max apresenta desempenho de raciocínio próximo ao Pro após obter orçamento de pensamento suficiente, mas é limitado pelo tamanho dos parâmetros em tarefas puramente de conhecimento e agentes complexos. Os pesos do modelo são armazenados com precisão mista FP4+FP8.
