Série DeepSeek V4 lançada com 1,6 trilhão de parâmetros e licença MIT

iconChainthink
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Notícias on-chain foram divulgadas em 24 de abril, quando o DeepSeek lançou a série V4 sob a licença MIT. Os modelos, agora disponíveis no Hugging Face e no ModelScope, incluem o V4-Pro (1,6 trilhão de parâmetros) e o V4-Flash (284 bilhões de parâmetros), ambos com suporte a contexto de 1 milhão de tokens. A série V4 introduz três atualizações arquiteturais, incluindo um mecanismo de atenção híbrido que reduz os custos de contexto longo. O V4-Pro utiliza 27% dos FLOPs do V3.2 e 10% da memória de cache KV. Treinados em mais de 32 trilhões de tokens, os modelos utilizam SFT, GRPO e distilação online. Novas listagens de tokens podem se beneficiar dessa eficiência aprimorada.

ChainThink mensagem, 24 de abril, conforme informações oficiais, a versão prévia da série DeepSeek V4 foi lançada como código aberto sob licença MIT, e os pesos do modelo já estão disponíveis no Hugging Face e ModelScope.


A série inclui dois modelos MoE, sendo que o V4-Pro possui um total de 1,6 trilhão de parâmetros, com 49 bilhões de parâmetros ativados por token;


V4-Flash possui 284 bilhões de parâmetros totais e ativa 13 bilhões de parâmetros por token; ambos os modelos suportam contexto de 1 milhão de tokens.


A arquitetura desta série inclui três atualizações: o mecanismo de atenção híbrida (Atenção Esparsa Compactada CSA + Atenção Altamente Compactada HCA) reduz significativamente o custo de contexto longo; em cenários com contexto de 1M, os FLOPs por token para inferência do V4-Pro são apenas 27% dos do V3.2, e o uso de memória para o cache KV é apenas 10% do do V3.2;


A conexão superconectada com restrição de variedade mHC substitui as conexões residuais tradicionais, aumentando a estabilidade da propagação de sinal entre camadas; o treinamento passa a utilizar o otimizador Muon para acelerar a convergência. O modelo foi pré-treinado com mais de 32T tokens.


O pós-treinamento é dividido em duas fases: primeiro, os modelos especialistas em cada domínio são treinados separadamente por meio de SFT e aprendizado por reforço GRPO; em seguida, são unificados em um modelo final por meio de distilação online.


O V4-Pro-Max afirma ser o modelo de código aberto mais poderoso atualmente, com desempenho em benchmarks de codificação em nível superior e lacuna significativamente reduzida em tarefas de inferência e agentes em comparação com modelos avançados fechados;


O V4-Flash-Max apresenta desempenho de raciocínio próximo ao Pro após obter orçamento de pensamento suficiente, mas é limitado pelo tamanho dos parâmetros em tarefas puramente de conhecimento e agentes complexos. Os pesos do modelo são armazenados com precisão mista FP4+FP8.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.