Notícia da ME, 24 de abril (UTC+8): De acordo com monitoramento da Beating, a versão prévia da série DeepSeek V4 aberta sob licença MIT já está disponível no Hugging Face e no ModelScope. A série inclui dois modelos MoE: o V4-Pro, com 1,6 trilhão de parâmetros totais e 49 bilhões (49B) ativados por token; e o V4-Flash, com 284 bilhões (284B) de parâmetros totais e 13 bilhões (13B) ativados por token. Ambos suportam contexto de 1 milhão de tokens. Três melhorias na arquitetura: um mecanismo de atenção híbrido (atenção esparsa comprimida CSA + atenção altamente comprimida HCA) reduz drasticamente o custo de contextos longos — sob contexto de 1 milhão de tokens, os FLOPs por token do V4-Pro são apenas 27% dos do V3.2, e o cache KV (uso de memória para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; a superconexão com restrição de variedade mHC substitui as conexões residuais tradicionais, aumentando a estabilidade da propagação de sinal entre camadas; o treinamento agora utiliza o otimizador Muon para acelerar a convergência. Os dados de pré-treinamento superam 32 trilhões de tokens. O pós-treinamento ocorre em duas etapas: primeiro, especialistas em cada domínio são treinados separadamente por SFT e aprendizado por reforço GRPO; depois, são unificados em um único modelo por meio de distilação online. O V4-Pro-Max (modo de maior poder de inferência) afirma ser o modelo aberto mais poderoso atualmente, alcançando desempenho de ponta em benchmarks de codificação e reduzindo significativamente a lacuna em tarefas de inferência e agentes em comparação com modelos fechados. O V4-Flash-Max apresenta desempenho de inferência próximo ao do Pro quando dotado de orçamento suficiente de pensamento, mas é limitado em tarefas puramente de conhecimento e agentes complexos devido ao tamanho dos parâmetros. Os pesos são armazenados em precisão mista FP4+FP8. (Fonte: BlockBeats)
Lançamento do modelo DeepSeek V4 de código aberto com 1,6 trilhões de parâmetros e licença MIT
KuCoinFlashCompartilhar






Notícias on-chain foram divulgadas em 24 de abril (UTC+8) com o lançamento da versão de prévia dos modelos da série V4 da DeepSeek sob a licença MIT. Os modelos V4-Pro e V4-Flash MoE possuem, respectivamente, 1,6 trilhão e 284 bilhões de parâmetros, com suporte a contexto de 1 milhão de tokens. O V4-Pro reduz os FLOPs de inferência em 73% e a memória de cache KV em 90% em comparação ao V3.2. Os pesos estão disponíveis no Hugging Face e no ModelScope. Novas listagens de tokens podem se beneficiar da eficiência aprimorada e do acesso aberto.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.