Notícia do BiJieWang: Em 22 de abril (UTC+8), segundo monitoramento da Beating, o doutorando de Princeton Yifan Zhang atualizou os detalhes técnicos do DeepSeek V4 no X. Ele havia antecipado em 19 de abril que o "V4 sairá na próxima semana" e listou três componentes de arquitetura; nesta noite, divulgou a tabela completa de parâmetros e revelou pela primeira vez a existência de uma versão leve, V4-Lite, com 285B parâmetros. O V4 possui um total de 1,6T parâmetros. O mecanismo de atenção é o DSA2, que combina duas abordagens de atenção esparsa: a DSA (DeepSeek Sparse Attention), já utilizada no V3.2, e a NSA (Native Sparse Attention), proposta em um artigo no início deste ano, com head-dim de 512, combinada com Sparse MQA e SWA (Sliding Window Attention). A camada MoE possui 384 especialistas, com 6 ativados por vez, utilizando o Fused MoE Mega-Kernel. As conexões residuais mantêm as Hyper-Connections. Os detalhes revelados pela primeira vez no treinamento incluem: otimizador Muon (um otimizador em nível de matriz que aplica ortogonalização Newton-Schulz às atualizações de momento), comprimento de contexto pré-treinado de 32K, e no estágio de aprendizado por reforço, uso do GRPO com correção de divergência KL. O comprimento final do contexto foi expandido para 1M. O modal é apenas texto. Zhang não trabalha na DeepSeek, e a DeepSeek oficialmente não respondeu às informações acima.
Detalhes Técnicos do DeepSeek V4 Revelados: 1,6T Parâmetros, 384 Especialistas Ativando 6
币界网Compartilhar






Notícias on-chain foram divulgadas em 22 de abril (UTC+8) quando o estudante de doutorado de Princeton Yifan Zhang compartilhou as especificações completas do DeepSeek V4 no X. O V4 possui 1,6 trilhão de parâmetros, um mecanismo de atenção DSA2, 384 especialistas MoE com 6 ativos por etapa e um contexto de 1 milhão de tokens. Zhang não está ligado à DeepSeek, que ainda não comentou. Os detalhes da atualização da rede sugerem melhorias significativas de desempenho.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.