Notícia da ME, 22 de abril (UTC+8): De acordo com monitoramento da Beating, o estudante de doutorado da Princeton Yifan Zhang atualizou os detalhes técnicos do DeepSeek V4 no X. Em 19 de abril, ele antecipou "V4 na próxima semana" e listou três nomes de componentes de arquitetura; nesta noite, divulgou a tabela completa de parâmetros e revelou pela primeira vez a existência de uma versão leve, V4-Lite, com 285B parâmetros. O total de parâmetros do V4 é de 1,6T. O mecanismo de atenção é o DSA2, que combina duas abordagens de atenção esparsa: a DSA (DeepSeek Sparse Attention), já utilizada no V3.2, e a NSA (Native Sparse Attention), proposta em um artigo no início deste ano, com head-dim de 512, juntamente com Sparse MQA e SWA (Sliding Window Attention). A camada MoE possui 384 especialistas, com 6 ativados por vez, utilizando o Fused MoE Mega-Kernel. As conexões residuais mantêm as Hyper-Connections. Detalhes divulgados pela primeira vez sobre o treinamento incluem: otimizador Muon (um otimizador em nível de matriz que aplica ortogonalização Newton-Schulz às atualizações de momento), comprimento de contexto de pré-treinamento de 32K, uso do GRPO na fase de aprendizado por reforço com correção de divergência KL. O comprimento final de contexto foi expandido para 1M. O modelo é exclusivamente textual. Zhang não trabalha na DeepSeek, e a DeepSeek oficialmente não respondeu às informações acima. (Fonte: BlockBeats)
Especificações técnicas do DeepSeek V4 reveladas: 1,6T parâmetros, 384 especialistas ativando 6
KuCoinFlashCompartilhar






Em 22 de abril (UTC+8), o estudante de doutorado de Princeton Yifan Zhang compartilhou indicadores técnicos para o DeepSeek V4 no X. O modelo possui 1,6 trilhão de parâmetros, 384 especialistas MoE com 6 ativados por etapa e uma versão V4-Lite de 285 bilhões de parâmetros. O treinamento utilizou o otimizador Muon, comprimento de contexto de pré-treinamento de 32K e comprimento de contexto final de 1M. A DeepSeek não comentou. O sentimento do mercado permanece misto, com o índice de medo e ganância mostrando incerteza moderada.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.