Noticias de ME: el 22 de abril (UTC+8), según el monitoreo de Beating, el estudiante de doctorado de Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. El 19 de abril anunció "V4 la próxima semana" y listó tres nombres de componentes arquitectónicos; esta noche publicó la tabla completa de parámetros y reveló por primera vez la existencia de una versión ligera, V4-Lite, con 285B parámetros. El total de parámetros de V4 es de 1.6T. El mecanismo de atención es DSA2, que combina las dos soluciones de atención dispersa previamente utilizadas por DeepSeek en V3.2 (DSA, DeepSeek Sparse Attention) y la NSA (Native Sparse Attention) propuesta en un artículo a principios de este año, con head-dim 512, junto con Sparse MQA y SWA (Sliding Window Attention). Las capas MoE cuentan con 384 expertos, activando 6 en cada paso, utilizando el Fused MoE Mega-Kernel. Las conexiones residuales siguen utilizando Hyper-Connections. Los detalles revelados por primera vez en el entrenamiento incluyen: el optimizador es Muon (un optimizador a nivel de matriz que aplica la ortogonalización Newton-Schulz a las actualizaciones de momento), la longitud del contexto en la preentrenamiento es de 32K, y en la fase de aprendizaje por refuerzo se utiliza GRPO con corrección de divergencia KL. La longitud final del contexto se expandió hasta 1M. El modelo es de texto puro. Zhang no trabaja en DeepSeek, y DeepSeek no ha respondido oficialmente a esta información. (Fuente: BlockBeats)
Se revelan las especificaciones técnicas de DeepSeek V4: 1,6 billones de parámetros, 384 expertos activando 6
KuCoinFlashCompartir






El 22 de abril (UTC+8), el estudiante de doctorado de Princeton Yifan Zhang compartió indicadores técnicos para DeepSeek V4 en X. El modelo tiene 1,6 billones de parámetros, 384 expertos MoE con 6 activados por paso, y una versión V4-Lite de 285 mil millones de parámetros. El entrenamiento utilizó el optimizador Muon, una longitud de contexto de preentrenamiento de 32K y una longitud de contexto final de 1M. DeepSeek no ha comentado. El sentimiento del mercado sigue siendo mixto, con el índice de miedo y codicia mostrando incertidumbre moderada.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.