Se revelan los detalles técnicos de DeepSeek V4: 1,6T parámetros, 384 expertos activando 6

icon币界网
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
El 22 de abril (UTC+8), se publicó una noticia en la cadena cuando el estudiante de doctorado de Princeton Yifan Zhang compartió las especificaciones completas de DeepSeek V4 en X. V4 tiene 1,6 billones de parámetros, un mecanismo de atención DSA2, 384 expertos MoE con 6 activos por paso y un contexto de 1 millón de tokens. Zhang no está vinculado a DeepSeek, que no ha comentado. Los detalles de la actualización de la red sugieren mejoras significativas en el rendimiento.

Según CoinDesk, el 22 de abril (UTC+8), según el seguimiento de Beating, el estudiante de doctorado de Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. El 19 de abril, anticipó "V4 la próxima semana" y listó tres nombres de componentes arquitectónicos; esta noche publicó la tabla completa de parámetros y reveló por primera vez la existencia de una versión ligera, V4-Lite, con 285 mil millones de parámetros. El total de parámetros de V4 es de 1,6 billones. El mecanismo de atención es DSA2, que combina las dos soluciones de atención dispersa previamente utilizadas por DeepSeek en V3.2 (DSA, DeepSeek Sparse Attention) y la propuesta en un artículo a principios de este año (NSA, Native Sparse Attention), con head-dim 512, junto con Sparse MQA y SWA (Sliding Window Attention). La capa MoE consta de 384 expertos, activando 6 en cada paso, utilizando el Fused MoE Mega-Kernel. Las conexiones residuales siguen utilizando Hyper-Connections. Los detalles revelados por primera vez en el entrenamiento incluyen: el optimizador utilizado es Muon (un optimizador a nivel de matriz que aplica la ortogonalización Newton-Schulz a las actualizaciones de momento), la longitud del contexto en la preentrenamiento es de 32K, y en la fase de aprendizaje por refuerzo se utiliza GRPO con corrección KL-Divergence. La longitud final del contexto se extendió hasta 1M. El módulo es exclusivamente texto. Zhang no trabaja en DeepSeek, y DeepSeek no ha respondido oficialmente a esta información.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.