Se lanzó la serie DeepSeek V4 con 1.6 billones de parámetros y licencia MIT

iconChainthink
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Las noticias on-chain se dieron a conocer el 24 de abril cuando DeepSeek lanzó la serie V4 bajo la licencia MIT. Los modelos, ahora disponibles en Hugging Face y ModelScope, incluyen V4-Pro (1,6 billones de parámetros) y V4-Flash (284 mil millones de parámetros), ambos con soporte para contexto de 1 millón de tokens. La serie V4 introduce tres mejoras arquitectónicas, incluyendo un mecanismo de atención híbrido que reduce los costos de contexto largo. V4-Pro utiliza el 27% de los FLOPs de V3.2 y el 10% de su memoria de caché KV. Entrenados con más de 32 billones de tokens, los modelos utilizan SFT, GRPO y distilación en línea. Las nuevas listas de tokens podrían beneficiarse de esta eficiencia mejorada.

Mensaje de ChainThink, 24 de abril: según información oficial, DeepSeek ha lanzado la versión preliminar de la serie V4 bajo licencia MIT; los pesos del modelo ya están disponibles en Hugging Face y ModelScope.


La serie incluye dos modelos MoE, donde V4-Pro tiene un total de 1.6 billones de parámetros, activando 49 mil millones de parámetros por token;


V4-Flash tiene un total de 284 mil millones de parámetros, con 13 mil millones de parámetros activados por token; ambos modelos admiten contextos de hasta 1 millón de tokens.


Esta arquitectura incluye tres mejoras: el mecanismo de atención híbrida (Atención Escasa Compactada CSA + Atención Altamente Compactada HCA) reduce significativamente el costo de contexto largo; en escenarios de contexto de 1M, los FLOPs por token para la inferencia del V4-Pro son solo el 27% de los del V3.2, y el uso de memoria VRAM para el caché KV es solo el 10% del del V3.2;


La conexión hiperconectada restringida por manifold mHC reemplaza las conexiones residuales tradicionales, mejorando la estabilidad de la propagación de señales entre capas; el entrenamiento utiliza el optimizador Muon para acelerar la convergencia. El modelo se preentrenó con más de 32T tokens.


El entrenamiento posterior se divide en dos etapas: primero, se entrena cada modelo experto de dominio mediante SFT y aprendizaje por refuerzo GRPO, y luego se unifican mediante distilación en línea para obtener el modelo final.


V4-Pro-Max se autodenomina el modelo de código abierto más potente actualmente, con un rendimiento en codificación a nivel superior y una brecha significativamente reducida en tareas de inferencia y agentes en comparación con los modelos avanzados cerrados;


V4-Flash-Max, tras obtener un presupuesto de pensamiento suficiente, muestra un rendimiento de razonamiento cercano al Pro, pero se ve limitado en tareas de conocimiento puro y agentes complejos por su tamaño de parámetros. Los pesos del modelo se almacenan con precisión mixta FP4+FP8.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.