Mensaje de ChainThink, 24 de abril: según información oficial, DeepSeek ha lanzado la versión preliminar de la serie V4 bajo licencia MIT; los pesos del modelo ya están disponibles en Hugging Face y ModelScope.
La serie incluye dos modelos MoE, donde V4-Pro tiene un total de 1.6 billones de parámetros, activando 49 mil millones de parámetros por token;
V4-Flash tiene un total de 284 mil millones de parámetros, con 13 mil millones de parámetros activados por token; ambos modelos admiten contextos de hasta 1 millón de tokens.
Esta arquitectura incluye tres mejoras: el mecanismo de atención híbrida (Atención Escasa Compactada CSA + Atención Altamente Compactada HCA) reduce significativamente el costo de contexto largo; en escenarios de contexto de 1M, los FLOPs por token para la inferencia del V4-Pro son solo el 27% de los del V3.2, y el uso de memoria VRAM para el caché KV es solo el 10% del del V3.2;
La conexión hiperconectada restringida por manifold mHC reemplaza las conexiones residuales tradicionales, mejorando la estabilidad de la propagación de señales entre capas; el entrenamiento utiliza el optimizador Muon para acelerar la convergencia. El modelo se preentrenó con más de 32T tokens.
El entrenamiento posterior se divide en dos etapas: primero, se entrena cada modelo experto de dominio mediante SFT y aprendizaje por refuerzo GRPO, y luego se unifican mediante distilación en línea para obtener el modelo final.
V4-Pro-Max se autodenomina el modelo de código abierto más potente actualmente, con un rendimiento en codificación a nivel superior y una brecha significativamente reducida en tareas de inferencia y agentes en comparación con los modelos avanzados cerrados;
V4-Flash-Max, tras obtener un presupuesto de pensamiento suficiente, muestra un rendimiento de razonamiento cercano al Pro, pero se ve limitado en tareas de conocimiento puro y agentes complejos por su tamaño de parámetros. Los pesos del modelo se almacenan con precisión mixta FP4+FP8.
