Lanzamiento del modelo de código abierto DeepSeek V4 con 1,6 billones de parámetros y licencia MIT

Noticias de ME, 24 de abril (UTC+8): según el monitoreo de Beating, la versión preliminar de la serie DeepSeek V4, con licencia MIT y sus pesos, ya están disponibles en Hugging Face y ModelScope. La serie incluye dos modelos MoE: V4-Pro con un total de 1.6T parámetros y 49B (49 mil millones) activados por token; V4-Flash con un total de 284B (284 mil millones) parámetros y 13B (13 mil millones) activados. Ambos admiten contextos de hasta 1M tokens. Tres mejoras en la arquitectura: un mecanismo de atención híbrido (Atención Escasa Compactada CSA + Atención Altamente Compactada HCA) reduce significativamente el costo de contextos largos; bajo un contexto de 1M, los FLOPs por token para inferencia de V4-Pro son solo el 27% de los de V3.2, y el caché KV (uso de memoria para almacenar información histórica durante la inferencia) es solo el 10% del de V3.2; la conexión superconectada con restricción de manifold (mHC) reemplaza las conexiones residuales tradicionales, mejorando la estabilidad de la propagación de señales entre capas; el entrenamiento utiliza el optimizador Muon para acelerar la convergencia. Los datos de preentrenamiento superan los 32T tokens. El post-entrenamiento se realiza en dos etapas: primero, se entrena a expertos en cada dominio mediante SFT y aprendizaje por refuerzo GRPO, luego se fusionan uniformemente en un solo modelo mediante distilación en línea. V4-Pro-Max (modo de máxima potencia de inferencia) se autodenomina el modelo de código abierto más potente actualmente, alcanzando niveles superiores en benchmarks de codificación y reduciendo significativamente la brecha con los modelos cerrados más avanzados en tareas de inferencia y agentes. V4-Flash-Max logra un rendimiento de inferencia cercano al de Pro cuando se le asigna suficiente presupuesto de pensamiento, pero se ve limitado en tareas puramente de conocimiento y agentes complejos debido a su tamaño de parámetros. Los pesos se almacenan con precisión mixta FP4+FP8. (Fuente: BlockBeats)