Lanzamiento del modelo de código abierto DeepSeek V4 con 1,6 billones de parámetros y licencia MIT

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Las noticias on-chain se dieron a conocer el 24 de abril (UTC+8) cuando DeepSeek lanzó la versión preliminar de sus modelos de la serie V4 de código abierto bajo la licencia MIT. Los modelos V4-Pro y V4-Flash MoE cuentan con 1,6 billones y 284 mil millones de parámetros, respectivamente, y ofrecen soporte para contextos de 1 millón de tokens. V4-Pro reduce los FLOPs de inferencia en un 73% y la memoria de caché KV en un 90% en comparación con V3.2. Los pesos están disponibles en Hugging Face y ModelScope. Nuevos listados de tokens podrían beneficiarse de la mayor eficiencia y el acceso abierto.

Noticias de ME, 24 de abril (UTC+8): según el monitoreo de Beating, la versión preliminar de la serie DeepSeek V4, con licencia MIT y sus pesos, ya están disponibles en Hugging Face y ModelScope. La serie incluye dos modelos MoE: V4-Pro con un total de 1.6T parámetros y 49B (49 mil millones) activados por token; V4-Flash con un total de 284B (284 mil millones) parámetros y 13B (13 mil millones) activados. Ambos admiten contextos de hasta 1M tokens. Tres mejoras en la arquitectura: un mecanismo de atención híbrido (Atención Escasa Compactada CSA + Atención Altamente Compactada HCA) reduce significativamente el costo de contextos largos; bajo un contexto de 1M, los FLOPs por token para inferencia de V4-Pro son solo el 27% de los de V3.2, y el caché KV (uso de memoria para almacenar información histórica durante la inferencia) es solo el 10% del de V3.2; la conexión superconectada con restricción de manifold (mHC) reemplaza las conexiones residuales tradicionales, mejorando la estabilidad de la propagación de señales entre capas; el entrenamiento utiliza el optimizador Muon para acelerar la convergencia. Los datos de preentrenamiento superan los 32T tokens. El post-entrenamiento se realiza en dos etapas: primero, se entrena a expertos en cada dominio mediante SFT y aprendizaje por refuerzo GRPO, luego se fusionan uniformemente en un solo modelo mediante distilación en línea. V4-Pro-Max (modo de máxima potencia de inferencia) se autodenomina el modelo de código abierto más potente actualmente, alcanzando niveles superiores en benchmarks de codificación y reduciendo significativamente la brecha con los modelos cerrados más avanzados en tareas de inferencia y agentes. V4-Flash-Max logra un rendimiento de inferencia cercano al de Pro cuando se le asigna suficiente presupuesto de pensamiento, pero se ve limitado en tareas puramente de conocimiento y agentes complejos debido a su tamaño de parámetros. Los pesos se almacenan con precisión mixta FP4+FP8. (Fuente: BlockBeats)

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.