Mensaje de AIMPACT, 19 de mayo (UTC+8): según el monitoreo de Beating, Sapient Intelligence ha liberado el modelo base de generación de texto HRM-Text con 1 mil millones de parámetros (1B). Se trata de un modelo puramente preentrenado basado en la arquitectura de modelo de razonamiento jerárquico (HRM). Al introducir razonamiento en el espacio latente en la capa inferior de la arquitectura, reduce el consumo de cálculo durante el preentrenamiento de modelos base entre 130 y 600 veces. En concreto, HRM-Text completó el preentrenamiento utilizando solo 40 mil millones (40B) de tokens estructurados, aproximadamente una milésima parte de los datos requeridos por modelos convencionales del mismo nivel. Las pruebas oficiales muestran que se puede entrenar desde cero la versión de 1B en aproximadamente 46 horas utilizando dos servidores con 8 tarjetas H100 cada uno, con un costo computacional de aproximadamente 1.472 dólares; mientras que la versión de 0.6B requiere solo 50 horas en un solo nodo, con un costo de hardware de aproximadamente 800 dólares. Todo el marco de ingeniería completo, incluyendo extracción de datos, empaquetado de secuencias y entrenamiento distribuido en PyTorch, ha sido liberado simultáneamente como código abierto. El soporte para esta reducción extrema de costos se basa en un diseño único de bucle de doble escala temporal (Dual-timescale recurrent). El modelo incorpora dos conjuntos de módulos Transformer: uno rápido (capas inferiores) y otro lento (capas superiores). Estos dos conjuntos iteran alternadamente sobre el mismo lote de entradas e intercambian información mediante la suma de estados. Este diseño permite que el modelo amplíe dinámicamente la profundidad computacional aumentando el número de iteraciones, manteniendo fijo el número total de parámetros físicos. La caída drástica en el umbral de preentrenamiento permite que muchas teorías de modelos anteriormente descartadas por el alto costo computacional ahora puedan verificarse a bajo costo. Es importante destacar que la versión liberada hoy es únicamente el peso preentrenado sin alinear; el modelo solo puede realizar tareas de continuación de prefijos y no puede utilizarse directamente como asistente de preguntas y respuestas. (Fuente: BlockBeats)
Sapient abre el código del modelo HRM-Text de 1 mil millones de parámetros con un costo de entrenamiento 1.300 veces menor
KuCoinFlashCompartir






Sapient Intelligence lanzó noticias en la cadena el 19 de mayo (UTC+8), abriendo el código de HRM-Text, un modelo de texto de 1 mil millones de parámetros con una arquitectura de razonamiento jerárquico. El modelo utiliza razonamiento en el espacio latente para reducir los costos de preentrenamiento entre 130 y 600 veces. Fue entrenado con 40 mil millones de tokens estructurados, una fracción de los datos utilizados por modelos similares. La versión de 1 mil millones puede entrenarse en 46 horas por $1.472 utilizando dos servidores con 8 GPU H100 cada uno. La versión de 0,6 mil millones cuesta $800. También se abrió el código completo del marco de ingeniería, incluyendo extracción de datos y entrenamiento en PyTorch. Los datos de inflación y la eficiencia del entrenamiento son puntos destacados de este lanzamiento.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.