Sapient abre el código del modelo HRM-Text de 1 mil millones de parámetros con un costo de entrenamiento 1.300 veces menor

Mensaje de AIMPACT, 19 de mayo (UTC+8): según el monitoreo de Beating, Sapient Intelligence ha liberado el modelo base de generación de texto HRM-Text con 1 mil millones de parámetros (1B). Se trata de un modelo puramente preentrenado basado en la arquitectura de modelo de razonamiento jerárquico (HRM). Al introducir razonamiento en el espacio latente en la capa inferior de la arquitectura, reduce el consumo de cálculo durante el preentrenamiento de modelos base entre 130 y 600 veces. En concreto, HRM-Text completó el preentrenamiento utilizando solo 40 mil millones (40B) de tokens estructurados, aproximadamente una milésima parte de los datos requeridos por modelos convencionales del mismo nivel. Las pruebas oficiales muestran que se puede entrenar desde cero la versión de 1B en aproximadamente 46 horas utilizando dos servidores con 8 tarjetas H100 cada uno, con un costo computacional de aproximadamente 1.472 dólares; mientras que la versión de 0.6B requiere solo 50 horas en un solo nodo, con un costo de hardware de aproximadamente 800 dólares. Todo el marco de ingeniería completo, incluyendo extracción de datos, empaquetado de secuencias y entrenamiento distribuido en PyTorch, ha sido liberado simultáneamente como código abierto. El soporte para esta reducción extrema de costos se basa en un diseño único de bucle de doble escala temporal (Dual-timescale recurrent). El modelo incorpora dos conjuntos de módulos Transformer: uno rápido (capas inferiores) y otro lento (capas superiores). Estos dos conjuntos iteran alternadamente sobre el mismo lote de entradas e intercambian información mediante la suma de estados. Este diseño permite que el modelo amplíe dinámicamente la profundidad computacional aumentando el número de iteraciones, manteniendo fijo el número total de parámetros físicos. La caída drástica en el umbral de preentrenamiento permite que muchas teorías de modelos anteriormente descartadas por el alto costo computacional ahora puedan verificarse a bajo costo. Es importante destacar que la versión liberada hoy es únicamente el peso preentrenado sin alinear; el modelo solo puede realizar tareas de continuación de prefijos y no puede utilizarse directamente como asistente de preguntas y respuestas. (Fuente: BlockBeats)