Sapient open-source un modèle HRM-Text de 1 milliard de paramètres avec un coût d'entraînement 1 300 fois inférieur

Message AIMPACT, 19 mai (UTC+8) : selon le suivi de Beating, Sapient Intelligence a open-sourcé le modèle de base de génération de texte HRM-Text, doté de 1 milliard de paramètres (1B). Il s'agit d'un modèle entièrement pré-entraîné basé sur l'architecture de modèle de raisonnement hiérarchique (HRM). En introduisant un raisonnement dans l'espace latent au niveau inférieur de l'architecture, il réduit la consommation de puissance de calcul pour le pré-entraînement de 130 à 600 fois. Plus précisément, HRM-Text a été pré-entraîné en utilisant seulement 40 milliards (40B) de tokens structurés, soit environ un millième de la quantité de données requise par les modèles classiques de même taille. Selon les tests officiels, il faut environ 46 heures pour entraîner la version 1B à partir de zéro avec deux serveurs dotés chacun de 8 cartes H100, pour un coût informatique d'environ 1 472 dollars ; la version 0,6B nécessite seulement 50 heures sur un seul nœud, avec un coût matériel d'environ 800 dollars. L'ensemble du cadre technique, incluant l'extraction des données, le regroupement des séquences et l'entraînement distribué PyTorch, a été open-sourcé en parallèle. Ce réduction extrême des coûts repose sur une conception unique en double échelle temporelle (Dual-timescale recurrent). Le modèle intègre deux ensembles de modules Transformer : un rapide (couche inférieure) et un lent (couche supérieure). Ces deux ensembles itèrent alternativement sur les mêmes entrées et échangent des informations par addition d'états. Cette conception permet au modèle d'augmenter dynamiquement sa profondeur de calcul en augmentant le nombre d'itérations, tout en maintenant un nombre fixe de paramètres physiques. La baisse drastique du seuil de pré-entraînement permet désormais de tester à faible coût de nombreuses théories de modèles auparavant abandonnées en raison du coût élevé des ressources informatiques. Il convient de noter que les poids fournis ici sont uniquement des poids pré-entraînés non alignés : le modèle ne peut effectuer que des tâches d'achèvement de préfixe et ne peut pas être utilisé directement comme assistant de questions-réponses. (Source : BlockBeats)