Message AIMPACT, 19 mai (UTC+8) : selon le suivi de Beating, Sapient Intelligence a open-sourcé le modèle de base de génération de texte HRM-Text, doté de 1 milliard de paramètres (1B). Il s'agit d'un modèle entièrement pré-entraîné basé sur l'architecture de modèle de raisonnement hiérarchique (HRM). En introduisant un raisonnement dans l'espace latent au niveau inférieur de l'architecture, il réduit la consommation de puissance de calcul pour le pré-entraînement de 130 à 600 fois. Plus précisément, HRM-Text a été pré-entraîné en utilisant seulement 40 milliards (40B) de tokens structurés, soit environ un millième de la quantité de données requise par les modèles classiques de même taille. Selon les tests officiels, il faut environ 46 heures pour entraîner la version 1B à partir de zéro avec deux serveurs dotés chacun de 8 cartes H100, pour un coût informatique d'environ 1 472 dollars ; la version 0,6B nécessite seulement 50 heures sur un seul nœud, avec un coût matériel d'environ 800 dollars. L'ensemble du cadre technique, incluant l'extraction des données, le regroupement des séquences et l'entraînement distribué PyTorch, a été open-sourcé en parallèle. Ce réduction extrême des coûts repose sur une conception unique en double échelle temporelle (Dual-timescale recurrent). Le modèle intègre deux ensembles de modules Transformer : un rapide (couche inférieure) et un lent (couche supérieure). Ces deux ensembles itèrent alternativement sur les mêmes entrées et échangent des informations par addition d'états. Cette conception permet au modèle d'augmenter dynamiquement sa profondeur de calcul en augmentant le nombre d'itérations, tout en maintenant un nombre fixe de paramètres physiques. La baisse drastique du seuil de pré-entraînement permet désormais de tester à faible coût de nombreuses théories de modèles auparavant abandonnées en raison du coût élevé des ressources informatiques. Il convient de noter que les poids fournis ici sont uniquement des poids pré-entraînés non alignés : le modèle ne peut effectuer que des tâches d'achèvement de préfixe et ne peut pas être utilisé directement comme assistant de questions-réponses. (Source : BlockBeats)
Sapient open-source un modèle HRM-Text de 1 milliard de paramètres avec un coût d'entraînement 1 300 fois inférieur
KuCoinFlashPartager






Sapient Intelligence a publié une actualité sur chaîne le 19 mai (UTC+8), en open-source HRM-Text, un modèle textuel de 1 milliard de paramètres doté d'une architecture de raisonnement hiérarchique. Le modèle utilise un raisonnement dans l'espace latent pour réduire les coûts de pré-entraînement de 130 à 600 fois. Il a été entraîné sur 40 milliards de jetons structurés, une fraction des données utilisées par des modèles similaires. La version 1 milliard peut être entraînée en 46 heures pour 1 472 $ en utilisant deux serveurs H100 à 8 GPU chacun. La version 0,6 milliard coûte 800 $. L'ensemble du cadre technique, incluant l'extraction des données et l'entraînement PyTorch, est également mis en open-source. Les données sur l'inflation et l'efficacité d'entraînement constituent des points forts majeurs de cette publication.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.