Selon les nouvelles de ME, le 14 mai (UTC+8), selon les données surveillées par Beating, Nous Research a publié une nouvelle méthode de pré-entraînement de grands modèles appelée Token Stacking Training (TST). Cette méthode permet de réduire le temps de pré-entraînement de 2 à 3 fois avec une même quantité de calcul, en regroupant et en compressant les tokens adjacents au début de l'entraînement. TST se déroule en deux phases. Pendant les 20 % à 40 % initiaux de l'entraînement, le modèle ne lit plus les tokens un par un, mais regroupe les tokens adjacents en les moyennant pour les entrer, puis prédit quels tokens seront contenus dans le prochain groupe (sans tenir compte de leur ordre interne). Ensuite, le modèle revient à la prédiction classique du token suivant. Étant donné que l'architecture sous-jacente n'est pas modifiée, les modèles produits sont identiques aux modèles classiques lors de l'inférence. Cette méthode a été validée sur des modèles MoE jusqu'à 10 milliards de paramètres. Cette approche repose fondamentalement sur l'échange « données contre puissance de calcul », en accélérant la consommation des données pour réduire le temps de calcul. Toutefois, si les textes de haute qualité viennent à manquer à l'avenir, cette caractéristique d'accélération de la consommation des données pourrait devenir un inconvénient. Par ailleurs, quelques heures après la publication de l'article, un lecteur a souligné que le mécanisme de TST est extrêmement similaire à celui d'une œuvre antérieure publiée en 2024 intitulée « Beyond Next Token Prediction ». L'équipe des auteurs a ensuite reconnu sur Hugging Face qu'il s'agissait d'une « convergence malheureuse » (convergent research) et a promis de mettre à jour l'article pour inclure les références appropriées. (Source : BlockBeats)
La méthode de formation TST de Nous Research suscite une controverse en raison de sa similitude avec un travail antérieur
KuCoinFlashPartager






Nous Research a dévoilé une nouvelle annonce de lancement de token le 14 mai (UTC+8) avec sa méthode Token Stacking Training (TST), affirmant qu'elle réduit le temps de pré-entraînement de 2 à 3 fois sous une charge informatique identique. La méthode empile les tokens adjacents lors des premières étapes d'entraînement et prédit des paquets de tokens au lieu de tokens individuels. Les critiques ont rapidement noté la ressemblance de TST avec l'article de 2024 intitulé 'Beyond Next Token Prediction'. L'équipe a reconnu ce chevauchement comme un « malheureux travail convergent » et a promis d'ajouter les citations appropriées. Les nouveaux listings de tokens attirent souvent des critiques, et ce cas n'échappe pas à la règle.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.