Selon les nouvelles de ME, le 19 mai (UTC+8), selon le suivi de Beating, ByteDance Research a officiellement open-sourcé son modèle multimodal unifié natif, Lance. Ce modèle léger, avec seulement 3 milliards de paramètres activés, prend en charge simultanément la compréhension, la génération et l'édition d'images et de vidéos au sein d'un seul cadre. Les modèles unifiés dominants reposent actuellement sur une augmentation massive des paramètres ou sur l'architecture texte-à-image ; Lance, en revanche, a réussi une approche collaborative à faible puissance de calcul. L'équipe de développement a entièrement entraîné le modèle à partir de zéro et a réduit le budget total de calcul sur l'ensemble du cycle d'entraînement à 128 GPU A100. Pour résoudre les conflits internes entre les modalités et les tâches, Lance intègre deux isolations rigoureuses dans son architecture : - Une architecture hybride MoE (Mixture of Experts) en double flux pour traiter les séquences multimodales entrelacées, tout en décorrélant les chemins de calcul pour la compréhension et la génération, tout en partageant un contexte sous-jacent commun. - L'introduction d'un codage de position rotatif sensible à la modalité, réduisant directement les interférences entre les tokens visuels hétérogènes des images et des vidéos. Cette compression extrême de la puissance de calcul n'a pas abaissé la limite de performance. Avec seulement 3 milliards de paramètres activés, Lance domine la plupart des tests de référence en matière de génération et d'édition d'images et de vidéos par rapport aux modèles unifiés open-source existants, réussissant ainsi une voie économique à faible paramétrage qui allie génération et compréhension sémantique grâce à une collaboration multitâche. (Source : BlockBeats)
ByteDance open-source un modèle multimodal de 3 milliards de paramètres, entraîné sur 128 GPU A100
KuCoinFlashPartager






ByteDance a open-sourcé son modèle multimodal de 3 milliards de paramètres, Lance, le 19 mai, entraîné à l'aide de 128 GPU A100. Le modèle gère les tâches d'image et de vidéo dans un seul cadre. Les données chainées montrent une augmentation de la position ouverte pour les projets crypto axés sur l'IA. Lance utilise une architecture MoE à double flux et un codage par rotation sensible à la modalité pour réduire les coûts tout en conservant de fortes performances. La position ouverte sur les jetons liés à l'IA a augmenté de manière constante ce trimestre.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.