Selon les nouvelles de ME, le 20 mai (UTC+8), selon les données de Beating, l'entreprise de puces à l'échelle de la wafer Cerebras a annoncé le déploiement du modèle de grande taille Kimi K2.6 doté de mille milliards de paramètres dans des tests entreprises, éliminant complètement les latences d'interconnexion liées à la communication traditionnelle au niveau des cartes en intégrant directement la puce sur une wafer de silicium de 12 pouces. Les tests réalisés par l'organisme indépendant Artificial Analysis ont révélé une vitesse de génération de 981 tokens/s, soit 6,7 fois plus rapide que les principaux services cloud basés sur GPU. Dans une tâche de texte long impliquant 10 000 tokens en entrée et 500 tokens en sortie, le temps total de réponse est passé de 163,7 secondes via l'interface officielle de Kimi à seulement 5,6 secondes, soit une accélération de 29 fois. Étant donné que les poids du modèle sont répartis entre plusieurs wafers pour transmettre en flux les valeurs d'activation, la communication entre couches s'effectue entièrement sur le réseau intégré à la wafer, atteignant une bande passante physique plus de 200 fois supérieure à celle du NVLink dans l'architecture NVL72 d'NVIDIA. Associé à une optimisation du calcul distribué, Kimi K2.6 stocke les poids originaux en 4 bits (4 bits) avec une perte minimale, utilise des nombres flottants sur 16 bits (16 bits) pour maintenir la précision pendant le calcul, et emploie des noyaux d'opérateurs personnalisés ainsi qu'un décodage par anticipation pour atteindre un fonctionnement en temps réel. (Source : BlockBeats)
Cerebras teste le modèle Kimi K2.6 avec une accélération de 29 fois sur les tâches de texte long
KuCoinFlashPartager






Cerebras a révélé le 20 mai (UTC+8) qu'elle avait testé le modèle Kimi K2.6 de mille milliards de paramètres à l'aide de ses puces à échelle de galette. En montant directement les puces sur une galette complète de 12 pouces, l'entreprise a réduit les retards de communication. Selon Artificial Analysis, le modèle a généré du texte à une vitesse de 981 jetons/s, soit 6,7 fois plus vite que les services GPU standards. Dans un test sur texte long avec 10 000 jetons en entrée et 500 en sortie, le temps de réponse est passé de 163,7 secondes à 5,6 secondes, soit une amélioration de 29 fois. Les données sur chaîne continuent de mettre en évidence les gains de performance dans l'infrastructure IA.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.