Cerebras atteint 981 tokens par seconde sur le modèle Kimi K2.6, 6,7 fois plus rapide que le cloud GPU

iconCryptoBriefing
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Cerebras Systems livre désormais 981 jetons par seconde pour le modèle Kimi K2.6 de Moonshot AI, vérifié par Artificial Analysis. Ce modèle MoE ouvert de 1 billion de paramètres fonctionne 6,7 fois plus vite que le meilleur cloud GPU. Les données chainées révèlent une amélioration de la latence de 29 fois pour les tâches de codage, Cerebras répondant en 5,6 secondes contre 163,7 secondes sur le point de terminaison officiel de Kimi. L'analyse chainée confirme que l'écart de performance reste constant à travers les charges de travail.

Cerebras Systems sert désormais le modèle open-weight Mixture-of-Experts Kimi K2.6 de Moonshot AI, doté de 1 billion de paramètres, à une vitesse de 981 tokens de sortie par seconde. Ce chiffre, vérifié par des tests indépendants réalisés par Artificial Analysis, représente 6,7 fois la vitesse du fournisseur de cloud GPU le plus rapide suivant.

Pour contexte, le fournisseur d'inférence médian est environ 23 fois plus lent.

À quoi ressemblent réellement ces chiffres en pratique

Sur une charge de travail représentative de codage agente, avec 10 000 jetons d'entrée et 500 jetons de sortie, la configuration alimentée par Cerebras a fourni une réponse complète en 5,6 secondes.

Publicité

La même tâche sur le point de terminaison officiel de Kimi a pris 163,7 secondes. Cela représente une amélioration de 29 fois de la latence de bout en bout.

Le modèle Kimi K2.6 lui-même mérite d'être compris. Développé par Moonshot AI et publié le 20 avril 2026, il intègre des capacités multimodales et agentes. Bien que le nombre total de paramètres atteigne 1 billion, seulement 32 milliards de paramètres sont activés à tout moment, grâce à l'architecture MoE.

Pourquoi l'architecture à l'échelle des puces change la donne

La technologie centrale de Cerebras est le Wafer-Scale Engine, une puce constituée d'une seule plaque de silicium. Les puces traditionnelles sont découpées à partir de plaques en de petits dies individuels. Cerebras saute l'étape de découpe et utilise l'ensemble de la plaque.

Cerebras affirme dépasser de plus de 200 fois la bande passante de NVLink d’NVIDIA, la technologie d’interconnexion reliant les GPU au sein des clusters de centres de données. Lors de l’exécution d’inférence sur de grands modèles, le goulot d’étranglement est presque toujours la bande passante mémoire, et non la puissance de calcul brute. Les poids doivent être lus depuis la mémoire et transmis aux processeurs pour chaque token généré.

Le contexte professionnel : une entreprise récemment cotée en bourse avec quelque chose à prouver

Cerebras a réalisé son IPO en mai 2026 à une évaluation de 95 milliards de dollars, devenant la plus grande IPO technologique de l'année.

Le résultat de 981 jetons par seconde constitue la preuve la plus concrète à ce jour que la composante vitesse de cette thèse est valide. Cerebras n'a pas publié de comparaisons détaillées de prix accompagnant ce benchmark.

En servant l'un des modèles à poids ouvert les plus notables provenant d'un laboratoire chinois d'intelligence artificielle de premier plan, Cerebras démontre que son matériel peut gérer les modèles que les développeurs souhaitent réellement utiliser.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.