Cerebras Systems sert désormais le modèle open-weight Mixture-of-Experts Kimi K2.6 de Moonshot AI, doté de 1 billion de paramètres, à une vitesse de 981 tokens de sortie par seconde. Ce chiffre, vérifié par des tests indépendants réalisés par Artificial Analysis, représente 6,7 fois la vitesse du fournisseur de cloud GPU le plus rapide suivant.
Pour contexte, le fournisseur d'inférence médian est environ 23 fois plus lent.
À quoi ressemblent réellement ces chiffres en pratique
Sur une charge de travail représentative de codage agente, avec 10 000 jetons d'entrée et 500 jetons de sortie, la configuration alimentée par Cerebras a fourni une réponse complète en 5,6 secondes.
La même tâche sur le point de terminaison officiel de Kimi a pris 163,7 secondes. Cela représente une amélioration de 29 fois de la latence de bout en bout.
Le modèle Kimi K2.6 lui-même mérite d'être compris. Développé par Moonshot AI et publié le 20 avril 2026, il intègre des capacités multimodales et agentes. Bien que le nombre total de paramètres atteigne 1 billion, seulement 32 milliards de paramètres sont activés à tout moment, grâce à l'architecture MoE.
Pourquoi l'architecture à l'échelle des puces change la donne
La technologie centrale de Cerebras est le Wafer-Scale Engine, une puce constituée d'une seule plaque de silicium. Les puces traditionnelles sont découpées à partir de plaques en de petits dies individuels. Cerebras saute l'étape de découpe et utilise l'ensemble de la plaque.
Cerebras affirme dépasser de plus de 200 fois la bande passante de NVLink d’NVIDIA, la technologie d’interconnexion reliant les GPU au sein des clusters de centres de données. Lors de l’exécution d’inférence sur de grands modèles, le goulot d’étranglement est presque toujours la bande passante mémoire, et non la puissance de calcul brute. Les poids doivent être lus depuis la mémoire et transmis aux processeurs pour chaque token généré.
Le contexte professionnel : une entreprise récemment cotée en bourse avec quelque chose à prouver
Cerebras a réalisé son IPO en mai 2026 à une évaluation de 95 milliards de dollars, devenant la plus grande IPO technologique de l'année.
Le résultat de 981 jetons par seconde constitue la preuve la plus concrète à ce jour que la composante vitesse de cette thèse est valide. Cerebras n'a pas publié de comparaisons détaillées de prix accompagnant ce benchmark.
En servant l'un des modèles à poids ouvert les plus notables provenant d'un laboratoire chinois d'intelligence artificielle de premier plan, Cerebras démontre que son matériel peut gérer les modèles que les développeurs souhaitent réellement utiliser.
