Xiaomi lance la version accélérée MiMo avec une vitesse de 1000+ tokens/seconde

CoinGape rapporte :

Xiaomi a lancé MiMo-V2.5-Pro-UltraSpeed, une version accélérée pour l'inférence de son modèle phare de mille milliards de paramètres. L'entreprise affirme que la nouvelle version atteint une vitesse d'inférence dépassant 1000 tokens par seconde sur un serveur standard équipé de 8 GPU génériques, avec un pic démontré proche de 1200 tokens.

L'accent de cette mise à jour ne repose pas sur le modèle lui-même, mais sur l'efficacité d'inférence. Contrairement aux solutions dépendant de puces personnalisées, Xiaomi met l'accent sur l'utilisation de matériel générique, en réalisant une accélération grâce à des optimisations logicielles et au niveau du modèle. Cela signifie que le seuil pour déployer rapidement de grands modèles pourrait encore baisser.

Deux technologies stimulent la vitesse

Xiaomi a principalement adopté deux technologies cette fois-ci. La première est la quantification FP4. L'entreprise a compressé les couches d'experts, qui représentent la majeure partie des paramètres du modèle, à une précision de 4 bits, tout en conservant une précision plus élevée pour le reste. Cela permet de réduire la consommation de mémoire vidéo et la pression sur la bande passante, augmentant ainsi la vitesse d'inférence.

Le deuxième point est le décodage par hypothèse DFlash. Le décodage par hypothèse traditionnel prédit d'abord un petit nombre de jetons par un modèle plus petit, puis vérifie ces jetons en parallèle par un modèle plus grand. DFlash, en revanche, propose directement un bloc entier de jetons, que le modèle principal vérifie ensuite. Dans les tâches de codage, le modèle principal accepte en moyenne 6,3 jetons candidats sur 8 à chaque itération.

Xiaomi et son partenaire d'inférence TileRT ont également optimisé le processus d'exécution. L'idée consiste à garder le processus de calcul constamment en mémoire sur le GPU, afin de réduire les surcoûts liés au démarrage séquentiel des opérateurs.

Comparaison des vitesses des modèles principaux

Selon les données citées d'Artificial Analysis, la vitesse de sortie des modèles généraux actuellement dominants est généralement inférieure à ce niveau. Le rapport indique que la vitesse d'interaction courante pour la série GPT est d'environ 68 tokens par seconde, Claude Opus 4.6 d'environ 71 tokens par seconde, et Gemini Flash d'environ 192 tokens par seconde.

L'article mentionne également que des entreprises comme Cerebras et Groq ont longtemps misé sur le déploiement de l'inférence à haut débit, en s'appuyant sur des architectures de puces propriétaires pour améliorer la vitesse. En revanche, Xiaomi a obtenu ce résultat sur des nœuds GPU universels, mettant en avant l'amélioration des performances apportée par l'optimisation logicielle.

Lancement d'une utilisation limitée le 9 juin

Xiaomi indique que UltraSpeed accélère la version originale de MiMo-V2.5-Pro, et non le modèle léger simplifié. Ce modèle avait précédemment été décrit comme ayant des performances proches de celles de Claude Opus dans les tests de référence.

L'entreprise prévoit d'ouvrir un essai limité d'API du 9 juin au 23 juin, sur demande ; les utilisateurs professionnels et les développeurs experts bénéficieront d'une priorité. En termes de tarification, la version UltraSpeed coûte environ trois fois le tarif standard MiMo, mais la vitesse de génération peut être augmentée jusqu'à dix fois.

Informations complémentaires : Xiaomi indique que le modèle de point de contrôle utilisant FP4 et DFlash est désormais open source sur Hugging Face, disponible pour les tests de la communauté.