Xiaomi lance la version accélérée MiMo avec une vitesse de 1000+ tokens/seconde

icon币界网
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Xiaomi a lancé un nouveau modèle prêt pour les listages de jetons, le MiMo-V2.5-Pro-UltraSpeed, capable de traiter plus de 1000 jetons par seconde sur des serveurs standards. Le modèle utilise la quantification FP4 et le décodage DFlash pour augmenter la vitesse sans nécessiter de puces personnalisées. L'optimisation TileRT réduit la surcharge GPU. Il surpasse GPT, Claude Opus et Gemini Flash. L'accès à l'API débute le 9 juin. Le modèle est trois fois plus cher, mais dix fois plus rapide. Les points de contrôle FP4 et DFlash sont open-source. Les nouvelles de la SEC restent une préoccupation majeure pour les projets de jetons.
CoinGape rapporte :

Xiaomi a lancé MiMo-V2.5-Pro-UltraSpeed, une version accélérée pour l'inférence de son modèle phare de mille milliards de paramètres. L'entreprise affirme que la nouvelle version atteint une vitesse d'inférence dépassant 1000 tokens par seconde sur un serveur standard équipé de 8 GPU génériques, avec un pic démontré proche de 1200 tokens.

L'accent de cette mise à jour ne repose pas sur le modèle lui-même, mais sur l'efficacité d'inférence. Contrairement aux solutions dépendant de puces personnalisées, Xiaomi met l'accent sur l'utilisation de matériel générique, en réalisant une accélération grâce à des optimisations logicielles et au niveau du modèle. Cela signifie que le seuil pour déployer rapidement de grands modèles pourrait encore baisser.

Deux technologies stimulent la vitesse

Xiaomi a principalement adopté deux technologies cette fois-ci. La première est la quantification FP4. L'entreprise a compressé les couches d'experts, qui représentent la majeure partie des paramètres du modèle, à une précision de 4 bits, tout en conservant une précision plus élevée pour le reste. Cela permet de réduire la consommation de mémoire vidéo et la pression sur la bande passante, augmentant ainsi la vitesse d'inférence.

Le deuxième point est le décodage par hypothèse DFlash. Le décodage par hypothèse traditionnel prédit d'abord un petit nombre de jetons par un modèle plus petit, puis vérifie ces jetons en parallèle par un modèle plus grand. DFlash, en revanche, propose directement un bloc entier de jetons, que le modèle principal vérifie ensuite. Dans les tâches de codage, le modèle principal accepte en moyenne 6,3 jetons candidats sur 8 à chaque itération.

Xiaomi et son partenaire d'inférence TileRT ont également optimisé le processus d'exécution. L'idée consiste à garder le processus de calcul constamment en mémoire sur le GPU, afin de réduire les surcoûts liés au démarrage séquentiel des opérateurs.

Comparaison des vitesses des modèles principaux

Selon les données citées d'Artificial Analysis, la vitesse de sortie des modèles généraux actuellement dominants est généralement inférieure à ce niveau. Le rapport indique que la vitesse d'interaction courante pour la série GPT est d'environ 68 tokens par seconde, Claude Opus 4.6 d'environ 71 tokens par seconde, et Gemini Flash d'environ 192 tokens par seconde.

L'article mentionne également que des entreprises comme Cerebras et Groq ont longtemps misé sur le déploiement de l'inférence à haut débit, en s'appuyant sur des architectures de puces propriétaires pour améliorer la vitesse. En revanche, Xiaomi a obtenu ce résultat sur des nœuds GPU universels, mettant en avant l'amélioration des performances apportée par l'optimisation logicielle.

Lancement d'une utilisation limitée le 9 juin

Xiaomi indique que UltraSpeed accélère la version originale de MiMo-V2.5-Pro, et non le modèle léger simplifié. Ce modèle avait précédemment été décrit comme ayant des performances proches de celles de Claude Opus dans les tests de référence.

L'entreprise prévoit d'ouvrir un essai limité d'API du 9 juin au 23 juin, sur demande ; les utilisateurs professionnels et les développeurs experts bénéficieront d'une priorité. En termes de tarification, la version UltraSpeed coûte environ trois fois le tarif standard MiMo, mais la vitesse de génération peut être augmentée jusqu'à dix fois.

Informations complémentaires : Xiaomi indique que le modèle de point de contrôle utilisant FP4 et DFlash est désormais open source sur Hugging Face, disponible pour les tests de la communauté.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.