Le modèle MiMo-V2.5 de Xiaomi réduit les coûts grâce à un calcul d'attention équivalent à 10 couches

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Le modèle MiMo-V2.5 de Xiaomi réduit les coûts grâce à un calcul d'attention équivalent à 10 couches. La version Pro à 70 couches réduit les coûts de hit de cache de 99 % et les coûts d'entrée/sortie de 60 à 80 %. Les informations on-chain indiquent que le modèle utilise un ratio de clairsemage de 1:7 entre l'attention à fenêtre glissante et l'attention globale. Les changements de politique crypto mondiale pourraient influencer la manière dont ces gains d'efficacité impactent le déploiement de l'IA.

Selon les nouvelles de ME, le 27 mai (UTC+8), selon les données surveillées par Beating, après avoir appliqué une réduction permanente des prix de l'API pour la série de grands modèles internes MiMo-V2.5, Luo Fuli, responsable de l'équipe des grands modèles de Xiaomi, a révélé sur la plateforme X les mécanismes de réduction des coûts algorithmiques. Luo Fuli a indiqué qu'après avoir aligné les prix de l'API sur ceux de DeepSeek, le moteur d'inférence à haute charge de Xiaomi maintient toujours l'équilibre entre recettes et dépenses. La réduction des coûts provient principalement de l'architecture d'attention hybride et de l'optimisation hiérarchisée du cache KV. Dans le cadre de l'objectif de réduction de 99 % du coût des hits de cache, le cadre d'inférence de Xiaomi a mis en œuvre une optimisation hiérarchisée du cache KV pour l'attention à fenêtre glissante (SWA). Les tests en production montrent que cette optimisation hiérarchisée augmente la capacité de cache des tokens jusqu'à cinq fois et réduit les coûts de cache de 80 %. En combinant cette technique avec la technologie de chevauchement des lectures de cache (Cache Read Overlap) entre les modules d'attention globale, le système réduit davantage le coût réel des hits de cache. Concernant la réduction de 60 % à 80 % des coûts d'entrée et de sortie de base, Luo Fuli attribue cela à un rapport d'épaisseur éparse 1:7 introduit dans le modèle, soit un rapport entre les couches d'attention globale (GA) et d'attention à fenêtre glissante (SWA) de 1:7. Pendant la phase de pré-remplissage (Prefill) pour les longs textes, les 60 couches SWA ne calculent que les fenêtres glissantes locales, ce qui fait en sorte que la quantité totale de calcul d'attention du modèle MiMo-V2.5-Pro, doté de 70 couches, équivaut uniquement à celle d'un modèle traditionnel GQA de 10 couches. Cette charge de calcul extrêmement faible réduit le coût initial d'inférence et, avant la réduction des prix, avait laissé à Xiaomi une marge bénéficiaire de deux à trois fois supérieure. Ainsi, cette baisse des prix reflète une réduction structurelle des coûts, et non une concurrence à perte. Luo Fuli a déclaré que des services d'inférence à faible coût favorisent l'émergence de la demande en intelligence terminale. Les entreprises de grands modèles doivent éviter les guerres de prix aveugles et contrôler les coûts opérationnels réels en dessous du seuil de rentabilité grâce à une conception synergique fondamentale entre algorithmes et systèmes d'inférence. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.