Le modèle MiMo-V2.5 de Xiaomi réduit les coûts grâce à un calcul d'attention équivalent à 10 couches

Selon les nouvelles de ME, le 27 mai (UTC+8), selon les données surveillées par Beating, après avoir appliqué une réduction permanente des prix de l'API pour la série de grands modèles internes MiMo-V2.5, Luo Fuli, responsable de l'équipe des grands modèles de Xiaomi, a révélé sur la plateforme X les mécanismes de réduction des coûts algorithmiques. Luo Fuli a indiqué qu'après avoir aligné les prix de l'API sur ceux de DeepSeek, le moteur d'inférence à haute charge de Xiaomi maintient toujours l'équilibre entre recettes et dépenses. La réduction des coûts provient principalement de l'architecture d'attention hybride et de l'optimisation hiérarchisée du cache KV. Dans le cadre de l'objectif de réduction de 99 % du coût des hits de cache, le cadre d'inférence de Xiaomi a mis en œuvre une optimisation hiérarchisée du cache KV pour l'attention à fenêtre glissante (SWA). Les tests en production montrent que cette optimisation hiérarchisée augmente la capacité de cache des tokens jusqu'à cinq fois et réduit les coûts de cache de 80 %. En combinant cette technique avec la technologie de chevauchement des lectures de cache (Cache Read Overlap) entre les modules d'attention globale, le système réduit davantage le coût réel des hits de cache. Concernant la réduction de 60 % à 80 % des coûts d'entrée et de sortie de base, Luo Fuli attribue cela à un rapport d'épaisseur éparse 1:7 introduit dans le modèle, soit un rapport entre les couches d'attention globale (GA) et d'attention à fenêtre glissante (SWA) de 1:7. Pendant la phase de pré-remplissage (Prefill) pour les longs textes, les 60 couches SWA ne calculent que les fenêtres glissantes locales, ce qui fait en sorte que la quantité totale de calcul d'attention du modèle MiMo-V2.5-Pro, doté de 70 couches, équivaut uniquement à celle d'un modèle traditionnel GQA de 10 couches. Cette charge de calcul extrêmement faible réduit le coût initial d'inférence et, avant la réduction des prix, avait laissé à Xiaomi une marge bénéficiaire de deux à trois fois supérieure. Ainsi, cette baisse des prix reflète une réduction structurelle des coûts, et non une concurrence à perte. Luo Fuli a déclaré que des services d'inférence à faible coût favorisent l'émergence de la demande en intelligence terminale. Les entreprises de grands modèles doivent éviter les guerres de prix aveugles et contrôler les coûts opérationnels réels en dessous du seuil de rentabilité grâce à une conception synergique fondamentale entre algorithmes et systèmes d'inférence. (Source : BlockBeats)