Selon des médias étrangers, les fabricants chinois de modèles de pointe ont récemment continué à réduire leurs prix API : DeepSeek et Xiaomi ont annoncé de nouveaux tarifs, tandis que les nouveaux modèles des principaux laboratoires américains s'orientent vers des prix plus élevés, élargissant davantage l'écart de coûts d'inférence entre les modèles de pointe chinois et américains.
Pour les clients professionnels, le coût du modèle se manifeste principalement sous forme de frais par token pour l'API. Une fois l'application connectée au modèle, les entrées, les sorties et les hits de cache génèrent des frais ; par conséquent, toute variation du prix unitaire affecte directement la viabilité commerciale du produit IA.
DeepSeek et Xiaomi réduisent simultanément leurs prix
DeepSeek a rendu permanent, le 22 mai, la réduction de 75 % précédemment appliquée à V4-Pro. Après ajustement, le prix d'entrée pour ce modèle est de 0,435 $ par million de tokens, et le prix de sortie est de 0,87 $.
Xiaomi a réduit les prix de l'API MiMo-V2.5 le 26 mai, avec le prix d'entrée pour la version Pro passant à 0,0036 $ par million de tokens, une réduction pouvant atteindre 99 % pour certains projets. Selon le nouveau plan de forfaits de Xiaomi, le même prix permet désormais d'obtenir 5 à 8 fois plus de tokens.
La réduction de prix repose sur une optimisation du raisonnement
L'article indique que cette réduction de prix ne constitue pas simplement une action marketing. Luo Fuli, responsable de l'équipe MiMo de Xiaomi et ancien développeur clé de DeepSeek, a déclaré que les principaux gains proviennent de l'optimisation du cache et du cadre d'inférence. Le système peut réutiliser davantage d'informations déjà traitées, réduisant ainsi les calculs redondants et diminuant les coûts de stockage et d'inférence.
Selon ses dires, les optimisations associées ont considérablement amélioré la capacité de traitement des jetons mis en cache, réduisant les coûts globaux de stockage et de traitement d'environ 80 %. Aux nouveaux prix de l'API, le moteur d'inférence en production peut encore atteindre l'équilibre financier même lorsqu'il fonctionne presque à pleine capacité.
DeepSeek adopte une approche consistant à réduire le coût de calcul du contexte grâce à une architecture de modèle. L'article indique que la V4 utilise deux mécanismes d'attention entrelacés, réduisant considérablement la taille du cache KV et le coût d'inférence par token dans les scénarios à long contexte. Pour un contexte de un million de tokens, le cache KV de la V4-Pro n'est que d'environ dix pour cent de celui de la génération précédente, et le coût d'inférence par token est d'environ 27 % de celui de la génération précédente.
Le prix du modèle américain évolue dans la direction opposée
L'article souligne que les principaux modèles américains n'ont pas suivi la tendance à la baisse des prix récemment. GPT-5.5, lancé par OpenAI fin avril, a augmenté le prix de sortie à 30 dollars par million de tokens, soit environ le double du modèle précédent. Le prix de Claude Opus 4.7 d'Anthropic reste inchangé, mais en raison d'une mise à jour du tokenizer, le même texte peut générer davantage de tokens, ce qui pourrait augmenter la facture réelle de jusqu'à 35 %.
Pour comparaison, DeepSeek V4-Pro obtient un score de 80,6 % sur le benchmark de code SWE-Verified, proche des 80,8 % de Claude Opus 4.6, mais avec un écart de prix de sortie atteignant plusieurs dizaines de fois. Après le dernier ajustement de prix, Xiaomi MiMo-V2.5-Pro atteint également le même prix d'entrée et de sortie que DeepSeek V4-Pro.
L'article mentionne également que d'autres fabricants chinois de modèles, tels que MiniMax, Moonshot AI et Z.AI, maintiennent des prix bas. Selon la comparaison présentée dans l'article, le écart de prix entre les modèles de pointe chinois et américains au deuxième trimestre 2026 s'élève à environ 15 à 30 fois ; si l'on prend en compte les réductions pour le cache, cet écart s'agrandit encore davantage.
