DeepSeek réduit les coûts de son API de 100 fois, suscitant un débat sur la centralisation de l'infrastructure IA

—— À partir de la conférence de Gonka à LA Hacks 2026

Le 26 avril, DeepSeek a lancé la série V4 de ses API nouveaux tarifs : le prix de命中 du cache d'entrée pour toute la gamme a été réduit à un dixième du prix de lancement, et avec l'offre limitée appliquée à la version Pro, le coût de traitement d'un million de tokens n'est plus que de 0,025 yuans — soit près de cent fois moins cher qu'il y a un an. Les actions du secteur du calcul en Bourse chinoise ont toutes atteint le plafond ce jour-là, et l'enthousiasme du marché a explosé.

Mais derrière les acclamations, il y a une question que personne ne aborde directement : à mesure que les modèles deviennent de plus en plus abordables, la puissance de calcul nécessaire pour les exécuter devient de plus en plus centralisée.

Les données ne mentent pas. Au quatrième trimestre 2025, les dépenses en capital combinées des quatre fournisseurs de cloud Microsoft, Amazon, Meta et Google ont augmenté de 64 % pour atteindre 118,6 milliards de dollars ; on prévoit que les dépenses en capital combinées pour l'ensemble de l'année 2026 augmenteront encore de 53 % pour atteindre 570,8 milliards de dollars. Google a relevé son objectif de livraison de puces TPU pour 2026 de 50 % à 6 millions d'unités. Les délais de livraison de la série H100 d'NVIDIA s'étendent à plusieurs mois sur certains marchés.

Le pouvoir de fixation des prix au niveau du modèle se déplace vers les développeurs, mais le contrôle au niveau de la puissance de calcul se concentre plus rapidement encore entre les mains de quelques géants. C'est une contradiction cachée mais profonde de l'ère de l'IA.

Gonka

Dans ce contexte, le 24 avril 2026, Daniil et David Liberman, cofondateurs du protocole Gonka, ont pris la scène de la conférence principale de LA Hacks 2026. Cette plus grande hackathon universitaire annuelle de l'UCLA a cette année vu les frères Liberman en tant que conférenciers principaux, s'adressant à des centaines d'ingénieurs de premier plan sur le point d'entrer dans ce secteur. La question qu'ils ont posée résonnait particulièrement clairement à ce moment-là : le calcul décentralisé est-il encore possible ?

I. L'autre côté de la vague de réductions de prix

La logique de réduction des prix de DeepSeek V4 semble être le fruit de gains d'efficacité issus de progrès technologiques — un nouveau mécanisme d'attention réduit la dimension des tokens, combiné à l'attention clairsemée DSA, ce qui diminue considérablement les besoins en calcul et en mémoire vidéo. Toutefois, pour que cette réduction de prix soit durable, il faut que la puissance de calcul soit suffisamment abondante et suffisamment peu coûteuse quelque part.

La réalité est que cette source de puissance de calcul « suffisante » s’accumule rapidement dans un nombre restreint de nœuds à l’échelle mondiale. Récemment, Michael Hurlston, PDG de Lumentum, a déclaré que, selon les tendances actuelles, la capacité de l’entreprise pour 2028 est presque entièrement vendue. Ce n’est pas une difficulté isolée, mais une tension collective de toute la chaîne d’approvisionnement en infrastructure IA face à une demande en forte expansion.

Daniil a utilisé un contraste simple mais puissant lors de sa conférence à LA Hacks : la puissance de calcul du réseau Bitcoin dépasse désormais la somme des centres de données cloud de Google, Microsoft et Amazon — mais à quoi sert cette puissance ? À résoudre un problème de hachage dont personne ne nécessite la réponse. Il en va de même pour la puissance GPU inutilisée à travers le monde : les cartes graphiques des ordinateurs de joueurs, les serveurs des salles informatiques universitaires, les capacités résiduelles des petits et moyens fournisseurs de cloud — ensemble, elles représentent une énorme quantité de ressources, mais, faute de mécanisme de coordination, elles ne peuvent pas être utilisées pour l'inférence IA.

Gonka tente de résoudre ce problème de coordination — en utilisant le mécanisme d'incitation de la preuve de travail pour organiser des GPU inutilisés répartis dans le monde entier en un réseau capable d'exécuter des tâches réelles d'inférence IA.

Deuxièmement, l'inférence est le nouveau champ de bataille

La réduction des prix de DeepSeek a suscité un large débat sur la « démocratisation de l'IA » sur Internet en chinois. Mais un détail souvent négligé : la réduction concerne le « prix d'appel », pas le « coût de calcul ». Avec la mise à l'échelle des applications d'IA, la croissance du volume d'appels d'inférence est exponentielle — selon les prévisions du secteur, d'ici 2026, l'inférence représentera environ les deux tiers de la consommation mondiale de puissance de calcul pour l'IA.

Cela signifie quoi ? Chaque réduction d'un ordre de grandeur du prix d'appel ne fait qu'augmenter la quantité totale de puissance de calcul requise, jamais la réduire. La « démocratisation » des grands modèles accélère, dans une certaine mesure, la centralisation de la couche de puissance de calcul — car seuls les acteurs disposant d'une puissance de calcul à grande échelle peuvent maintenir l'exploitation des services d'inférence à des marges ultra-faibles.

Ceci est une verrouillage structurel en cours de formation : celui qui contrôle la puissance de calcul physique du côté raisonnement contrôle l'entrée véritable vers l'infrastructure de l'ère de l'IA. De ce point de vue, la signification des réseaux de calcul décentralisés ne se limite plus à une optimisation de coûts de 50 %, mais offre une alternative structurelle avant que le verrouillage centralisé ne soit achevé.

Troisième : Une véritable question posée aux jeunes constructeurs

Les participants de LA Hacks — des ingénieurs et des professionnels du produit issus des meilleures universités de Californie — devront bientôt faire un choix technique peu romantique : sur quelle couche de puissance de calcul construire leur produit.

Quels serveurs votre produit IA utilise-t-il pour l'inférence ?

Lorsque cette plateforme ajuste sa stratégie de tarification ou ses politiques d'accès, avez-vous la capacité de migrer ?

La taille de la communauté que vous aidez à construire crée-elle de la valeur pour vous-même ou alimente-t-elle simplement la plateforme ?

Ces problèmes ont déjà été expérimentés par les développeurs à l'ère Web2 : lorsque le destin d'une application est étroitement lié aux algorithmes ou aux règles de distribution de la plateforme, « l'indépendance » devient un terme à redéfinir en permanence. La dépendance aux ressources de calcul à l'ère de l'IA répliquera ce même logique au niveau de l'infrastructure, et en raison de coûts de transition plus élevés, l'effet de verrouillage ne fera que s'intensifier.

Gonka

Les hackathons, en tant que forme, contiennent une ironie intrinsèque : construire en 36 heures, avec le moins de ressources possible et à la vitesse la plus rapide, quelque chose de fonctionnel — c’est précisément l’état que les mécanismes d’incitation des réseaux décentralisés cherchent à atteindre. Daniil est monté sur scène à LA Hacks non seulement pour présenter Gonka, mais aussi pour demander à ce public : vos futures actions accéléreront-elles cette tendance centralisée, ou créeront-elles de nouvelles possibilités ?

Quatre : PoW 2.0 : une problématique d'ingénierie

Gonka a réorienté la structure d'incitation du proof-of-work des calculs de hachage vers l'inférence IA, permettant à près de 100 % de la puissance de calcul du réseau d'être directement liée à des tâches réelles. Ce mécanisme présente une exigence technique cruciale : les tâches d'inférence IA doivent être vérifiables et reproductibles — étant donné les mêmes poids de modèle, la même graine aléatoire et les mêmes entrées, tout nœud peut reproduire le résultat du calcul et en vérifier la validité. C'est le défi ingénierie central qui a permis à Gonka de passer d'un prototype académique à un réseau opérationnel.

Du point de vue économique, la signification de ce mécanisme réside dans le fait que la valeur des jetons est naturellement ancrée sur le coût physique des ressources de calcul, et non sur l'humeur de la liquidité. Les mineurs qui contribuent des ressources de calcul reçoivent une récompense, tandis que les développeurs qui utilisent ces ressources paient des frais ; l'ensemble du système d'incitation fonctionne en boucle fermée sans dépendre de la bienveillance d'intermédiaires.

Bien sûr, la faisabilité technique n'est qu'une partie de la question. La difficulté plus grande réside dans ceci : dans une ère où la demande en puissance de calcul augmente rapidement et où les dépenses en capital des grands acteurs s'élèvent à des centaines de milliards de dollars, un réseau de puissance de calcul distribué, organisé par des contributions spontanées de la communauté, peut-il atteindre une échelle suffisante pour constituer une véritable concurrence ?

Les données initiales de Gonka fournissent un point de référence : moins d'un an après le lancement de la chaîne principale, la puissance de calcul agrégée du réseau est passée de 60 équivalents H100 à plus de 10 000, une croissance alimentée par l'adoption spontanée de centaines de nœuds indépendants à travers le monde, et non par une allocation centralisée. Cela ne prouve pas que le problème d'échelle est résolu, mais il montre que le mécanisme d'incitation a efficacement stimulé la croissance initiale.

Cinq : Problèmes liés à la période de fenêtre

Historiquement, le contrôle des infrastructures a souvent convergé rapidement au début — ainsi en était-il de l'ère des chemins de fer, de l'ère d'Internet et de l'ère de l'Internet mobile. À chaque fois, certains ont trouvé un point d'entrée avant que les normes ne soient figées, tandis que d'autres n'ont réalisé que leur droit à la participation s'était considérablement réduit après la centralisation.

À quel stade se trouve l'infrastructure de calcul AI actuellement ? Selon les dépenses en capital prévues de 570,8 milliards de dollars des quatre grands fournisseurs de cloud pour 2026, la centralisation s'accélère ; toutefois, selon les modèles d'utilisation réels des développeurs, il existe encore de nombreuses ressources non efficacement intégrées du côté de l'offre. Ce fossé constitue l'espace structurel dans lequel les réseaux décentralisés peuvent exister.

Daniil a cité une comparaison lors de son discours : après l'éclatement de la bulle internet en 2000, ce qui reste n'est pas des ruines, mais un réseau de fibres optiques étendu à travers le monde, soutenant l'économie numérique des deux décennies suivantes. Après le reflux de la vague d'investissements dans les infrastructures d'IA, les protocoles de calcul et les mécanismes d'incitation qui en résulteront deviendront les infrastructures du prochain cycle — la question est simplement de savoir quels protocoles ont une logique sous-jacente suffisamment solide pour continuer à fonctionner sous pression.

Ce n'est pas une question concernant un projet spécifique, mais un défi que toute la filière de l'IA décentralisée doit affronter : le design de la gouvernance peut-il véritablement résister à l'érosion du contrôle centralisé ? Les mécanismes d'incitation restent-ils efficaces à mesure que l'échelle augmente ? La décentralisation du réseau de puissance de calcul est-elle valable simultanément au niveau technique, au niveau de l'émission de jetons et au niveau des décisions de mise à jour ?

Conclusion

La baisse des prix de DeepSeek relance le récit de la « démocratisation de l'IA ». Mais démocratiser les appels d'inférence et démocratiser l'infrastructure de calcul sont deux choses différentes. La première est en cours ; la seconde dépendra de ce que, au cours des prochaines années, un nombre suffisant de personnes considéreront cela comme un problème d'ingénierie digne d'être résolu, et non simplement comme un récit attrayant.