Epoch AI prédit que le calcul d'inférence dépassera le calcul d'entraînement des modèles d'ici 2030

L'industrie de l'IA est sur le point d'atteindre un point de bascule. Selon Epoch AI, une organisation à but non lucratif qui suit les tendances de l'intelligence artificielle, la puissance de calcul dédiée à l'exécution des modèles d'IA augmentera plus rapidement que la puissance de calcul utilisée pour les développer d'ici 2030.

Les chiffres derrière le décalage

Les projections d'Epoch AI dessinent un paysage dans lequel l'économie du déploiement dominera de plus en plus l'économie du développement. L'organisation estime que près de la moitié de toute la puissance de calcul d'inférence sera transférée vers des ASIC, ou circuits intégrés spécifiques à une application, d'ici la fin de la décennie. Il s'agit de puces conçues pour effectuer une seule tâche extrêmement bien, contrairement aux GPU à usage général qui alimentent actuellement la majorité des charges de travail IA.

Entre-temps, la part des ressources d'entraînement dans l'ensemble des opérations d'IA est prévue pour rester stable à environ 5 %. Les ressources d'entraînement pour les modèles d'IA de pointe connaissent actuellement une croissance annuelle de 4 à 5 fois. La base totale de calcul IA installée s'étend à un rythme similaire.

Historiquement, l'inférence a déjà représenté 60 % à 80 % de la puissance de calcul dans les déploiements réels.

D'ici 2030, les entraînements de pointe sont attendus pour atteindre environ 2e29 FLOP. Cette progression est comparable au saut de GPT-2 à GPT-4, soutenu par des ressources coûtant plus de 100 milliards de dollars. Chacun de ces entraînements de pointe pourrait nécessiter entre 4 et 16 gigawatts de puissance de calcul.

Les projets d'IA d'Epoch estiment que la capacité totale de puissance IA aux États-Unis pourrait dépasser 50 GW d'ici 2030, avec une capacité mondiale dépassant 100 GW.

Pourquoi les ASICs dévorent l'inférence

Google a découvert cela il y a des années avec ses unités de traitement Tensor. Amazon possède ses puces Inferentia. La tendance projetée par Epoch AI suggère que ce n'est pas une stratégie de niche, mais la direction que prendra environ la moitié du marché de l'inférence d'ici la fin de la décennie.

Les contraintes sur cette trajectoire de croissance ne sont pas négligeables. La demande énergétique, la capacité de production de puces et les limites de transfert de données posent tous des défis réels. L'évaluation d'Epoch AI est que ces goulets d'étranglement sont gérables sous les hypothèses de croissance actuelles.

Ce que cela signifie pour les investisseurs

Si le calcul d'inférence est où se dirige la croissance, la thèse d'investissement pour le secteur des semi-conducteurs évolue significativement. L'entraînement exige toujours des GPU, et les budgets d'entraînement continuent de croître de 4 à 5 fois par an. Mais l'opportunité de revenus récurrents à plus fort volume réside de plus en plus dans l'inférence.

Lorsque vous parlez de 50 GW de capacité de puissance IA aux États-Unis uniquement, cela implique une expansion massive de centres de données, de génération d'énergie et de systèmes de refroidissement.

Le risque à surveiller est la durabilité du taux de croissance annuel de 4 à 5 fois en calcul. Les projections d'Epoch AI supposent que les tendances actuelles se maintiennent, mais les contraintes énergétiques et les dynamiques géopolitiques d'approvisionnement en puces pourraient toutes introduire des frictions.