Après l'adoption à grande échelle des modèles d'IA, la demande en puissance de calcul pour l'inférence continue d'augmenter. Contrairement à la phase d'entraînement, la génération en ligne de réponses par les modèles et l'exécution de tâches d'agent imposent des exigences différentes en matière d'architecture de puce, de latence et de coûts de déploiement. Selon TechCrunch, le fournisseur de cloud d'inférence General Compute tente de pénétrer ce marché avec une solution de déploiement plus légère.
General Compute a récemment levé 15 millions de dollars lors d'un tour de financement semences, avec une valorisation post-tranche de 60 millions de dollars. Ce tour a été mené par FUSE VC, avec la participation de Carya Venture Partners et Village Global Ventures. L'entreprise se positionne comme un « inference neocloud », louant principalement la puissance de traitement AI nécessaire à la phase d'exécution des modèles.
Parier sur la puce d'inférence SambaNova
Sur le marché des infrastructures IA, les GPU restent le choix dominant, mais un nombre croissant d'entreprises commencent à miser sur des puces spécifiquement conçues pour les scénarios d'inférence. L'article mentionne que General Compute a choisi de collaborer avec SambaNova plutôt que de chercher directement à obtenir des ressources GPU plus limitées.
SambaNova est une entreprise de puces soutenue par Intel, axée depuis longtemps sur le calcul d'inférence. Le cofondateur de General Compute affirme que la nouvelle puce que SambaNova lancera cette année offrira une capacité de mémoire contextuelle supérieure lors de l'inférence, ainsi qu'une architecture plus flexible. Selon l'entreprise, la nouvelle puce peut atteindre une vitesse de 600 à 700 tokens par seconde, contre environ 250 tokens par seconde pour les GPU.
General Compute indique avoir passé une commande de puces SambaNova SN50 d'une valeur de 300 millions de dollars américains et deviendra la première entreprise neocloud à déployer ces puces.
Les installations actuelles peuvent être déployées directement.
Outre la disponibilité des puces, un autre défi pour l'expansion de la puissance de calcul AI est l'installation des centres de données. De nombreuses puces AI haute performance nécessitent un refroidissement par liquide et une configuration électrique plus élevée, ce qui augmente les coûts de rénovation des centres de données et allonge les délais de mise en ligne.
La solution proposée par General Compute consiste à utiliser des puces d'inférence à refroidissement par air et à faible consommation énergétique. Cela permet d'installer directement les équipements dans les centres de données existants, sans nécessiter de mise à niveau majeure des infrastructures. Pour une entreprise nouvelle sur le marché du cloud d'inférence, cela signifie une mise à disposition plus rapide de capacités de calcul louables.
L'entreprise actuellement avance dans des partenariats de stockage en hébergement, en installant son propre matériel dans des installations tierces. Les partenaires incluent non seulement des opérateurs de centres de données traditionnels, mais aussi des entreprises de minage de cryptomonnaies cherchant à se transformer. Le rapport indique que, pendant certaines périodes, le coût de production du bitcoin a dépassé son prix de marché, incitant certains sites de minage à rechercher de nouvelles utilisations pour leurs infrastructures.
La concurrence dans le cloud computing se tourne vers la vitesse et le coût
General Compute a lancé son service cloud la semaine dernière, affirmant qu'il est le plus rapide pour exécuter le modèle open source MiniMax 2.7. L'entreprise vise à réduire les tâches d'agents de codage qui prenaient auparavant une heure à 5 à 10 minutes, ainsi qu'à diminuer les coûts d'inférence pour des scénarios en temps réel tels que les agents vocaux de service client.
L'investisseur Joe Hassleman estime que ce partenariat ressemble à la stratégie initiale de CoreWeave qui a étendu sa puissance de calcul grâce à Nvidia. Pour SambaNova, General Compute constitue également un canal essentiel pour faire pénétrer ses puces dans des scénarios à forte croissance.
L'article estime que le cloud d'inférence mise essentiellement sur un marché où coexistent plusieurs modèles et plusieurs agents. Si, à l'avenir, aucun fournisseur de modèles unique ne domine durablement le marché, la vitesse d'inférence et le coût unitaire deviendront des indicateurs de concurrence plus directs. Le récent financement de 113 millions de dollars en série B d'OpenRouter reflète également une demande croissante pour l'accès à plusieurs modèles et l'optimisation des coûts de token.

