NVIDIA RTX Spark redéfinit le PC IA avec une performance IA de 1 petaflop

Au cours des deux dernières années, les fabricants de PC ont souvent cité un paramètre lors de la promotion de leurs « PC IA » : la puissance de calcul NPU. Que ce soit les 45 TOPS du Lunar Lake d’Intel ou les 50 TOPS du Strix Point d’AMD, ces chiffres restent à un niveau relativement modéré. Ils permettent de flouter l’arrière-plan, de réduire le bruit vocal et d’exécuter certains petits modèles côté appareil, mais rien de plus.

Le 31 mai, NVIDIA a présenté le super-puce RTX Spark lors de la conférence GTC 2026, portant cette valeur à 1 petaflop, soit 1000 TOPS. Ce n'est pas une amélioration de 30 % ou 50 %, mais un saut direct d'un ordre de grandeur.

D'autres annonces ont été faites en même temps : Microsoft a mis à jour les mécanismes de sécurité natifs de Windows en collaboration avec RTX Spark et a introduit le runtime de sandbox open source d'NVIDIA, OpenShell, sur la plateforme Windows ; Adobe a annoncé une refonte complète de Photoshop et Premiere, spécifiquement optimisées pour l'architecture de mémoire unifiée de RTX Spark ; six premiers fabricants OEM ont confirmé le lancement, cet automne, de notebooks légers et de petits ordinateurs de bureau équipés de ce processeur.

Ce que NVIDIA a fait lors de cette GTC, ce n'est pas de lancer une nouvelle puce. Il s'agit de définir une nouvelle norme matérielle pour la catégorie de l'« ordinateur personnel IA ».

Lorsque la GPU devient la star du PC

Commencez par examiner la puce elle-même. Selon les données publiées par NVIDIA lors du GTC, RTX Spark intègre un GPU de l'architecture Blackwell, doté de 6 144 cœurs CUDA, associé à un CPU Grace à 20 cœurs d'architecture Arm, conçu en collaboration avec MediaTek, et fabriqué selon le procédé TSMC 3 nm. Le changement clé réside dans l'architecture mémoire : jusqu'à 128 Go de mémoire unifiée, partagée par le CPU et le GPU, ce qui élimine le besoin de transférer les données entre les deux.

Cela va à l'encontre de l'architecture PC traditionnelle.

La structure de base des PC traditionnels est « un CPU x86 en tant que processeur principal, et un GPU dédié en tant qu'accessoire optionnel ». Même le concept récent d'AI PC voit Intel et AMD intégrer une NPU au sein du CPU, en tant que module additionnel pour l'accélération de l'IA, avec une puissance de calcul généralement de 40 à 50 TOPS. Le GPU reste un « périphérique externe ».

RTX Spark a réattribué la primauté. Ce SoC fait du GPU le protagoniste, tandis que le CPU passe au second plan. NVIDIA annonce une puissance de calcul IA de 1 petaflop FP4, équivalente à 1000 TOPS, soit plus de 20 fois la puissance du NPU intégré dans la génération précédente d'ordinateurs IA. Ce n'est pas une simple accélération sur le même parcours, c'est le départ sur une toute nouvelle piste.

La vitesse de suivi des fabricants OEM confirme ce jugement. Selon l'annonce officielle de NVIDIA et les reportages ultérieurs de DIGITIMES, ASUS, Dell, HP, Lenovo, Microsoft Surface et MSI lanceront cet automne des ordinateurs portables légers et des ordinateurs de bureau compacts équipés du RTX Spark, suivis par Acer et Gigabyte. Presque toutes les marques principales de PC Windows sont désormais impliquées.

RTX Spark n'est pas un produit né de zéro. Au début de l'année 2025, le même processeur combinant les cœurs Blackwell et Grace avait été présenté sous les noms Project DIGITS et DGX Spark, mais il était alors positionné comme une supercalculatrice de bureau Linux destinée aux développeurs, avec un volume proche d'un petit ordinateur de bureau. Un an plus tard, cette architecture a été intégrée dans l'espace de dissipation thermique d'un ordinateur portable fin et léger, le système d'exploitation est passé de Linux à Windows, et la cible s'est étendue des développeurs d'IA aux consommateurs ordinaires et aux entreprises. Voici le changement le plus remarquable de la présentation grand public de GTC 2026 : NVIDIA ne lance pas un jouet pour développeurs, mais ouvre la porte au marché grand public.

Est-ce suffisant pour faire tourner un modèle de 120B en local ?

Les chiffres de la puissance de calcul et de la mémoire doivent en fin de compte répondre à une question : à quoi cela sert-il ?

La réponse fournie par NVIDIA lors de sa présentation est que RTX Spark prend en charge l'exécution locale de modèles de grande taille de 120 milliards de paramètres, avec une fenêtre de contexte pouvant atteindre un million de tokens. Que signifie 120 milliards ? À titre de référence, la pratique courante actuelle pour l'exécution locale de modèles sur du matériel grand public consiste à faire fonctionner des modèles de 30 à 40 milliards de paramètres sur une RTX 4090 avec 24 Go de mémoire vidéo, grâce à la quantification et à la compression. Certains modèles plus petits peuvent être exécutés rapidement sur des cartes graphiques grand public, notamment des modèles de 9 milliards. Le saut de 9 à 120 milliards réévalue fondamentalement la norme de « suffisance » pour l'IA en périphérie.

128 Go de mémoire unifiée sont la condition préalable à tout cela. Sur les architectures PC traditionnelles, le CPU dispose de sa propre mémoire système et le GPU de sa propre mémoire vidéo, avec une frontière physique entre les deux. Un modèle dépassant la capacité de la mémoire vidéo ne peut tout simplement pas fonctionner, ou nécessite une séparation complexe du modèle et un échange de mémoire, entraînant une chute brutale des performances. L'architecture à mémoire unifiée élimine ce goulot d'étranglement en plaçant directement les données du modèle dans un pool partagé de 128 Go, accessible à la fois au CPU et au GPU. Apple a démontré en premier la faisabilité de cette voie technologique pour le grand public sur Apple Silicon, et NVIDIA l'apporte désormais dans l'écosystème Windows.

Outre l'inférence de grands modèles, les cas d'utilisation listés par NVIDIA incluent également l'édition vidéo 12K, le rendu de scènes 3D de plus de 90 Go et des jeux en ray tracing dépassant 100 fps en résolution 1440p. Le point commun à ces scénarios est un volume de données traité par opération extrêmement élevé, ce qui oblige les PC traditionnels à attendre plusieurs fois plus longtemps ou à ne tout simplement pas pouvoir les exécuter.

Il existe encore une distance entre « prise en charge » et « utilisation fluide ». NVIDIA n’a pas publié la vitesse d’inférence réelle du modèle 120B sur RTX Spark, ni les données de latence du premier token dans des scénarios de contexte de plusieurs millions de tokens. L’indicateur clé déterminant la vitesse d’inférence sur de longs contextes est la bande passante mémoire. À titre de référence, le DGX Spark utilisant également le cœur GB10 affiche une bande passante mémoire mesurée d’environ 301 Go/s. Ce niveau de bande passante est suffisant pour exécuter un modèle de 120 milliards, mais lors du traitement de fenêtres de contexte de plusieurs millions de tokens, les utilisateurs pourraient devoir attendre plusieurs secondes avant de voir le premier token de sortie. La version portable de RTX Spark pourrait voir sa bande passante réelle ajustée en raison de contraintes de consommation énergétique.

Ajoutez une cage de sécurité à l'agent IA

Un autre déploiement central, en dehors de la puissance de calcul, est la collaboration entre NVIDIA et Microsoft au niveau système. Cette partie pourrait être la plus négligée lors des annonces grand public de GTC 2026, mais elle aura l’impact le plus profond sur l’industrie.

Un ordinateur capable d'exécuter un modèle de 120 Md, s'il est utilisé par un agent IA pouvant manipuler autonome le bureau, cliquer sur des boutons et lire/écrire des fichiers, ne présente plus simplement un risque de perte de données, mais un risque que l'agent effectue des actions que vous ne souhaitez pas. Sans résoudre ce problème, les entreprises ne pourront jamais déployer ce type d'équipement auprès de leurs employés.

Les solutions proposées par Microsoft et NVIDIA constituent deux lignes de défense. La première, Microsoft a amélioré les mécanismes de sécurité natifs de Windows pour surveiller et contraindre les comportements des agents IA au niveau du système d'exploitation. La deuxième, NVIDIA a officiellement introduit OpenShell sur la plateforme Windows. Selon la documentation officielle de NVIDIA, OpenShell est un environnement d'exécution open source offrant une isolation au niveau du noyau. Il délimite un domaine d'opération contrôlé pour les agents IA, leur permettant d'exécuter des tâches de manière autonome tout en restreignant strictement leurs autorisations pour empêcher tout accès aux fichiers centraux du système, aux connexions réseau ou aux données sensibles des utilisateurs.

La signification de ce combo pour les achats entreprises est claire. Jusqu'à présent, le concept d'« agent IA local » restait à l'étape de démonstrations techniques. Le matériel fonctionnait, mais le cadre de sécurité était vide. Aucun département informatique d'entreprise n'aurait osé inclure un tel équipement dans sa liste d'achats dans cet état. NVIDIA et Microsoft ont inséré une couche standardisée d'isolation entre le matériel et les applications, transformant le « fonctionnel » en « gérable ».

La surcharge de performance d'OpenShell elle-même est une variable à observer. L'isolation dans un sandbox entraîne généralement une perte de performance partielle ; cependant, NVIDIA n'a pas encore publié de données précises sur l'impact sur la vitesse d'inférence ou la réponse système. La complexité de déploiement côté gestion IT entreprise et la compatibilité avec les politiques de sécurité existantes sont des problèmes pratiques qui ne pourront être vérifiés qu'après la mise sur le marché des appareils OEM.

Pourquoi Adobe est-elle disposée à « reconstruire depuis les fondations » ?

Le niveau de coopération des éditeurs de logiciels est généralement un indicateur de la capacité d'une nouvelle plateforme matérielle à s'établir.

Les actions annoncées par Adobe pendant la GTC constituent le signal le plus important sur le volet logiciel de cette série de lancements. Selon le blog officiel de NVIDIA et la confirmation des dirigeants d'Adobe, Adobe a lancé une refonte fondamentale de Photoshop et Premiere, spécifiquement optimisée pour l'architecture de mémoire unifiée RTX Spark, affirmant une amélioration des performances IA et de traitement graphique pouvant atteindre deux fois plus élevée.

La « refonte sous-jacente » ne consiste pas à ajouter un plugin ou à créer une couche d’adaptation. Sur les PC traditionnels, le CPU et le GPU disposent chacun de leur propre espace mémoire ; lors du traitement d’un fichier PSD très volumineux ou d’une ligne du temps vidéo 8K, les données doivent être constamment transférées entre ces deux systèmes mémoire, ce qui constitue un point critique de gaspillage de performance. La mémoire unifiée de RTX Spark permet au CPU et au GPU de partager directement un même espace de 128 Go ; ce changement structurel apporte une valeur concrète au flux de travail des créateurs professionnels. Le fait qu’Adobe ait modifié son code sous-jacent démontre qu’il reconnaît cette architecture comme une orientation durable, et non comme une simple tactique marketing ponctuelle.

Cependant, la référence de comparaison pour ce « doublement de la vitesse » n'a pas été divulguée par NVIDIA ni Adobe. S'agit-il d'une comparaison avec des processeurs x86 de la même génération associés à une carte graphique dédiée, ou avec la solution NPU des PC IA précédents ? Les résultats sont radicalement différents. Avant la publication des conditions de test, la valeur de ce chiffre reste incertaine.

Blackmagic Design, ComfyUI, llama.cpp, OTOY et plusieurs studios de jeux ont également été annoncés comme soutenus. Le soutien de ComfyUI et llama.cpp est particulièrement notable, car ce sont les outils open source les plus actifs dans les flux de travail IA locaux actuels. Le soutien précoce de la communauté des développeurs reflète souvent plus fidèlement le potentiel écosystémique d’une plateforme que les promesses des grandes entreprises.

NVIDIA utilise l'écosystème CUDA et l'architecture de mémoire unifiée pour créer une expérience intégrée logiciel-hardware similaire à celle d'Apple sur la plateforme Windows. La différence réside dans le fait qu'Apple a construit son mur lui-même, tandis que NVIDIA doit convaincre Microsoft et les ISV de participer à sa construction. Le fait qu'Adobe soit prêt à agir depuis les fondations indique au moins que la première brique de ce mur a été posée.

Au-delà des spécifications théoriques

Revenons à une question la plus pratique : ces appareils sont-ils vraiment disponibles à l'achat, et quelle est l'expérience une fois en main ?

Selon les informations publiées par NVIDIA, les premiers appareils RTX Spark seront disponibles à l'automne cette année, incluant des ordinateurs portables légers et des ordinateurs de bureau compacts de ASUS, Dell, HP, Lenovo, Microsoft Surface et MSI. Les modèles d'Acer et Gigabyte suivront ultérieurement. Aucun prix ni date de disponibilité exacte n'a été communiqué pour les modèles OEM.

Ce qui est plus crucial que le prix, ce sont plusieurs inconnues au niveau physique. Comment équilibrer la consommation d'énergie et la dissipation thermique lorsqu'on intègre une puce de 1 petaflop de puissance dans un ordinateur portable fin et léger ? Quelles sont les performances quotidiennes et l'autonomie de RTX Spark dans des scénarios non liés à l'IA ? La bande passante réelle de 128 Go de mémoire unifiée dans un format portable sera-t-elle nettement réduite en raison de limites de consommation d'énergie ?

Ces questions constituent le véritable test de la mise en œuvre industrielle. La puissance de calcul maximale d'une puce sur un prototype d'ingénierie et sa performance réelle lorsqu'elle est utilisée par les consommateurs huit heures par jour sont souvent deux choses différentes. NVIDIA a souligné l'efficacité énergétique de RTX Spark lors de sa présentation, mais n'a pas fourni de valeurs spécifiques de TDP ou d'autonomie.

Du point de vue de la structure de l'industrie PC, l'apparition de RTX Spark marque la formation d'un nouveau modèle de spécialisation. Au cours des trente dernières années, le contrôle des puces centrales du PC était détenu par les fabricants de processeurs x86 ; bien que les fabricants de GPU soient devenus de plus en plus importants, ils restaient toujours des « composants branchés sur la carte mère ». Cette fois, NVIDIA propose une SoC complète, intégrant du CPU au GPU en passant par le contrôleur mémoire. La partie CPU basée sur l'architecture Arm a été conçue par MediaTek. La structure des pouvoirs dans la chaîne d'approvisionnement PC évolue ainsi de « CPU x86 avec GPU optionnel » vers une « plateforme SoC centrée sur le GPU ».

Cette transition ne se fera pas en un jour. La stratégie de tarification des OEM, les performances énergétiques réelles des produits, le progrès de l’adaptation des logiciels ISV et le cycle de validation des achats des clients entreprises — chaque étape détermine si RTX Spark deviendra un nouveau point de référence pour l’industrie du PC ou un simple démonstration technologique à fort démarrage mais à faible persistance. La réponse ne viendra pas avant l’automne au plus tôt.