Perplexity lancera un système hybride d'inférence IA local-cloud en juillet

CoinJournal rapporte :

Perplexity a dévoilé une nouvelle fonctionnalité à Computex 2026 à Taipei, avec un plan de lancement de la version Windows de Perplexity Computer en juillet. Ce système déterminera automatiquement quelles parties d'une tâche AI s'exécutent sur l'appareil local et quelles parties sont traitées par des modèles cloud, sans nécessiter de basculement manuel de la part de l'utilisateur.

Traitez d'abord les contenus sensibles localement

Ce programme a été présenté conjointement par Aravind Srinivas, PDG de Perplexity, et Chen Liwu, PDG d'Intel. L'entreprise le qualifie de système hybride d'orchestration d'inférence locale et serveur, mettant l'accent sur l'intégration de la confidentialité, des performances et du coût des ressources de calcul dans un même processus.

Perplexity indique que les contenus tels que les dossiers financiers, les informations de santé et les documents personnels sont mieux adaptés à une première évaluation par un modèle léger sur l'appareil pour déterminer s'ils doivent rester localement. Les parties nécessitant une capacité de raisonnement plus forte sont ensuite envoyées à un modèle plus important dans le cloud.

Selon l'entreprise, les tâches telles que les résumés de documents, la mise en forme du texte et la classification légère peuvent être effectuées directement en local ; les raisonnements complexes sont transférés au serveur. L'ensemble du processus bascule automatiquement pendant l'exécution de la tâche, en essayant de ne pas être perçu par l'utilisateur.

Cependant, cela ne signifie pas que Perplexity offre aux utilisateurs un modèle hors ligne entièrement contrôlable. Les composants locaux restent des modèles compacts intégrés par Perplexity dans l'application, et la partie cloud continue de s'exécuter sur les serveurs de Perplexity, ne pouvant donc pas être considérée comme une solution entièrement hors ligne.

Les pressions sur les coûts constituent un contexte important

Srinivas a déclaré lors d'une interview pendant Computex que l'objectif des systèmes d'IA devrait être d'offrir une « valeur par watt » plus élevée à chaque utilisateur, plutôt que de concentrer tous les calculs sur les serveurs et les modèles les plus grands. Il a mentionné que certaines entreprises dépensent déjà des centaines de millions de dollars par mois en puissance de calcul.

Perplexity a précédemment révélé que ses revenus sont passés de 100 millions à 500 millions de dollars, tandis que son effectif n'a augmenté que de 34 %. Dans ce contexte, transférer une partie de la charge d'inférence vers les ordinateurs des utilisateurs permet de réduire directement les coûts de calcul cloud.

C'est également l'une des principales raisons pour lesquelles l'industrie de l'IA pousse à l'inférence côté appareil. Pour les entreprises, l'exécution locale réduit les coûts serveur ; pour les utilisateurs, cela signifie que certaines données sensibles n'ont pas besoin de quitter l'appareil.

L'industrie se tourne vers les modèles de périphérie et hybrides

Actuellement, plusieurs entreprises technologiques avancent sur l'inférence locale ou hybride. Apple effectue certaines traitements sensibles sur des puces locales ; Foundry Local de Microsoft est disponible depuis avril de cette année et prend en charge l'inférence AI locale sur Windows, macOS et Linux.

NVIDIA a également lancé RTX Spark pendant Computex, ciblant l'inférence locale de grands modèles sur les ordinateurs portables et de bureau. En revanche, le point différenciant de Perplexity ne réside pas dans le modèle lui-même, mais dans la couche d'ordonnancement : le système décide en temps réel de la répartition entre local et cloud en fonction des tâches, plutôt que de laisser l'utilisateur choisir à l'avance.

Perplexity indique que cette fonctionnalité n'est pas limitée aux processeurs Intel sur les plateformes de puces. Bien que la démonstration en direct ait utilisé un processeur Intel Core Ultra Series 3, elle prend également en charge les processeurs NVIDIA. Pour l'instant, cette fonctionnalité est confirmée pour être disponible en premier sur les applications Windows PC ; la date de sortie sur d'autres plateformes n'a pas encore été annoncée.