Perplexity lancera un système hybride d'inférence IA local-cloud en juillet

icon币界网
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Perplexity a annoncé un système hybride d'inférence IA local-cloud à Computex 2026, avec un lancement prévu en juillet dans la version Windows de Perplexity Computer. Le système répartit automatiquement les tâches d'IA entre le traitement local et le cloud, en privilégiant la confidentialité et l'efficacité coûts. Les données sensibles sont traitées localement, tandis que les tâches complexes utilisent le cloud. Cette fonction, annoncée conjointement par les PDG de Perplexity et d'Intel, prend en charge les processeurs Intel et NVIDIA. Cette actualité IA + crypto met en lumière une innovation clé dans le traitement hybride de l'IA. Cette initiative s'aligne sur la hausse des coûts du cloud et les tendances du computing en périphérie. La planification en temps réel de Perplexity constitue un différentiel majeur dans l'espace des actualités IA + crypto.
CoinJournal rapporte :

Perplexity a dévoilé une nouvelle fonctionnalité à Computex 2026 à Taipei, avec un plan de lancement de la version Windows de Perplexity Computer en juillet. Ce système déterminera automatiquement quelles parties d'une tâche AI s'exécutent sur l'appareil local et quelles parties sont traitées par des modèles cloud, sans nécessiter de basculement manuel de la part de l'utilisateur.

Traitez d'abord les contenus sensibles localement

Ce programme a été présenté conjointement par Aravind Srinivas, PDG de Perplexity, et Chen Liwu, PDG d'Intel. L'entreprise le qualifie de système hybride d'orchestration d'inférence locale et serveur, mettant l'accent sur l'intégration de la confidentialité, des performances et du coût des ressources de calcul dans un même processus.

Perplexity indique que les contenus tels que les dossiers financiers, les informations de santé et les documents personnels sont mieux adaptés à une première évaluation par un modèle léger sur l'appareil pour déterminer s'ils doivent rester localement. Les parties nécessitant une capacité de raisonnement plus forte sont ensuite envoyées à un modèle plus important dans le cloud.

Selon l'entreprise, les tâches telles que les résumés de documents, la mise en forme du texte et la classification légère peuvent être effectuées directement en local ; les raisonnements complexes sont transférés au serveur. L'ensemble du processus bascule automatiquement pendant l'exécution de la tâche, en essayant de ne pas être perçu par l'utilisateur.

Cependant, cela ne signifie pas que Perplexity offre aux utilisateurs un modèle hors ligne entièrement contrôlable. Les composants locaux restent des modèles compacts intégrés par Perplexity dans l'application, et la partie cloud continue de s'exécuter sur les serveurs de Perplexity, ne pouvant donc pas être considérée comme une solution entièrement hors ligne.

Les pressions sur les coûts constituent un contexte important

Srinivas a déclaré lors d'une interview pendant Computex que l'objectif des systèmes d'IA devrait être d'offrir une « valeur par watt » plus élevée à chaque utilisateur, plutôt que de concentrer tous les calculs sur les serveurs et les modèles les plus grands. Il a mentionné que certaines entreprises dépensent déjà des centaines de millions de dollars par mois en puissance de calcul.

Perplexity a précédemment révélé que ses revenus sont passés de 100 millions à 500 millions de dollars, tandis que son effectif n'a augmenté que de 34 %. Dans ce contexte, transférer une partie de la charge d'inférence vers les ordinateurs des utilisateurs permet de réduire directement les coûts de calcul cloud.

C'est également l'une des principales raisons pour lesquelles l'industrie de l'IA pousse à l'inférence côté appareil. Pour les entreprises, l'exécution locale réduit les coûts serveur ; pour les utilisateurs, cela signifie que certaines données sensibles n'ont pas besoin de quitter l'appareil.

L'industrie se tourne vers les modèles de périphérie et hybrides

Actuellement, plusieurs entreprises technologiques avancent sur l'inférence locale ou hybride. Apple effectue certaines traitements sensibles sur des puces locales ; Foundry Local de Microsoft est disponible depuis avril de cette année et prend en charge l'inférence AI locale sur Windows, macOS et Linux.

NVIDIA a également lancé RTX Spark pendant Computex, ciblant l'inférence locale de grands modèles sur les ordinateurs portables et de bureau. En revanche, le point différenciant de Perplexity ne réside pas dans le modèle lui-même, mais dans la couche d'ordonnancement : le système décide en temps réel de la répartition entre local et cloud en fonction des tâches, plutôt que de laisser l'utilisateur choisir à l'avance.

Perplexity indique que cette fonctionnalité n'est pas limitée aux processeurs Intel sur les plateformes de puces. Bien que la démonstration en direct ait utilisé un processeur Intel Core Ultra Series 3, elle prend également en charge les processeurs NVIDIA. Pour l'instant, cette fonctionnalité est confirmée pour être disponible en premier sur les applications Windows PC ; la date de sortie sur d'autres plateformes n'a pas encore été annoncée.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.