Perplexity lanzará un sistema híbrido de inferencia de IA local-en-la-nube en julio

CoinGape informa:

Perplexity anunció una nueva función en Computex 2026 en Taipéi, con planes de lanzar la versión de Windows de Perplexity Computer en julio. El sistema determinará automáticamente qué partes de una tarea de IA se ejecutan en el dispositivo local y cuáles se delegan a modelos en la nube, sin necesidad de que el usuario cambie manualmente el modo.

Procesar primero el contenido sensible localmente

Este方案 fue presentado conjuntamente por Aravind Srinivas, CEO de Perplexity, y Chen Liwu, CEO de Intel. La empresa lo denomina sistema híbrido de orquestación de inferencia local-servidor, con énfasis en abordar la privacidad, el rendimiento y el costo de la capacidad de cómputo dentro de un mismo proceso.

Perplexity indica que contenidos como registros financieros, información de salud y documentos personales son más adecuados para que un modelo ligero en el dispositivo determine primero si deben mantenerse localmente. Las partes que requieran mayor capacidad de razonamiento se enviarán luego a un modelo más grande en la nube para su procesamiento.

Según la empresa, tareas como resúmenes de documentos, organización de formato de texto y clasificación ligera se pueden realizar directamente en el dispositivo local; la razonamiento complejo se transfiere al servidor. Todo el proceso cambia automáticamente durante la ejecución de la tarea, minimizando la percepción del usuario.

Sin embargo, esto no significa que Perplexity haya abierto un modelo fuera de línea completamente controlable por los usuarios. Los componentes locales siguen siendo modelos compactos integrados por Perplexity en la aplicación, y la parte en la nube también sigue ejecutándose a través de los servidores de Perplexity, por lo que no puede considerarse una solución completamente fuera de línea.

La presión de costos es un contexto importante

Srinivas dijo en una entrevista durante Computex que el objetivo de los sistemas de IA debería ser lograr un mayor "valor por vatio" para cada usuario, en lugar de concentrar todo el cómputo en servidores y modelos más grandes. Mencionó que algunas empresas ya gastan cientos de millones de dólares mensuales en capacidad de cómputo.

Perplexity anteriormente reveló que los ingresos de la empresa aumentaron de 100 millones a 500 millones de dólares, mientras que el tamaño del equipo solo creció un 34%. En este contexto, transferir parte de la carga de inferencia a las computadoras de los usuarios puede reducir directamente los gastos de capacidad de cómputo en la nube.

Esta es también una de las principales razones por las que la industria de la IA impulsa la inferencia en el dispositivo. Para las empresas, ejecutar localmente reduce los costos de servidor; para los usuarios, significa que algunos datos sensibles no necesitan salir del dispositivo.

La industria se está trasladando hacia modelos de borde e híbridos

Actualmente, varias empresas tecnológicas están impulsando la inferencia local o híbrida. Apple realiza parte del procesamiento sensible en chips locales; Foundry Local de Microsoft ya está disponible desde abril de este año, permitiendo inferencia de IA local en Windows, macOS y Linux.

NVIDIA también lanzó RTX Spark durante Computex, enfocándose en la inferencia local de modelos grandes en portátiles y equipos de escritorio. En contraste, la diferencia de Perplexity no está en el modelo en sí, sino en la capa de programación: el sistema decide en tiempo real la distribución entre local y en la nube según la tarea, en lugar de requerir que el usuario lo seleccione previamente.

Perplexity indica que esta función no está limitada a la plataforma de chips de Intel. Aunque la demostración en vivo utilizó el procesador Intel Core Ultra Series 3, también es compatible con procesadores NVIDIA. Actualmente, se ha confirmado que esta función llegará primero a aplicaciones para Windows PC, pero aún no se ha anunciado la fecha de lanzamiento en otras plataformas.