Perplexity lançará sistema híbrido de inferência de IA local-nuvem em julho

Relatório do CoinNews:

A Perplexity anunciou uma nova funcionalidade na Computex 2026 em Taipei, com planejamento de lançamento da versão Windows do Perplexity Computer em julho. O sistema determinará automaticamente quais partes de uma tarefa de IA serão executadas no dispositivo local e quais serão processadas por modelos na nuvem, sem necessidade de alteração manual de modo.

Processar primeiro o conteúdo sensível localmente

Este plano foi lançado ao mesmo tempo por Aravind Srinivas, CEO da Perplexity, e Chen Liwu, CEO da Intel. A empresa o denomina sistema híbrido de orquestração de inferência local-servidor, com foco em integrar privacidade, desempenho e custo de computação em um único processo.

A Perplexity afirma que conteúdos como registros financeiros, informações de saúde e documentos pessoais são mais adequados para serem primeiro avaliados por um modelo leve no dispositivo, para decidir se permanecem localmente. As partes que exigem maior capacidade de raciocínio são enviadas posteriormente para modelos maiores na nuvem.

Segundo a empresa, tarefas como resumo de documentos, organização de formato de texto e classificação leve podem ser realizadas diretamente localmente; raciocínios complexos são transferidos para o servidor. Todo o processo ocorre automaticamente durante a execução da tarefa, tentando minimizar a percepção do usuário.

No entanto, isso não significa que a Perplexity disponibilize aos usuários um modelo offline totalmente controlável. Os componentes locais ainda são modelos compactos integrados pela Perplexity no aplicativo, e a parte em nuvem continua a ser executada por meio dos servidores da Perplexity, não podendo ser considerada uma solução totalmente offline.

A pressão sobre os custos é um contexto importante

Srinivas, durante entrevista na Computex, afirmou que o objetivo dos sistemas de IA deve ser fornecer maior "valor por watt" para cada usuário, em vez de concentrar todo o processamento em servidores e modelos maiores. Ele mencionou que algumas empresas já gastam centenas de milhões de dólares por mês em poder de computação.

Perplexity anteriormente revelou que a receita da empresa aumentou de US$ 100 milhões para US$ 500 milhões, enquanto o tamanho da equipe cresceu apenas 34%. Nesse contexto, transferir parte da carga de inferência para os computadores dos usuários pode reduzir diretamente os custos de poder de processamento na nuvem.

Essa também é uma das principais razões pelas quais a indústria de IA está impulsionando a inferência na borda. Para empresas, executar localmente reduz os custos de servidor; para usuários, significa que部分 dados sensíveis não precisam deixar o dispositivo.

A indústria está se voltando para modelos de borda e híbridos

Atualmente, várias empresas de tecnologia estão avançando com inferência local ou híbrida. A Apple realiza parte do processamento sensível diretamente nos chips locais; o Foundry Local da Microsoft já está disponível desde abril deste ano, permitindo inferência de IA local em Windows, macOS e Linux.

A NVIDIA também lançou o RTX Spark durante a Computex, voltado para inferência de modelos locais em notebooks e dispositivos de mesa. Em contraste, o diferencial da Perplexity não está no modelo em si, mas na camada de agendamento: o sistema decide em tempo real a divisão de tarefas entre local e na nuvem, em vez de exigir que o usuário escolha previamente.

A Perplexity afirmou que esta funcionalidade não é limitada à plataforma de chips da Intel. Embora a demonstração ao vivo tenha utilizado o processador Intel Core Ultra Series 3, também há suporte para processadores NVIDIA. Atualmente, confirma-se que esta funcionalidade será lançada primeiro em aplicativos para Windows PC, mas ainda não foi divulgado o prazo de lançamento em outras plataformas.