Perplexity 將於七月推出混合式本地端與雲端 AI 推理系統

幣界網報導：

Perplexity 在台北 Computex 2026 上公布一項新功能，計劃於 7 月上線 Windows 版 Perplexity Computer。該系統會自動判斷一項 AI 任務中哪些部分在本地設備運行，哪些部分交給雲端模型處理，用戶無需手動切換模式。

本地先處理敏感內容

該方案由 Perplexity 執行長 Aravind Srinivas 與英特爾執行長陳立武共同發布。公司將其稱為混合本地—伺服器推理編排系統，重點是將隱私、性能和算力成本整合於同一流程中處理。

Perplexity 表示，金融記錄、健康資訊和个人文件等內容，更適合先由設備上的輕量模型判斷是否留在本地。需要更強推理能力的部分，再發送到雲端更大模型處理。

根據公司說法，文檔摘要、文本格式整理、輕量分類等任務可直接在本地完成；複雜推理則轉交伺服器。整個過程會在任務執行中自動切換，盡量不讓用戶感知。

不過，這並不等於 Perplexity 向用戶開放一個可完全控制的離線模型。本地組件仍是 Perplexity 集成在應用中的緊湊模型，雲端部分也仍通過 Perplexity 伺服器運行，不能視為完全離線方案。

成本壓力是重要背景

Srinivas 在 Computex 期間受訪時表示，AI 系統的目標應是為每位用戶提供更高的「每瓦價值」，而不是將所有計算集中在伺服器和最大模型上。他提到，部分公司每月在算力上的支出已高達數億美元。

Perplexity 此前披露，公司收入已從 1 億美元增至 5 億美元，而員工規模僅增長 34%。在這種背景下，把部分推理負載轉移到用戶電腦，可以直接降低雲端算力開支。

這也是當前 AI 行業推動端側推理的重要原因之一。對企業來說，本地運行能減少伺服器成本；對用戶來說，則意味著部分敏感資料不必離開設備。

行業正轉向端側與混合模式

目前，多家科技公司都在推進本地或混合推理。蘋果將部分敏感處理放在本地晶片上完成；微軟的 Foundry Local 已在今年 4 月正式可用，支援在 Windows、macOS 和 Linux 上進行本地 AI 推理。

NVIDIA 也在 Computex 期間發布 RTX Spark，瞄準筆記型電腦和桌面設備上的本地大模型推理。相比之下，Perplexity 的差異點不在模型本身，而在調度層：系統會按任務實時決定本地與雲端的分工，而不是讓用戶預先選擇。

Perplexity 表示，此功能並不限於英特爾的晶片平台。雖然現場示範使用的是 Intel Core Ultra Series 3 處理器，但也支援英偉達處理器。目前此功能僅確認將首先登陸 Windows PC 應用，其他平台的上線時間尚未公佈。