Perplexity、7月にハイブリッド型ローカル・クラウドAI推論システムを開始

CoinMarketCapが報道：

Perplexityは台北Computex 2026で新機能を発表し、7月にWindows版Perplexity Computerをリリース予定です。このシステムは、AIタスクのどの部分をローカルデバイスで処理し、どの部分をクラウドモデルに委譲するかを自動で判断し、ユーザーが手動でモードを切り替える必要はありません。

ローカルでまずセンシティブなコンテンツを処理します

このソリューションは、PerplexityのCEOであるAravind SrinivasとインテルのCEOである陳立武が共に発表しました。同社はこれをハイブリッドローカル・サーバー推論オーケストレーションシステムと呼び、プライバシー、パフォーマンス、計算コストを同一のプロセスで処理することに焦点を当てています。

Perplexityは、金融記録、健康情報、個人ファイルなどのコンテンツは、まずデバイス上の軽量モデルでローカルに保持するかどうかを判断するのが適切であり、より強力な推論を必要とする部分は、クラウド上の大型モデルに送信して処理すべきだと示している。

会社の説明によると、ドキュメントの要約、テキストのフォーマット整列、軽量分類などのタスクはローカルで直接実行でき、複雑な推論はサーバーに委譲されます。このプロセスはタスク実行中に自動的に切り替わり、ユーザーにほとんど気づかせません。

ただし、これはPerplexityがユーザーに完全に制御可能なオフラインモデルを提供することを意味しません。ローカルコンポーネントは、アプリに統合されたコンパクトなモデルであり、クラウド部分も依然としてPerplexityのサーバーを介して実行されるため、完全なオフラインソリューションとは見なせません。

コスト圧力が重要な背景です

SrinivasはComputex期間のインタビューで、AIシステムの目標は、すべての計算をサーバーと最大モデルに集中させるのではなく、各ユーザーに対して「ワットあたりの価値」を高めることであると述べました。彼は、一部の企業が月間で計算リソースに数億ドルを支出していると指摘しました。

Perplexityは以前、収益が1億ドルから5億ドルに増加した一方で、従業員数は34%しか増加していないことを明らかにした。このような状況下で、一部の推論負荷をユーザーのコンピューターに移行することで、クラウドの計算リソースコストを直接削減できる。

これは、現在のAI業界がエッジ側推論を推進する重要な理由の一つでもあります。企業にとっては、ローカルで実行することでサーバーコストを削減できるためであり、ユーザーにとっては、一部の機密データがデバイス外に送信されないことを意味します。

業界はエッジ側とハイブリッドモデルへ移行しています

現在、複数のテクノロジー企業がローカルまたはハイブリッド推論を推進しています。アップルは一部のセンシティブな処理をローカルチップ上で実行しており、マイクロソフトのFoundry Localは今年4月に正式に利用可能となり、Windows、macOS、Linux上でローカルAI推論をサポートしています。

NVIDIAはComputex期間にRTX Sparkを発表し、ノートパソコンおよびデスクトップでのローカル大規模モデル推論をターゲットにしています。一方、Perplexityの差別化ポイントはモデル自体ではなく、スケジューリング層にあります：システムはタスクに応じてローカルとクラウドの役割をリアルタイムで決定し、ユーザーが事前に選択する必要はありません。

Perplexityは、この機能がIntelプラットフォームに限定されないことを示している。現場デモではIntel Core Ultra Series 3プロセッサが使用されたが、NVIDIAプロセッサもサポートされている。現在、この機能はWindows PCアプリにまず導入されることが確認されているが、その他のプラットフォームでの提供時期は未発表である。