Perplexity akan Meluncurkan Sistem Inferensi AI Hibrida Lokal-Kloud pada Juli

CoinDesk melaporkan:

Perplexity mengumumkan fitur baru di Computex Taipei 2026, dengan rencana peluncuran versi Windows dari Perplexity Computer pada Juli. Sistem ini akan secara otomatis menentukan bagian mana dari tugas AI yang dijalankan di perangkat lokal dan bagian mana yang diserahkan ke model cloud, tanpa perlu pengguna beralih mode secara manual.

Lokal terlebih dahulu menangani konten sensitif

Solusi ini diluncurkan bersama oleh Aravind Srinivas, CEO Perplexity, dan Chen Liwu, CEO Intel. Perusahaan menyebutnya sebagai sistem orkestrasi inferensi hibrida lokal-server, dengan fokus pada penggabungan privasi, kinerja, dan biaya komputasi dalam satu proses yang terpadu.

Perplexity menyatakan bahwa konten seperti rekaman keuangan, informasi kesehatan, dan dokumen pribadi lebih cocok untuk terlebih dahulu dinilai oleh model ringan di perangkat apakah akan tetap disimpan secara lokal. Bagian yang memerlukan kemampuan penalaran lebih kuat akan dikirim ke model besar di cloud untuk diproses.

Menurut perusahaan, tugas-tugas seperti ringkasan dokumen, penataan format teks, dan klasifikasi ringan dapat dilakukan langsung di perangkat lokal; penalaran kompleks akan dialihkan ke server. Seluruh proses akan beralih secara otomatis selama eksekusi tugas, sehingga pengguna hampir tidak menyadarinya.

Namun, ini tidak berarti Perplexity membuka model offline yang sepenuhnya dapat dikendalikan pengguna. Komponen lokal tetap merupakan model ringkas yang diintegrasikan oleh Perplexity ke dalam aplikasi, sementara komponen cloud juga tetap berjalan melalui server Perplexity dan tidak dapat dianggap sebagai solusi offline penuh.

Tekanan biaya adalah latar belakang penting

Srinivas dalam wawancara selama Computex menyatakan bahwa tujuan sistem AI harus meningkatkan "nilai per watt" bagi setiap pengguna, bukan memusatkan semua komputasi pada server dan model terbesar. Ia menyebut bahwa sebagian perusahaan menghabiskan hingga ratusan juta dolar AS per bulan untuk kekuatan komputasi.

Perplexity sebelumnya mengungkapkan bahwa pendapatan perusahaan telah meningkat dari $100 juta menjadi $500 juta, sementara jumlah karyawan hanya tumbuh 34%. Dalam konteks ini, memindahkan sebagian beban inferensi ke komputer pengguna dapat secara langsung mengurangi biaya komputasi cloud.

Ini juga salah satu alasan utama mengapa industri AI saat ini mendorong inferensi sisi perangkat. Bagi perusahaan, menjalankan secara lokal dapat mengurangi biaya server; bagi pengguna, ini berarti sebagian data sensitif tidak perlu keluar dari perangkat.

Industri sedang beralih ke model edge dan hibrida

Saat ini, berbagai perusahaan teknologi sedang mengembangkan inferensi lokal atau hibrida. Apple melakukan sebagian pemrosesan sensitif di chip lokal; Foundry Local dari Microsoft telah tersedia sejak April tahun ini, mendukung inferensi AI lokal di Windows, macOS, dan Linux.

NVIDIA juga meluncurkan RTX Spark selama Computex, menargetkan inferensi model lokal di perangkat laptop dan desktop. Sebaliknya, perbedaan Perplexity tidak terletak pada model itu sendiri, tetapi pada lapisan penjadwalan: sistem secara real-time menentukan pembagian tugas antara lokal dan cloud, bukan meminta pengguna untuk memilih terlebih dahulu.

Perplexity menyatakan bahwa fitur ini tidak terbatas pada platform chip Intel. Meskipun demonstrasi langsung menggunakan prosesor Intel Core Ultra Series 3, fitur ini juga mendukung prosesor NVIDIA. Saat ini, fitur ini hanya dikonfirmasi akan diluncurkan terlebih dahulu di aplikasi Windows PC, dan waktu peluncuran di platform lain belum diumumkan.