Perplexity đã công bố một tính năng mới tại Computex 2026 ở Đài Bắc, kế hoạch ra mắt phiên bản Windows của Perplexity Computer vào tháng 7. Hệ thống sẽ tự động xác định những phần nào của nhiệm vụ AI nên chạy trên thiết bị cục bộ và những phần nào nên giao cho mô hình đám mây, người dùng không cần chuyển đổi chế độ thủ công.
Xử lý nội dung nhạy cảm tại địa phương trước
Giải pháp này được công bố cùng lúc bởi CEO của Perplexity, Aravind Srinivas, và CEO của Intel, Chen Liwu. Công ty gọi đây là hệ thống phối hợp suy luận lai giữa cục bộ và máy chủ, với trọng tâm là xử lý cùng một quy trình các yếu tố về quyền riêng tư, hiệu suất và chi phí tính toán.
Perplexity cho biết, các nội dung như hồ sơ tài chính, thông tin sức khỏe và tài liệu cá nhân nên được các mô hình nhẹ trên thiết bị đánh giá trước để xác định có nên giữ lại tại địa phương hay không. Những phần yêu cầu khả năng suy luận mạnh hơn sẽ được gửi đến các mô hình lớn hơn trên đám mây để xử lý.
Theo công ty, các nhiệm vụ như tóm tắt tài liệu, định dạng văn bản và phân loại nhẹ có thể được thực hiện trực tiếp tại địa phương; trong khi các suy luận phức tạp sẽ được chuyển cho máy chủ. Toàn bộ quá trình sẽ tự động chuyển đổi trong quá trình thực hiện nhiệm vụ, cố gắng tối đa để người dùng không cảm nhận được.
Tuy nhiên, điều này không có nghĩa là Perplexity đang cung cấp cho người dùng một mô hình ngoại tuyến hoàn toàn có thể kiểm soát. Các thành phần cục bộ vẫn là các mô hình nhỏ gọn được tích hợp vào ứng dụng của Perplexity, và các thành phần trên đám mây vẫn chạy qua máy chủ Perplexity, không thể coi là giải pháp ngoại tuyến hoàn toàn.
Áp lực chi phí là bối cảnh quan trọng
Srinivas cho biết trong suốt Computex, mục tiêu của các hệ thống AI nên là mang lại “giá trị trên mỗi watt” cao hơn cho từng người dùng, thay vì tập trung toàn bộ tính toán vào máy chủ và các mô hình lớn nhất. Ông nhắc đến việc một số công ty đã chi tới hàng trăm triệu đô la mỗi tháng cho năng lực tính toán.
Perplexity trước đó tiết lộ, doanh thu của công ty đã tăng từ 100 triệu USD lên 500 triệu USD, trong khi quy mô nhân sự chỉ tăng 34%. Trong bối cảnh này, việc chuyển một phần tải suy luận sang máy tính của người dùng có thể trực tiếp giảm chi phí tính toán trên đám mây.
Đây cũng là một trong những lý do quan trọng thúc đẩy ngành AI hiện nay đẩy mạnh suy luận tại thiết bị đầu cuối. Đối với doanh nghiệp, việc chạy tại chỗ giúp giảm chi phí máy chủ; đối với người dùng, điều này có nghĩa là một số dữ liệu nhạy cảm không cần rời khỏi thiết bị.
Ngành đang chuyển sang mô hình đầu cuối và hỗn hợp
Hiện nay, nhiều công ty công nghệ đang thúc đẩy việc suy luận tại chỗ hoặc lai ghép. Apple thực hiện một số xử lý nhạy cảm trên chip tại chỗ; Foundry Local của Microsoft đã chính thức khả dụng vào tháng 4 năm nay, hỗ trợ suy luận AI tại chỗ trên Windows, macOS và Linux.
NVIDIA cũng ra mắt RTX Spark trong suốt Computex, nhắm vào việc suy luận mô hình lớn cục bộ trên thiết bị xách tay và bàn. So với đó, điểm khác biệt của Perplexity không nằm ở chính mô hình, mà ở lớp lập lịch: hệ thống sẽ tự động quyết định phân chia nhiệm vụ giữa cục bộ và đám mây theo thời gian thực, thay vì yêu cầu người dùng lựa chọn trước.
Perplexity cho biết tính năng này không chỉ giới hạn trên nền tảng chip của Intel. Mặc dù bản trình diễn trực tiếp sử dụng bộ xử lý Intel Core Ultra Series 3, nhưng cũng hỗ trợ các bộ xử lý NVIDIA. Hiện tại, tính năng này chỉ được xác nhận sẽ ra mắt đầu tiên trên ứng dụng Windows PC, thời gian ra mắt trên các nền tảng khác chưa được công bố.
