Tulisan | Yunyong AI, Penulis | Huang Yunhao
一. Selepas Google I/O 2026: Empat OS sisi peranti memasuki era Agent
Pada 12 Mei 2026, Google mengadakan acara pelancaran Android Show|I/O Edition, sebuah acara khas Android sebelum Konvensyen I/O pada 19 Mei. Presiden ekosistem Android, Sameer Samat, menetapkan nada acara ini: Android perlu berubah daripada sistem pengendalian kepada satu sistem pintar. Menyambung garis utama ini ialah Gemini Intelligence—kemampuan AI proaktif di peringkat sistem Android.

Poster pelancaran 2026 Android Show | I/O Edition
Sumber: Android Heeadlines
Berbanding dengan kombinasi Gemini Nano + AICore tahun lepas, kali ini Google semakin mengintegrasikan kemampuan Agent melintasi aplikasi dan konteks ke lapisan OS: automatik tugas melintasi aplikasi (tempah makanan, beli belah, tempah), pengisian borang automatik, ringkasan laman web, widget disesuaikan, yang secara berturut-turut dimasukkan ke dalam senarai kemampuan peringkat sistem. Google juga menjadikan kawalan pengguna yang jelas (explicit user control), perlindungan data menyeluruh (comprehensive data protection), dan transparansi operasi (operational transparency) sebagai tiga prinsip utama produk.
Pada 19 Mei, satu minggu lagi, dalam ucapan bertema I/O, CEO Google Sundar Pichai memulakan dengan garis utama ini:
Selamat datang ke era Gemini yang agen (欢迎进入Agent化的Gemini时代)
Tidaklah awal Google dalam menyertai gelombang pengagihan OS sisi端.
Microsoft melancarkan Copilot+PC di Build 2024 pada Mei 2024 (kategoriperalatan Windows 11 generasi baharu dengan NPU 40+ TOPS), dengan memasukkan kemampuan Agent ke dalam sistem operasi berdasarkan tiga kemampuan: model kecil sisi peranti Phi Silica, kemampuan skrin Agent Click to Do, dan ingatan aktiviti peringkat sistem Recall.
Pada WWDC24 pada Jun 2024, Apple secara rasmi mengumumkan "Apple Intelligence", yang pada masa itu dikenal sebagai "sistem kecerdasan peribadi", dan kemudian melancarkan beberapa fungsi bantuan AI, tetapi kerana masalah model besar sendiri yang tertunda dan Siri yang "tidak cerdas", kemampuan Agent utama Apple Intelligence masih belum dilancarkan.
Huawei akan melancarkan HarmonyOS 6 dan Kerangka Agen Cerdas Harmony (HMAF) pada HDC 2025 pada Jun 2025, diikuti dengan pelancaran lebih daripada 80 agen di Plaza Agen Xiao Yi.
Tren besar pengagengan OS sisi end sudah muncul secara serentak pada sistem operasi utama seperti Android, iOS, HarmonyOS, dan Windows.
Yang ditunjukkan dalam acara pelancaran hanyalah fungsi; yang benar-benar perlu diperjuangkan oleh pembuat OS adalah tiga lapisan kemampuan dasar yang menyokong operasi andal OS Agent dan menyelesaikan masalah secara praktikal: System-level AI Runtime, chip yang dapat dikendalikan, dan matriks model tepi-awan.
二. Di bawah acara pelancaran: Tiga lapisan dasar yang menyokong OS Agent
Runtime AI peringkat sistem: pusat pengendalian kecerdasan sisi hujung
Runtime ialah enjin inferens dan perkhidmatan sistem yang menjalankan model sisi peranti dalam sistem operasi. Di bawah, ia terus terhubung dengan NPU dan pengurusan sumber sistem; di atas, ia mengekspos kemampuan inferens kepada semua aplikasi melalui API yang stabil. Ia menjadikan model sisi peranti sebagai "kecerdasan berkongsi di peringkat OS": berkongsi berat model antara aplikasi, menguruskan kuasa pengiraan dan memori secara seragam, menyokong panggilan alat yang diperlukan oleh Agent, membimbing penghasilan, serta menghubungkan konteks dan kebenaran. Ia menentukan sama ada OS Agent hanyalah butang sembang dalam aplikasi, atau perkhidmatan tetap yang mampu menjalankan operasi peringkat sistem di atas sistem operasi.
Contoh paling lengkap dalam sistem Android ialah Google AICore. Pada Disember 2023, AICore dilancarkan sebagai perkhidmatan sistem (system service) bagi Android 14; pada Ogos 2025, Gemini Nano dibuka kepada pembangun melalui ML Kit GenAI APIs. Dari asas perkhidmatan sistem hingga API stabil yang ditujukan kepada App, AICore mengambil masa hampir dua tahun untuk terus disempurnakan.
Pembuat OS lain mengikuti jalan yang sama, tetapi dengan kecepatan yang berbeza. Apple membuka kerangka Foundation Models kepada pembangun di WWDC25, dengan kerangka ini membawa decorator @Generable, pemanggilan alat, penghasilan terbimbing (guided generation), dan sesi berstatus (stateful session), yang disokong di belakang oleh model asas sisi peranti dengan sekitar 3B parameter, ditambah komputasi awan peribadi untuk menyediakan sokongan awan. Microsoft memasukkan kerangka sisi peranti AI, Foundry on Windows dan Phi Silica, ke dalam Windows 11, dengan Windows ML sebagai backend inferens asas. Huawei memperkenalkan Agent Framework Kit (kerangka agen HarmonyOS, HMAF) di HDC 2025, serta membuka sistem niat dan protokol kerjasama agen.

Android AICore sebagai perkhidmatan sistem mengaturkan Gemini Nano untuk inferens pada akselerator peranti keras
Sumber: Android Developers
Cip yang boleh dikawal: Titik tumpu kerjasama perisian dan keras
Google menetapkan ambang peranti keras yang jelas untuk Gemini Intelligence di Android Show|I/O Edition: set fungsi penuh dilancarkan hanya kepada beberapa flagship terkini seperti rangkaian Pixel 10 dan Galaxy S26, dengan model tahun lepas tidak termasuk. Ini menunjukkan satu fakta mudah: model AI masih berkembang pesat, dan perisian terus menuntut peranti keras yang baru. Cip yang boleh dikawal adalah asas untuk menampung tuntutan ini, dan tahap kawalan menentukan ruang yang dimiliki pengeluar OS untuk menyesuaikan peranti dan perisian bagi OS Agent sisi peranti.
Apple adalah contoh teladan pendekatan terpadu perisian dan peranti keras. iOS dan macOS telah berkembang serentak sejak awal bersama cip siri A dan siri M, sementara Core ML menggabungkan pengurusan CPU, GPU, dan ANE ke dalam lapisan kerangka kerja. Pendekatan ini berterusan ke era LLM. Apple Machine Learning Research memberikan satu set ukuran sebenar: dengan mengikuti laluan pengoptimuman Core ML untuk menghantar Llama 3.1 8B Instruct ke M1 Max, kelajuan dekod tempatan boleh mencapai kira-kira 33 token/s. Laporan teknikal《Apple Intelligence Foundation Language Models》juga mengungkap bahawa Apple telah melakukan pengoptimuman peringkat arsitektur seperti perkongsian KV cache dan latihan peka kuantisasi 2-bit khas untuk cip buatan sendiri, membolehkan model asas sisi peranti sebanyak kira-kira 3B dibuka kepada pembangun melalui kerangka kerja Foundation Models. Kedalaman ini hanya boleh dicapai apabila cip berada di tangan sendiri—inilah nilai cip yang boleh dikawal kepada pengeluar OS: ia menentukan kedalaman kerjasama perisian-peranti keras, serta meningkatkan had pengalaman OS Agent sisi peranti.
Memasuki era AI, Google juga melakukan perkara yang sama — beralih ke jalan SoC Tensor buatan sendiri sejak Pixel 6, dengan Tensor G5 terkini yang meningkatkan prestasi TPU sehingga maksimum 60% dan CPU purata 34%, serta menjadi SoC pertama yang menjalankan Gemini Nano generasi terbaru sepenuhnya di Pixel 10. Namun, Tensor G5 juga mempunyai kelemahan: ujian oleh Android Central menunjukkan konfigurasi memori (kapasiti RAM) masih menjadi halangan prestasi AI, serta mendapat skor Geekbench AI yang lebih rendah berbanding Snapdragon 8 Elite; dalam ujian Geekbench 6 oleh Macworld, skor satu inti dan pelbagai inti G5 lebih rendah berbanding A18 Pro. Google masih mengejar, tetapi strategi kerjasama antara Tensor buatan sendiri dan Gemini di sisi peranti sudah terbentuk.
Huawei Kirin yang dipasangkan dengan NPU Da Vinci dan model sisi tepi Pangu, merupakan jalur cip yang boleh dikawal selain daripada Apple dan Google. Xiaomi telah melaksanakan Xuanjie O1, sebagai pemain baru yang bergerak ke arah cip yang boleh dikawal.
Matrices model tepi-awan: Sumber kecerdasan Agent
Matriz model tepi-awan adalah sumber "kecerdasan" peranti tepi: model awan menetapkan had kemampuan untuk tugas-tugas kompleks, manakala model tepi menopang had bawah untuk operasi harian—latensi, tempoh bateri, privasi, dan kestabilan semuanya ditanggung oleh sisi tepi. Kedua-duanya tidak boleh hilang, perbezaannya terletak pada kedalaman penggabungan dengan OS. Model tepi perlu disematkan ke dalam OS setiap peranti tepi dan berintegrasi mendalam dengan NPU tempatan, memikul identiti ganda dalam OS: ke bawah, ia adalah latar belakang inferens tempatan untuk Runtime; ke atas, ia membuka API peringkat sistem kepada Apl melalui kerangka dan SDK Runtime.
Pengembangan sendiri bermakna baik di awan maupun di sisi peranti, tetapi pulangan di sisi peranti lebih nyata. Model awan yang dibeli dari pihak ketiga juga mampu menopang batas kemampuan, tetapi keunggulan pengembangan sendiri terutama terletak pada kuasa pengaturan rute, syarat perniagaan, dan tempoh peningkatan model. Berbeza dengan sisi peranti. Model sisi peranti disematkan ke dalam OS dan NPU setiap peranti, dan pulangan pengembangan sendiri secara langsung terwujud dalam prestasi produk: perkongsian KV cache, latihan kuantisasi 2-bit yang direka khas untuk generasi cip tertentu, Per-Layer Embedding (diperoleh daripada Gemma 3n, memuatkan parameter embed secara inkremental dari penyimpanan pantas mengikut lapisan) dan sebagainya—semuanya ini lebih mudah dicapai apabila model dan peranti direka secara serentak; pada masa yang sama, ritma kerjasama tidak boleh lagi dikendalikan oleh pembuat peranti pihak ketiga.
Kekuatan TPU Tensor G5 meningkat sehingga 60% berbanding generasi sebelumnya G4, tetapi peningkatan Gemini Nano di atas G5 jauh melebihi itu—menurut pihak Google dan Jon Peddie Research, kelajuan pemprosesan tempatan mencapai 2.6 kali ganda generasi sebelumnya, penggunaan tenaga berkurang separuh, dan tetingkap token diperluaskan dari 12,000 kepada 32,000 (setara dengan memproses sekitar seratus tangkapan skrin sekaligus). Pencapaian prestasi yang jauh melebihi ini berasal daripada arsitektur Matryoshka Transformer fleksibel yang digunakan oleh Gemini Nano v3, ditambah dengan pengoptimuman bersama dengan TPU Tensor G5.

Peningkatan prestasi Gemini Nano pada Tensor G5 berbanding generasi sebelumnya
Sumber: Google/Jon Peddie Research, penggambaran AI oleh Yunyong
Pada lapisan model sisi peranti, setiap pengeluar OS utama memegang model milik sendiri: Gemini Nano milik Google, model asas sisi peranti Apple dengan sekitar 3B parameter, Phi Silica milik Microsoft, dan model sisi peranti Pangu milik Huawei. Pengembangan sendiri adalah pilihan lalai pada lapisan ini.
Tiga. Di antara tiga lapisan: kerjasama semakin mendalam, ruang diferensiasi semakin besar
Tiga lapisan kemampuan dasar yang terhubung dari bawah ke atas: cip boleh kawal → model sisi peranti/awang → Runtime → Agent. Cip boleh kawal menentukan kecekapan inferens dan penggunaan kuasa yang boleh dicapai oleh model sisi peranti, model sisi peranti menentukan kecerdasan tempatan yang boleh dijadualkan oleh Runtime, dan Runtime menentukan kebolehpercayaan Agent sebagai perkhidmatan sistem yang menjalankan tugas merentas aplikasi. Semakin dalam kerjasama ketiga-tiganya, semakin besar perbezaan pengalaman produk pembuat OS pada Agent sisi peranti, dan semakin tebal palang pertahanannya.
Semakin dalam tiga lapisan saling berpadu dalam satu set perisian dan peranti keras yang sama, kemampuan produk OS Agent akan muncul perbezaan yang tidak dapat dicapai oleh satu lapisan sahaja.
- Latensi respons dan penggunaan tenaga. Kecepatan pemrosesan 2.6 kali lebih pantas dan pengurangan penggunaan tenaga separuh yang dicapai oleh Gemini Nano di atas Tensor G5 adalah hasil dari keserasian antara arsitektur model, reka bentuk cip, dan penjadualan Runtime dalam reka bentuk perisian dan keras sejajar, yang membolehkan peningkatan sebesar ini muncul.
- Privasi dan kepercayaan. Tugas-tugas biasa yang melibatkan data peribadi dilakukan secara tempatan oleh model sisi peranti, sementara permintaan kompleks dihantar ke awan—ini adalah sikap lalai yang munasabah bagi OS Agent terhadap data pengguna pada peringkat ini. Tiga lapisan keterkaitan menentukan sama ada pendekatan “sisi peranti terlebih dahulu, awan sebagai cadangan” benar-benar boleh dilaksanakan: penyesuaian mendalam antara NPU dan model sisi peranti adalah laluan utama bagi model sisi peranti yang masih dalam perkembangan untuk memikul tugas inferens berfrekuensi tinggi harian; model dilakukan kuantisasi dan pemampatan serta berkongsi KV cache untuk NPU; Runtime menghala tugas berdasarkan kekompleksannya antara sisi peranti dan awan. Sekiranya salah satu daripada tiga lapisan ini tidak mencukupi, “sisi peranti terlebih dahulu” hanya akan menjadi slogan pemasaran.
- Konteks peringkat sistem. Pengeluar OS menyusun semula data pengguna yang merentasi App dan lapisan OS (indeks semantik, kesedaran skrin, ingatan jangka panjang) sebagai konteks peribadi peringkat sistem untuk agen, yang merupakan prasyarat agar agen benar-benar "memahami pengguna", serta ciri utama yang membezakan Agen OS daripada agen peringkat aplikasi tunggal. Pelaksanaannya bergantung pada tiga lapisan yang saling terkait: Runtime memegang indeks merentas App dan kebenaran, model sisi peranti berterusan bertanggungjawab untuk pemahaman dan penalaran, dan NPU menyediakan kuasa pengiraan tempatan yang cekap. Core Spotlight Apple membina indeks semantik di peranti, App menghubungkan tindakan dan data ke sistem melalui App Intents, dan agen akan mendapatkan konteks melalui Personal Context (Apple telah mengumumkan bahawa kemampuan ini akan dilancarkan bersama kemas kini perisian masa depan); AppFunctions di sisi Android mengikuti laluan yang sama.
- Kepbolehpercayaan sebagai perkhidmatan sistem. OS Agent mesti boleh dipanggil sebagai perkhidmatan peringkat sistem, dan mesti kekal boleh digunakan dalam skenario sebenar seperti tiada sambungan internet, bateri lemah, dan penurunan suhu panas. Model sisi peranti yang sentiasa aktif membolehkan Agent berfungsi tanpa sambungan internet; NPU yang dioptimakan secara perisian dan peranti secara mendalam menjalankan inferens berkuasa rendah; Runtime mengatur semula mengikut ketersediaan apabila sumber peranti terhad (mengganti dengan model yang lebih ringan, atau menghala permintaan ke awan). Jika mana-mana tiga lapisan ini hilang, OS Agent tidak akan mampu menyokong bentuk perkhidmatan sistem, dan hanya boleh kembali menjadi butang sembang peringkat aplikasi.
Apple Intelligence menyajikan paradigma kerjasama yang lengkap: Apple Silicon, model dasar sisi peranti sekitar 3B, dan kerangka Foundation Models yang saling terkait dari bawah ke atas, memproses skenario umum di sisi peranti, sementara permintaan kompleks dialihkan ke komputasi awan peribadi. Google adalah bentuk yang berbeza. Tensor G5, sebagai SoC pertama yang menjalankan Gemini Nano generasi terbaru secara penuh, diluncurkan di Pixel 10, dengan pengendalian seragam oleh AICore, membolehkan fungsi agen sistem seperti Magic Cue dan Pixel Screenshots diaktifkan secara lalai tanpa bergantung pada awan. Huawei adalah contoh terkemuka di dalam negara dalam membina kerjasama tiga lapisan: Kirin, NPU Da Vinci, PanGu sisi peranti, dan HMAF semuanya dimiliki sendiri, saling terhubung dari bawah ke atas membentuk dasar tiga lapisan yang lengkap.

Mekanisme penguncian tiga lapisan OS sisi端
Sumber: YunYong AI
Four. Di Atas Rangka: Faktor Kunci Lain dalam Moat Jangka Panjang
Tiga lapisan kerjasama membentuk inti parit pertahanan. Di atas dasar tersebut, terdapat banyak pemboleh ubah yang mempengaruhi daya saing produk era OS Agent, termasuk kemampuan interaksi antara Agent dan App, perlindungan privasi, dan sebagainya.
Interaksi antara OS Agent dan aplikasi berada di garis terdepan persaingan antara pabrikan OS dan pabrikan aplikasi. Saat ini, dua jalur berjalan paralel. Satu jalur adalah pengenalan layar dan otomatisasi, termasuk berbagi layar Gemini Live, Apple Visual Intelligence, Circle to Search, dll. OS Agent mengintervensi aplikasi dengan membaca layar dan menekan tombol; ini dapat berfungsi untuk tugas tunggal, tetapi setiap panggilan kekurangan informasi terstruktur, sehingga sulit membangun alur kerja multi-langkah secara stabil. Jalur lainnya adalah integrasi API mendalam, termasuk Google AppFunctions, Apple App Intents, Huawei Intents Kit, dll. Aplikasi membuka tindakan intinya melalui antarmuka terstruktur kepada sistem, memungkinkan Agent memanggilnya secara stabil dan membangun alur kerja multi-langkah. Kunci keberhasilan jalur API bukan terletak pada pabrikan OS, tetapi pada pabrikan aplikasi. Menyerahkan fungsi inti kepada Agent untuk dipanggil berarti pengguna mungkin tidak lagi membuka aplikasi secara langsung, sehingga berisiko kehilangan eksposur merek, ruang iklan, data perilaku, dan saluran pembayaran kepada OS. Ini akan menjadi titik pertarungan utama dalam alokasi lalu lintas perangkat akhir dari sisi pengguna.
Perlindungan privasi adalah nilai utama dan garis dasar sistem sisi end-point. Pengilang OS memiliki kuasa sistem paling mendalam dan data pengguna paling sensitif di sisi end-point; privasi bukan sahaja kedudukan asas mereka, tetapi juga syarat awal untuk kemajuan jangka panjang dua perkara sebelumnya. Apple membina sistem perlindungan privasi berdasarkan peranti akhir melalui cip keselamatan terasing Secure Enclave sisi end-point dan nod komputasi awan peribadi PCC yang menggunakan reka bentuk keselamatan peringkat peranti yang sama. Strategi produk ini menjadikan "Privacy. That’s Apple." sebagai label jenama utama Apple di pasaran premium global, seterusnya memperoleh keyakinan pengguna.

Label "Privasi. Itu Apple." dari Apple
Sumber: Laman web rasmi Apple
Tiga lapisan kerjasama membentuk inti parit pertahanan, sementara pemboleh ubah jangka panjang di atas dasar ini mempengaruhi sejauh mana ia boleh diperkukuh.
Limpa. Bukan sahaja mengulang semula OS
Di bawah trend pengagentan OS sisi end, semakin kukuh lapisan dasar berupa Runtime AI peringkat sistem, cip yang boleh dikawal, dan matriks model sisi end-awan, semakin tinggi had produk dan semakin besar ruang pembezaan yang dimiliki oleh pengeluar OS dalam pertandingan ini. Hanya pengeluar OS yang memahami trend ini yang berpeluang mendorong penyesuaian semula kuasa pengagihan trafik masuk sisi end dan mendapat kedudukan persaingan yang lebih kuat.
Tren ini tidak terbatas pada telefon dan PC. Kemampuan asas OS Agent merebak ke lebih banyak peranti melalui ekosistem pelbagai peranti yang telah dibina oleh pelbagai pihak, terutamanya dalam IoT. Cip yang boleh dikawal meresap ke dalam skenario seperti SoC kereta; Huawei telah membina cip Kirin yang memenuhi piawaian kereta, manakala Xiaomi澎湃OS telah masuk ke dalam model kereta sendiri; model sisi peranti beralih ke peranti bentuk baharu seperti cermin mata dengan cara yang lebih ringan; cermin mata pintar Android XR yang dikembangkan bersama oleh Google, Samsung, Gentle Monster, dan Warby Parker akan dilancarkan pada musim gugur 2026; kerjasama Runtime dan Agent pula meluas ke kumpulan peranti melalui kerangka “peranti super/distributed” yang telah dilaksanakan oleh setiap pihak, seperti 1+8+N dan saluran perisian terdistribusi HarmonyOS milik Huawei, “ekosistem penuh orang-kereta-rumah” dan HyperConnect milik Xiaomi, Continuity milik Apple, serta Cross device SDK dan perkhidmatan lintas peranti milik Google. Perang OS Agent ini jauh melebihi kemenangan atau kekalahan di kalangan telefon dan PC.
AICore telah diperhalus selama hampir dua tahun; sistem operasi Apple dan siri cip Apple Silicon telah diselaraskan selama lebih dari sepuluh tahun; Tensor terus diperbaiki hingga G5, baru pada Pixel 10 ia mampu memikul beban Gemini Nano v3. Kelebihan dan kekurangan pertandingan ini tidak pernah ditentukan dalam satu atau dua jam di acara pelancaran, tetapi dalam proses penajaman berturut-turut terhadap cip, model, dan Runtime.
Rujukan:
- Gemini Intelligence membawa AI proaktif ke Android|Blog Google
- I/O 2026: Selamat datang ke era agen Gemini|Blog Google
- Phi Silica, SLM peranti kecil tetapi kuat|Blog Pengalaman Windows
- Apple Menangguhkan Peningkatan Siri Secara Tidak Terbatas|Bloomberg
- Pelancaran Beta Pembangun HarmonyOS 6 (HDC 2025)|Huawei
- Gemini Nano terkini dengan API ML Kit GenAI berdasarkan peranti|Blog Pembangun Android
- Dokumentasi kerangka Kerangka Asas|Apple Developer
- Buku putih kerangka agen pintar HarmonyOS | Pengembang Huawei
- Llama 3.1 pada Peranti dengan Core ML|Penyelidikan Mesin Apple
- Laporan Teknik Model Bahasa Asas Apple Intelligence 2025|Penyelidikan Pembelajaran Mesin Apple
- Google Tensor G5: Markah dan semua yang perlu anda ketahui|Android Central
- SoC M5 baharu Google (Tensor G5 Diterangkan · Matryoshka Transformer)|Jon Peddie Research
- Komputasi Awan Peribadi: Perbatasan baharu untuk privasi AI di awan|Kejuruteraan Keselamatan Apple
- Gambaran Umum AppFunctions|Pembangun Android
- Niat Aplikasi|Pembangun Apple
- Perkenalan Intents Kit (HarmonyOS)|Pembangun Huawei
- Cip Tensor G5 pada Google Pixel 10 Pro mengesankan—jika anda membandingkannya dengan iPhone 14|Macworld
- Gambaran model Gemma 3n|Google AI untuk Pembangun
