Android, iOS, HarmonyOS และ Windows เข้าสู่ยุคตัวแทนด้วยการผสานรวมปัญญาประดิษฐ์ระดับระบบปฏิบัติการ

บทความโดย Yunyong AI ผู้เขียน | Huang Yunhao

一. หลังจาก Google I/O 2026: ระบบปฏิบัติการฝั่งปลายทั้งสี่เข้าสู่ยุค Agent

วันที่ 12 พฤษภาคม 2026 Google จัดงานเปิดตัว Android Show｜I/O Edition ซึ่งเป็นงานเฉพาะด้าน Android ก่อนงาน I/O ที่จะจัดขึ้นในวันที่ 19 พฤษภาคม ผู้บริหารฝ่ายระบบนิเวศ Android Sameer Samat ได้กำหนดทิศทางของงานนี้ว่า Android จะเปลี่ยนจากระบบปฏิบัติการให้กลายเป็นระบบปัญญาประดิษฐ์อัจฉริยะ โดยสิ่งที่รองรับแนวคิดนี้คือ Gemini Intelligence—ความสามารถด้านปัญญาประดิษฐ์แบบเชิงรุกที่อยู่ในระดับระบบของ Android

วินโดวส์

โปสเตอร์งานเปิดตัว Android Show 2026 | I/O Edition
ที่มา: Android Headlines

เมื่อเทียบกับการรวมกันของ Gemini Nano + AICore เมื่อปีที่แล้ว ครั้งนี้ Google ได้ผสานความสามารถของตัวแทนในการข้ามแอปและบริบทเข้าไปในระดับระบบอย่างลึกซึ้งยิ่งขึ้น: การอัตโนมัติงานข้ามแอป (สั่งอาหาร ซื้อของ สั่งซื้อ) การเติมแบบฟอร์มอัตโนมัติ สรุปเว็บเพจ และวิดเจ็ตที่ปรับแต่งเอง ซึ่งถูกเพิ่มลงในรายการความสามารถระดับระบบตามลำดับ Google ยังได้กำหนด “การควบคุมโดยผู้ใช้อย่างชัดเจน” (explicit user control) “การป้องกันข้อมูลอย่างครอบคลุม” (comprehensive data protection) และ “ความโปร่งใสในการดำเนินงาน” (operational transparency) เป็นหลักการสามประการของผลิตภัณฑ์

ในวันที่ 19 พฤษภาคม ซึ่งเป็นหนึ่งสัปดาห์ต่อมา ซันดาร์ พิชัย ซีอีโอของ Google จะเริ่มต้นการพูดในหัวข้อ I/O ด้วยเส้นเรื่องนี้:

ยินดีต้อนรับสู่ยุคของ Gemini แบบเอเจนต์

การเข้าร่วมคลื่นการเปลี่ยนแปลงของ OS ด้านขอบ Google ไม่ได้เริ่มต้นเร็วเท่าใด

ไมโครซอฟท์เปิดตัว Copilot+PC (รุ่น Windows 11 รุ่นใหม่ที่มี NPU มากกว่า 40+ TOPS) ในการประชุม Build 2024 เมื่อเดือนพฤษภาคม 2024 โดยผสานความสามารถของ Agent เข้ากับระบบปฏิบัติการผ่านสามฟีเจอร์หลัก: โมเดลขนาดเล็กบนอุปกรณ์ Phi Silica, ความสามารถของหน้าจอ Agent ที่เรียกว่า Click to Do และการจดจำกิจกรรมระดับระบบ Recall

ใน WWDC24 เดือนมิถุนายน 2024 Apple ได้เปิดตัว “Apple Intelligence” อย่างเป็นทางการ โดยกำหนดตำแหน่งของมันว่าเป็น “ระบบปัญญาส่วนบุคคล” (personal intelligence system) ต่อมาได้เปิดใช้งานฟีเจอร์ช่วยเหลือด้วยปัญญาประดิษฐ์บางอย่าง แต่เนื่องจากโมเดลขนาดใหญ่ของตนเองล่าช้าและ Siri ที่ดูเหมือน “โง่” ความสามารถหลักของ Agent ใน Apple Intelligence จึงยังไม่ได้เปิดตัว

Huawei จะเปิดตัว HarmonyOS 6 และ鸿蒙智能体框架 (HMAF) ในการประชุม HDC 2025 เดือนมิถุนายน 2025 ตามด้วยการเปิดตัวแพลตฟอร์ม AI Agent ของ Xiao Yi ที่มี AI Agent มากกว่า 80 ตัว

แนวโน้มหลักของการทำให้ OS ด้านปลายทางเป็นตัวแทนได้ปรากฏขึ้นพร้อมกันบนระบบปฏิบัติการหลักๆ เช่น Android, iOS, HarmonyOS และ Windows

การนำเสนอในการประชุมเป็นเพียงฟังก์ชันการทำงาน ผู้ผลิตระบบปฏิบัติการจริงๆ แล้วต้องแข่งขันกันที่พื้นฐานความสามารถสามด้านที่รองรับการดำเนินงานที่เชื่อถือได้ของ OS Agent และแก้ปัญหาจริง: OS Agent Runtime ระดับระบบ, ชิปที่ควบคุมได้, และแมทริกซ์โมเดลขอบ-คลาวด์

สอง. ภายใต้การประชุมประชาสัมพันธ์: รากฐานสามชั้นที่รองรับ OS Agent

ระบบ AI Runtime ระดับระบบ: ศูนย์กลางการจัดการปัญญาประดิษฐ์บนอุปกรณ์

Runtime เป็นเอ็นจิ้นการอนุมานและบริการระบบภายในระบบปฏิบัติการสำหรับโมเดลฝั่งปลายทาง ด้านล่าง มันเชื่อมต่อโดยตรงกับ NPU และการจัดสรรทรัพยากรระบบ ด้านบน มันเปิดเผยความสามารถในการอนุมานผ่าน API ที่มั่นคงให้กับแอปทุกตัว มันเปลี่ยนโมเดลฝั่งปลายทางให้เป็น “ปัญญาที่ใช้ร่วมกันในระดับ OS”: แบ่งปันน้ำหนักโมเดลข้ามแอป จัดสรรทรัพยากรการประมวลผลและหน่วยความจำอย่างเป็นระบบเดียว รองรับการเรียกใช้เครื่องมือที่ต้องการโดย Agent นำการสร้าง บริบท และการเชื่อมต่อสิทธิ์ ซึ่งกำหนดว่า OS Agent จะเป็นเพียงปุ่มแชทในแอป หรือเป็นบริการที่ทำงานต่อเนื่องบนระบบปฏิบัติการที่สามารถดำเนินการระดับระบบได้

ตัวอย่างที่สมบูรณ์ที่สุดในระบบ Android คือ Google AICore เมื่อเดือนธันวาคม 2023 AICore ถูกเปิดใช้งานเป็นระบบบริการ (system service) ของ Android 14; ในเดือนสิงหาคม 2025 Gemini Nano ได้เปิดให้นักพัฒนาเข้าถึงผ่าน ML Kit GenAI APIs จากฐานระบบบริการสู่ API ที่มั่นคงสำหรับแอป AICore ใช้เวลาเกือบสองปีในการพัฒนาอย่างต่อเนื่อง

ผู้ผลิต OS อื่นๆ กำลังเดินบนเส้นทางเดียวกัน แต่จังหวะต่างกัน Apple ได้เปิดเผย Framework Foundation Models ให้กับนักพัฒนาใน WWDC25 โดยเฟรมเวิร์กนี้มีตัว装饰器 @Generable การเรียกใช้เครื่องมือ การสร้างแบบมีการนำทาง (guided generation) และเซสชันที่มีสถานะ (stateful session) ซึ่งเชื่อมต่อกับโมเดลพื้นฐานฝั่งปลายทางที่มีพารามิเตอร์ประมาณ 3B พร้อมการสนับสนุนจากคลาวด์ผ่านการคำนวณบนคลาวด์ส่วนตัว Microsoft ได้รวมเฟรมเวิร์กฝั่งปลายทาง AI คือ Foundry on Windows และ Phi Silica เข้าไปใน Windows 11 โดยใช้ Windows ML เป็นแบ็กเอนด์การประมวลผลแบบอินเฟอเรนซ์ Huawei เปิดตัว Agent Framework Kit (鸿蒙智能体框架, HMAF) ที่ HDC 2025 โดยเปิดเผยระบบเจตนาและโปรโตคอลการทำงานร่วมกันของ Agent

วินโดวส์

Android AICore ทำหน้าที่เป็นบริการระบบ เพื่อจัดการการอนุมานของ Gemini Nano บนฮาร์ดแวร์เร่งความเร็ว
ที่มา: Android Developers

ชิปที่ควบคุมได้: จุดสมดุลของการร่วมมือระหว่างซอฟต์แวร์และฮาร์ดแวร์

Google ได้กำหนดข้อกำหนดด้านฮาร์ดแวร์ที่ชัดเจนสำหรับ Gemini Intelligence ในการประชุม Android Show｜I/O Edition: ฟีเจอร์เต็มรูปแบบจะเปิดตัวเฉพาะบนรุ่นแฟลกชิพล่าสุด เช่น Pixel 10 Series และ Galaxy S26 Series เท่านั้น รุ่นที่ออกเมื่อปีที่แล้วไม่อยู่ในรายการนี้ สิ่งนี้ชี้ให้เห็นข้อเท็จจริงที่เรียบง่าย: โมเดล AI ยังคงพัฒนาอย่างรวดเร็ว และซอฟต์แวร์ยังคงต้องการฮาร์ดแวร์ใหม่ๆ อย่างต่อเนื่อง ชิปที่ควบคุมได้คือฐานรากที่รองรับความต้องการเหล่านี้ ระดับการควบคุมจะกำหนดพื้นที่ที่ผู้ผลิต OS สามารถปรับแต่งซอฟต์แวร์และฮาร์ดแวร์สำหรับ OS Agent บนอุปกรณ์ปลายทาง

Apple เป็นตัวอย่างที่ดีของแนวทางการผสานฮาร์ดแวร์และซอฟต์แวร์เข้าด้วยกัน iOS และ macOS ได้พัฒนาควบคู่ไปกับชิปซีรีส์ A และ M ตั้งแต่เริ่มต้น ขณะที่ Core ML ได้ห่อหุ้มการจัดการ CPU, GPU และ ANE ไว้ในระดับเฟรมเวิร์ก แนวทางนี้ยังคงขยายต่อในยุค LLM Apple Machine Learning Research ได้เปิดเผยผลการทดสอบชุดหนึ่ง: โดยใช้เส้นทางการปรับแต่งของ Core ML เพื่อปรับใช้ Llama 3.1 8B Instruct บน M1 Max ความเร็วในการถอดรหัสแบบท้องถิ่นสามารถเข้าถึงได้ประมาณ 33 tokens/s รายงานเทคนิคเรื่อง《Apple Intelligence Foundation Language Models》ยังเปิดเผยว่า Apple ได้ดำเนินการปรับปรุงระดับสถาปัตยกรรม เช่น การแชร์ KV cache และการฝึกอบรมที่รับรู้การควอนตัม 2-bit เพื่อให้สามารถเปิดเผยโมเดลพื้นฐานขนาดประมาณ 3B สำหรับนักพัฒนาผ่านเฟรมเวิร์ก Foundation Models ความลึกเช่นนี้สามารถทำได้เฉพาะเมื่อควบคุมชิปด้วยตนเอง — นี่คือคุณค่าของชิปที่ควบคุมได้สำหรับผู้ผลิต OS: มันกำหนดระดับความลึกของการประสานงานระหว่างซอฟต์แวร์และฮาร์ดแวร์ และยังเพิ่มขีดจำกัดของประสบการณ์สำหรับ OS Agent บนอุปกรณ์ปลายทาง

เข้าสู่ยุค AI Google ก็กำลังทำสิ่งเดียวกัน—ตั้งแต่ Pixel 6 เป็นต้นมา ได้เดินตามเส้นทาง SoC Tensor ที่พัฒนาเอง โดย Tensor G5 รุ่นล่าสุดเพิ่มประสิทธิภาพ TPU สูงสุด 60% และ CPU โดยเฉลี่ยเพิ่มขึ้น 34% และเป็น SoC รุ่นแรกที่สามารถรัน Gemini Nano รุ่นล่าสุดได้อย่างสมบูรณ์บน Pixel 10 แน่นอนว่า Tensor G5 ก็มีข้อจำกัด: การทดสอบจาก Android Central แสดงให้เห็นว่าการตั้งค่าหน่วยความจำ (ความจุ RAM) ยังคงเป็นข้อจำกัดด้านประสิทธิภาพ AI และคะแนน Geekbench AI ต่ำกว่า Snapdragon 8 Elite; ในการทดสอบ Geekbench 6 ของ Macworld คะแนนหนึ่งแกนและหลายแกนของ G5 ต่ำกว่า A18 Pro Google ยังคงตามทัน แต่เส้นทางการร่วมมือระหว่าง Tensor ที่พัฒนาเองกับ Gemini ที่ทำงานบนอุปกรณ์ปลายทางได้ก่อร่างขึ้นแล้ว

ฮัวเว่ย คิริน ร่วมกับ NPU ดาเฟินชี่ และโมเดล PanGu ฝั่งปลายทาง เป็นเส้นทางชิปที่ควบคุมได้อีกเส้นทางที่ขนานไปกับ Apple และ Google ซีอีโอของซีอีโอได้เปิดตัว Xuanjie O1 ซึ่งเป็นผู้เข้าร่วมรายใหม่ที่ก้าวไปในทิศทางชิปที่ควบคุมได้

แบบจำลองแบบปลายทางและคลาวด์: แหล่งที่มาของปัญญาของเอเจนต์

แมทริกซ์ของโมเดลขอบและคลาวด์คือแหล่งที่มาของ “ปัญญา” ของอุปกรณ์ปลายทาง: โมเดลคลาวด์กำหนดขีดจำกัดความสามารถสำหรับงานที่ซับซ้อน ขณะที่โมเดลขอบรับผิดชอบขีดต่ำสุดของการทำงานประจำวัน—ความล่าช้า ระยะเวลาการใช้งานแบตเตอรี่ ความเป็นส่วนตัว และความเสถียร ทั้งหมดนี้ถูกกดดันไปที่ด้านขอบ ทั้งสองด้านไม่สามารถขาดกันได้ ความแตกต่างอยู่ที่ระดับการผสานรวมกับระบบปฏิบัติการ โมเดลขอบต้องถูกฝังลงในระบบปฏิบัติการของอุปกรณ์ปลายทางแต่ละเครื่อง และผสานรวมอย่างลึกซึ้งกับ NPU ของเครื่องเอง โดยรับบทบาทสองอย่างภายในระบบปฏิบัติการ: ในระดับล่าง มันทำหน้าที่เป็นแบ็กเอนด์การอนุมานแบบท้องถิ่นของ Runtime; ในระดับบน มันเปิดให้แอปพลิเคชันเข้าถึงผ่านเฟรมเวิร์กและ SDK ของ Runtime ในรูปแบบ API ระดับระบบ

การพัฒนาเองทั้งในคลาวด์และบนอุปกรณ์ปลายทางมีความหมาย แต่ผลตอบแทนบนอุปกรณ์ปลายทางชัดเจนกว่า โมเดลในคลาวด์ที่ซื้อจากภายนอกก็สามารถขับเคลื่อนขีดจำกัดความสามารถได้ ข้อได้เปรียบของการพัฒนาเองอยู่ที่การควบคุมการกำหนดเส้นทาง เงื่อนไขทางธุรกิจ และจังหวะการอัปเดตโมเดล ต่างจากบนอุปกรณ์ปลายทาง โมเดลบนอุปกรณ์ปลายทางจะถูกฝังลงในระบบปฏิบัติการและ NPU ของอุปกรณ์แต่ละเครื่อง ผลตอบแทนจากการพัฒนาเองจะปรากฏชัดเจนในประสิทธิภาพผลิตภัณฑ์: การแชร์ KV cache, การฝึกอบรมที่รับรู้การควอนตัม 2-bit ที่ออกแบบมาเฉพาะสำหรับชิปรุ่นหนึ่ง, Per-Layer Embedding (รับมาจาก Gemma 3n ซึ่งโหลดพารามิเตอร์การฝังแบบเพิ่มเติมจากหน่วยความจำเร็วตามแต่ละชั้น) เป็นต้น เหล่านี้ต้องมีการออกแบบโมเดลและฮาร์ดแวร์ควบคู่กันจึงจะทำได้ง่าย; ในขณะเดียวกัน จังหวะการทำงานร่วมกันก็ไม่ควรถูกจำกัดโดยผู้ผลิตฮาร์ดแวร์ภายนอกอีกต่อไป

พลังการประมวลผล TPU ของ Tensor G5 เพิ่มขึ้นสูงสุด 60% เมื่อเทียบกับรุ่นก่อนหน้า G4 แต่การปรับปรุงของ Gemini Nano บน G5 นั้นเกินกว่านั้นมาก—ตามข้อมูลจาก Google และ Jon Peddie Research ความเร็วในการประมวลผลแบบท้องถิ่นสูงถึง 2.6 เท่าของรุ่นก่อนหน้า การใช้พลังงานลดลงเหลือครึ่งหนึ่ง และหน้าต่าง token เพิ่มจาก 12,000 เป็น 32,000 (เทียบเท่ากับการประมวลผลภาพหน้าจอประมาณร้อยภาพในครั้งเดียว) ประสิทธิภาพที่โดดเด่นเหล่านี้เกิดจากสถาปัตยกรรม Matryoshka Transformer แบบยืดหยุ่นสำหรับการให้บริการของ Gemini Nano v3 ร่วมกับการปรับแต่งร่วมกับ TPU ของ Tensor G5

วินโดวส์

Gemini Nano บน Tensor G5 มีการพัฒนาประสิทธิภาพจากรุ่นก่อนหน้า
ที่มา: Google/Jon Peddie Research, ภาพสร้างโดย Cloud Burst AI

ในระดับโมเดลฝั่งปลาย ผู้ผลิตระบบปฏิบัติการหลักแต่ละรายต่างมีโมเดลของตนเอง: Gemini Nano ของ Google โมเดลพื้นฐานฝั่งปลายที่มีพารามิเตอร์ประมาณ 3B ของ Apple Phi Silica ของ Microsoft และโมเดลฝั่งปลาย Panggu ของ Huawei การพัฒนาด้วยตนเองเป็นตัวเลือกเริ่มต้นในระดับนี้

สาม. ระหว่างสามชั้น: การร่วมมือยิ่งลึก ช่องว่างความแตกต่างยิ่งกว้าง

ระดับความสามารถสามชั้นเชื่อมต่อกันจากล่างขึ้นบน: ชิปที่ควบคุมได้ → โมเดลฝั่งปลายทาง/คลาวด์ → Runtime → Agent ชิปที่ควบคุมได้กำหนดประสิทธิภาพการอนุมานและกำลังไฟฟ้าที่โมเดลฝั่งปลายทางสามารถบรรลุได้ โมเดลฝั่งปลายทางกำหนดระดับปัญญาในท้องถิ่นที่ Runtime สามารถจัดสรรได้ และ Runtime กำหนดความน่าเชื่อถือของ Agent ในการทำงานข้ามแอปเป็นบริการระบบ ยิ่งทั้งสามส่วนทำงานร่วมกันลึกซึ้งเท่าใด ผู้ผลิตระบบปฏิบัติการก็ยิ่งสามารถสร้างความแตกต่างในประสบการณ์ผลิตภัณฑ์ของ Agent ฝั่งปลายทางได้มากขึ้น และยิ่งสร้างรั้วป้องกันที่หนาแน่นขึ้น

ยิ่งสามชั้นเชื่อมโยงกันลึกเท่าใดในระบบทั้งซอฟต์แวร์และฮาร์ดแวร์เดียวกัน ความสามารถของผลิตภัณฑ์ OS Agent ก็จะปรากฏขึ้นในรูปแบบที่ชั้นเดียวไม่สามารถทำได้

ความล่าช้าในการตอบสนองและการใช้พลังงาน Gemini Nano ได้รับความเร็วในการประมวลผลเพิ่มขึ้น 2.6 เท่าและการใช้พลังงานลดลงครึ่งหนึ่งบน Tensor G5 โดยอาศัยการปรับเข้ากันอย่างลงตัวระหว่างสถาปัตยกรรมโมเดล การออกแบบชิป และการจัดการ Runtime ภายในการออกแบบซอฟต์แวร์และฮาร์ดแวร์รุ่นเดียวกัน จึงเกิดการปรับปรุงในระดับนี้
ความเป็นส่วนตัวและความเชื่อถือได้ งานทั่วไปที่เกี่ยวข้องกับข้อมูลส่วนตัวจะดำเนินการบนอุปกรณ์ปลายทางโดยโมเดลปลายทาง ขณะที่คำขอที่ซับซ้อนจะถูกส่งไปยังคลาวด์—นี่คือท่าทีเริ่มต้นที่เหมาะสมของ OS Agent ต่อข้อมูลผู้ใช้ในขั้นตอนปัจจุบัน การประยุกต์ใช้จริงของแนวทาง “ปลายทางเป็นหลัก คลาวด์เป็นสำรอง” ขึ้นอยู่กับการเชื่อมโยงสามระดับ: การปรับให้เข้ากันอย่างลึกซึ้งระหว่าง NPU กับโมเดลปลายทาง เป็นเส้นทางหลักที่ทำให้โมเดลปลายทางซึ่งยังอยู่ในช่วงพัฒนา สามารถรับผิดชอบการประมวลผลแบบอินเฟอร์เรนซ์ที่เกิดขึ้นบ่อยในชีวิตประจำวัน; โมเดลทำการลดขนาดและบีบอัดด้วยการควอนไทซ์และแชร์ KV cache กับ NPU; Runtime จัดเส้นทางงานระหว่างปลายทางและคลาวด์ตามความซับซ้อนของงาน หากระดับใดระดับหนึ่งไม่สมบูรณ์ “ปลายทางเป็นหลัก” ก็จะกลายเป็นเพียงถ้อยคำทางการตลาดเท่านั้น
บริบทระดับระบบ ผู้ผลิตระบบปฏิบัติการรวมข้อมูลผู้ใช้ข้ามแอปและชั้นระบบ (การดัชนีเชิงความหมาย การรับรู้หน้าจอ และความจำระยะยาว) เป็นบริบทส่วนบุคคลระดับระบบเพื่อให้เอเจนต์ใช้ ซึ่งเป็นเงื่อนไขพื้นฐานที่ทำให้เอเจนต์สามารถ “เข้าใจผู้ใช้” ได้อย่างแท้จริง และเป็นคุณลักษณะหลักที่แยกแยะเอเจนต์ระดับระบบปฏิบัติการออกจากเอเจนต์ระดับแอปเดียว การนำไปใช้งานขึ้นอยู่กับการเชื่อมโยงสามชั้น: Runtime ถือดัชนีข้ามแอปและสิทธิ์ โมเดลฝั่งปลายทางทำงานอย่างต่อเนื่องเพื่อการเข้าใจและการให้เหตุผล และ NPU ให้พลังการประมวลผลที่มีประสิทธิภาพในท้องถิ่น Apple’s Core Spotlight สร้างดัชนีเชิงความหมายบนอุปกรณ์ปลายทาง แอปต่างๆ เชื่อมต่อการกระทำและข้อมูลเข้ากับระบบผ่าน App Intents เอเจนต์จะได้รับบริบทผ่าน Personal Context (Apple ได้ประกาศแล้วว่าความสามารถนี้จะเปิดใช้งานผ่านการอัปเดตซอฟต์แวร์ในอนาคต) ในแง่ของ Android AppFunctions ก็เดินตามเส้นทางเดียวกัน
ความน่าเชื่อถือของบริการระบบ ตัวแทน OS ต้องสามารถเรียกใช้งานเป็นบริการระดับระบบได้ในสถานการณ์จริง เช่น ไม่มีการเชื่อมต่ออินเทอร์เน็ต แบตเตอรี่ต่ำ หรือลดความเร็วเนื่องจากความร้อน แบบจำลองฝั่งปลายทางทำงานอย่างต่อเนื่องบนอุปกรณ์ เพื่อให้ตัวแทนสามารถทำงานได้แม้ไม่มีเครือข่าย; NPU ที่ได้รับการปรับแต่งอย่างลึกซึ้งทั้งซอฟต์แวร์และฮาร์ดแวร์รับผิดชอบการประมวลผลด้วยพลังงานต่ำ; Runtime จะปรับการจัดสรรทรัพยากรตามความพร้อมใช้งานเมื่อทรัพยากรอุปกรณ์จำกัด (สลับไปใช้แบบจำลองที่เบากว่า หรือส่งคำขอไปยังคลาวด์) หากขาดองค์ประกอบใดองค์ประกอบหนึ่งในสามนี้ ตัวแทน OS จะไม่สามารถรองรับรูปแบบบริการระบบได้ และจะถอยกลับไปเป็นปุ่มแชทระดับแอปพลิเคชัน

Apple Intelligence นำเสนอรูปแบบการทำงานร่วมกันอย่างสมบูรณ์: Apple Silicon, โมเดลพื้นฐานฝั่งปลายประมาณ 3B, และกรอบงาน Foundation Models ที่เชื่อมต่อกันแบบจากล่างขึ้นบน โดยการประมวลผลฝั่งปลายสำหรับสถานการณ์ทั่วไป และส่งคำขอที่ซับซ้อนไปยังการคำนวณบนคลาวด์ส่วนตัว Google มีรูปแบบที่ต่างออกไป Tensor G5 ซึ่งเป็น SoC รุ่นแรกที่สามารถรัน Gemini Nano รุ่นล่าสุดได้อย่างสมบูรณ์บน Pixel 10 ถูกควบคุมโดย AICore ทำให้ฟีเจอร์ระบบระดับระบบอย่าง Magic Cue และ Pixel Screenshots สามารถเปิดใช้งานโดยไม่ต้องพึ่งคลาวด์ได้โดยค่าเริ่มต้น Huawei เป็นตัวอย่างที่โดดเด่นในการสร้างระบบร่วมกันสามชั้นภายในประเทศ: Kirin, Da Vinci NPU, Pangu ฝั่งปลาย และ HMAF ทั้งสี่อย่างเป็นของตนเอง และเชื่อมต่อกันแบบจากล่างขึ้นบนเพื่อสร้างฐานรากสามชั้นที่สมบูรณ์

วินโดวส์

กลไกการจับคู่สามชั้นของตัวแทน OS ด้านขอบ
ที่มา: ยุนยง AI

4. บนพื้นฐาน: ตัวแปรสำคัญอื่นๆ ของแนวป้องกันระยะยาว

แกนหลักของการสร้างกำแพงป้องกันคือการประสานงานสามชั้น บนพื้นฐานนี้ยังมีตัวแปรหลายประการที่ส่งผลต่อความสามารถในการแข่งขันของผลิตภัณฑ์ในยุค OS Agent รวมถึงความสามารถในการโต้ตอบระหว่าง Agent กับ App และการปกป้องความเป็นส่วนตัว

การโต้ตอบระหว่าง OS Agent กับแอปตั้งอยู่ที่จุดสุดยอดของการแข่งขันระหว่างผู้ผลิตระบบปฏิบัติการและผู้ผลิตแอป ขณะนี้มีเส้นทางสองทางดำเนินไปพร้อมกัน เส้นทางหนึ่งคือการรับรู้หน้าจอและการอัตโนมัติ รวมถึงการแชร์หน้าจอ Gemini Live, Apple Visual Intelligence, Circle to Search ฯลฯ OS Agent ใช้การอ่านหน้าจอและคลิกปุ่มเพื่อแทรกเข้าไปในแอป ซึ่งสามารถทำงานได้ในแต่ละงานเดี่ยว แต่ทุกครั้งที่เรียกใช้งานจะขาดข้อมูลที่มีโครงสร้าง ทำให้ยากที่จะสร้างงานหลายขั้นตอนอย่างมั่นคง อีกเส้นทางคือการผสานรวมลึกผ่าน API รวมถึง Google AppFunctions, Apple App Intents, Huawei Intents Kit ฯลฯ แอปเปิดเผยการกระทำหลักผ่านอินเทอร์เฟซที่มีโครงสร้างให้กับระบบ ทำให้ Agent เรียกใช้งานได้อย่างมั่นคง และสามารถสร้างงานหลายขั้นตอนได้ การขยายเส้นทาง API ขึ้นอยู่กับผู้ผลิตแอป ไม่ใช่ผู้ผลิตระบบปฏิบัติการ การมอบฟังก์ชันหลักให้ Agent เรียกใช้งาน หมายความว่าผู้ใช้อาจไม่เปิดแอปอีกต่อไป ซึ่งเสี่ยงต่อการสูญเสียการปรากฏแบรนด์ ตำแหน่งโฆษณา ข้อมูลพฤติกรรม และช่องทางการชำระเงินให้กับระบบปฏิบัติการ นี่จะเป็นจุดสำคัญของการแย่งชิงสิทธิ์ในการจัดสรรทราฟฟิกปลายทางจากผู้ใช้

การปกป้องความเป็นส่วนตัวเป็นคุณค่าหลักและขีดจำกัดพื้นฐานของระบบฝั่งปลายทาง ผู้ผลิตระบบปฏิบัติการมีสิทธิ์ระดับระบบลึกที่สุดและข้อมูลผู้ใช้ที่ละเอียดอ่อนที่สุดบนฝั่งปลายทาง ความเป็นส่วนตัวไม่เพียงแต่เป็นจุดยืนหลักของตน แต่ยังเป็นเงื่อนไขเบื้องต้นที่จำเป็นสำหรับการขับเคลื่อนสองประเด็นแรกอย่างต่อเนื่อง Apple สร้างระบบการปกป้องความเป็นส่วนตัวบนอุปกรณ์ปลายทางโดยใช้ชิปความปลอดภัยอิสระ Secure Enclave ร่วมกับโหนดคลาวด์ส่วนตัว PCC ซึ่งใช้การออกแบบความปลอดภัยระดับฮาร์ดแวร์เดียวกัน กลยุทธ์ผลิตภัณฑ์นี้ทำให้ “Privacy. That’s Apple.” กลายเป็นป้ายแบรนด์หลักของ Apple ในตลาดระดับพรีเมียมทั่วโลก และช่วยสร้างความเชื่อมั่นจากผู้ใช้

วินโดวส์

ป้ายกำกับ “ความเป็นส่วนตัว นั่นคือ Apple” ของ Apple
ที่มา: เว็บไซต์อย่างเป็นทางการของ Apple

แกนหลักของแนวป้องกันที่สร้างขึ้นโดยความร่วมมือสามชั้น ตัวแปรระยะยาวที่อยู่บนพื้นฐานเหล่านี้ส่งผลต่อความลึกที่สามารถเสริมให้แน่นหนาได้

ห้า. ไม่ใช่แค่รีแมค OS

ในแนวโน้มการแปลง OS ด้านปลายทางให้เป็นเอเจนต์ ยิ่งพื้นฐานสามชั้น—ระบบ AI Runtime ระดับระบบ ชิปที่ควบคุมได้ และแมทริกซ์โมเดลปลายทางกับคลาวด์—ยิ่งมั่นคง ผู้ผลิต OS ก็จะมีขีดจำกัดต่ำสุดของผลิตภัณฑ์ที่สูงขึ้นและมีพื้นที่สำหรับความแตกต่างมากขึ้น ผู้ผลิต OS ที่จับแนวโน้มนี้ได้เท่านั้นที่มีโอกาสผลักดันการรีเซ็ตสิทธิ์ในการจัดสรรการจราจรเข้าสู่จุดปลายทาง และได้ตำแหน่งการแข่งขันที่แข็งแกร่งกว่า

แนวโน้มนี้ไม่ได้หยุดเพียงที่โทรศัพท์มือถือและพีซีเท่านั้น ความสามารถพื้นฐานของ OS Agent กำลังขยายตัวไปยังอุปกรณ์ปลายทางอื่นๆ ผ่านระบบนิเวศอุปกรณ์หลายชิ้นที่แต่ละบริษัทได้สร้างไว้ โดยเฉพาะอย่างยิ่งในด้าน IoT ชิปที่สามารถควบคุมได้กำลังถูกนำไปใช้งานในบริบทอื่นๆ เช่น SoC สำหรับรถยนต์ ฮัวเว่ยได้จัดเตรียมชิป Kirin ที่ได้รับการรับรองสำหรับยานยนต์ ขณะที่ Xiaomi澎湃OS กำลังเข้าสู่รถยนต์รุ่นของตนเอง โมเดลฝั่งปลายทางกำลังถูกปรับให้เบาขึ้นเพื่อใช้งานกับอุปกรณ์รูปแบบใหม่ เช่น แว่นตา โดย Google ร่วมกับ Samsung, Gentle Monster และ Warby Parker พัฒนาแว่นตาอัจฉริยะ Android XR ซึ่งจะวางจำหน่ายในฤดูใบไม้ร่วงปี 2026 การประสานงานระหว่าง Runtime และ Agent กำลังขยายไปยังกลุ่มอุปกรณ์ผ่านกรอบงาน “ซูเปอร์เทอร์มินัล/กระจายตัว” ที่แต่ละบริษัทได้จัดวางไว้ เช่น 1+8+N และฮาร์โมนีไดส์ทริบิวเต็ดซอฟต์บัสของฮัวเว่ย “ระบบนิเวศครบวงจรคน-รถ-บ้าน” และ HyperConnect ของ Xiaomi, Continuity ของ Apple และ Cross device SDK กับบริการข้ามอุปกรณ์ของ Google ศึกครั้งนี้ของ OS Agent ไม่ได้จำกัดอยู่แค่การชนะหรือแพ้ในตลาดโทรศัพท์มือถือและพีซีเท่านั้น

AICore ได้รับการปรับปรุงมานานกว่าสองปี; ระบบปฏิบัติการของ Apple และชุดชิป Apple Silicon ได้รับการปรับให้เข้ากันมาเป็นเวลาหลายสิบปี; Tensor ได้รับการปรับปรุงมาจนถึง G5 จึงสามารถรับภาระของ Gemini Nano v3 ได้บน Pixel 10 การต่อสู้ครั้งนี้ไม่ได้ตัดสินกันในช่วงหนึ่งหรือสองชั่วโมงของการเปิดตัว แต่ถูกตัดสินจากการพัฒนาชิป โมเดล และ Runtime รุ่นแล้วรุ่นเล่า

ข้อมูลอ้างอิง：

Gemini Intelligence นำ AI แบบริเริ่มมาสู่ Android｜บล็อกของ Google
I/O 2026: ยินดีต้อนรับสู่ยุคของ Gemini แบบตัวแทน｜บล็อกของ Google
Phi Silica, SLM บนอุปกรณ์ขนาดเล็กแต่ทรงพลัง｜Windows Experience Blog
แอปเปิลเลื่อนการอัปเกรด Siri ออกไปโดยไม่มีวันกำหนด｜Bloomberg
เปิดตัวเวอร์ชันเบต้าสำหรับนักพัฒนาของ HarmonyOS 6 (HDC 2025) | Huawei
Gemini Nano รุ่นล่าสุดพร้อม API ของ ML Kit GenAI บนอุปกรณ์｜บล็อกนักพัฒนา Android
เอกสารกรอบงาน Foundation Models｜Apple Developer
เอกสารขาวของกรอบงานปัญญาประดิษฐ์ฮาร์โมนี | นักพัฒนาของฮัวเว่ย
Llama 3.1 บนอุปกรณ์ด้วย Core ML｜การวิจัยด้านการเรียนรู้ของเครื่องของ Apple
รายงานเทคโนโลยีโมเดลภาษาพื้นฐานของ Apple Intelligence 2025｜การวิจัยด้านการเรียนรู้ของเครื่องของ Apple
Google Tensor G5: ผลการทดสอบและทุกสิ่งที่คุณจำเป็นต้องรู้｜Android Central
SoC รุ่นใหม่ของ Google M5 (Tensor G5 วิเคราะห์ละเอียด·Matryoshka Transformer) | Jon Peddie Research
การคำนวณแบบคลาวด์ส่วนตัว: ขอบเขตใหม่สำหรับความเป็นส่วนตัวของ AI ในคลาวด์｜Apple Security Engineering
ภาพรวมของ AppFunctions｜นักพัฒนา Android
เจตนาของแอป｜Apple Developer
คำแนะนำเกี่ยวกับ Intents Kit (HarmonyOS) | นักพัฒนา Huawei
ชิป Tensor G5 ของ Google Pixel 10 Pro นั้นน่าประทับใจ—หากคุณเปรียบเทียบกับ iPhone 14｜Macworld
ภาพรวมโมเดล Gemma 3n｜Google AI สำหรับนักพัฒนา