Industri AI 2026 Menyaksikan Kenaikan 'AI Fizikal' dengan Terobosan Besar

AI fizikal, telah mengambil alih.

Penulis artikel, sumber: Dongjian Xin Yan She

Sejak permulaan tahun 2026, istilah panas muncul di kalangan AI—“AI Fizikal”.

Huang Renxun sering menyebut di pameran CES awal tahun ini, "Gelombang AI berikutnya akan menjadi AI yang beroperasi di dunia fizikal," sementara Sun Yuchen juga baru-baru ini secara terang-terangan menyatakan: "Manfaat AI maya telah habis, AI fizikal adalah peluang terbesar dalam tiga tahun ke depan."

Di sektor industri, syarikat terkenal Figure AI memicu kehebohan di seluruh internet dengan siaran langsung pengelasan robot selama lima hari berturut-turut, sementara Zhiyuan Robotics di dalam negara mengumumkan penurunan robot badan umum ke-10,000...

Pernyataan para ahli dan perubahan sebenar dalam kecerdasan berbadan telah menarik perhatian industri kepada naratif besar yang melibatkan peralihan daripada kecerdasan maya kepada pelaksanaan fizikal. Namun, ramai masih merasa ragu-ragu: adakah “AI fizikal” ini titik balik yang tak terelakkan dalam perkembangan teknologi, atau sekadar konsep yang dibungkus dengan cemerlang?

Pada tahun 2026, dunia AI mengalami gelombang "AI Fizikal", dengan Huang Renxun menyatakan gelombang AI seterusnya akan berupa AI yang beroperasi di dunia fizikal. Figure AI menunjukkan teknologinya melampaui titik kritikal demonstrasi makmal melalui siaran langsung pengelasan robot selama 5 hari, manakala Zhìyuán Robotics mencapai produksi unit ke-10,000 robot badan umum. Inti teknologi ini ialah memberikan AI kemampuan tertutup "mengesan-mengesahkan-tindakan-maklum balas" di dunia nyata. Pendorong utama termasuk model bahasa besar yang memberi robot kemampuan memahami, model dunia yang menyelesaikan masalah tindakan di dunia fizikal, dan model VLA yang menghubungkan jarak terakhir dari memahami hingga melakukan dengan betul. AI fizikal kini beralih dari pengesahan teknologi kepada pelaksanaan komersial, dengan pembiayaan melebihi 110 bilion yuan sejak 2026, dan persaingan memasuki fasa pengeluaran dan penghantaran.

Sumber artikel: Dongjian Xin Yan She

01 Dari "Bisa Bercakap" ke "Bisa Berbuat"

Sebelum menjawab soal di atas, mari kita uraikan terlebih dahulu istilah profesional yang agak kaku ini.

AI fizikal, secara harfiah, merujuk kepada teknologi kecerdasan buatan yang menggabungkan AI secara mendalam dengan dunia fizikal, tetapi jika dilihat dari intinya, AI maya bertanggungjawab untuk “berfikir dan berkomunikasi”, manakala AI fizikal mesti “mengesan dan bertindak”, dengan demikian, ia bukan lagi agen dalam skrin, tetapi membolehkan mesin mengesan, memahami, dan melaksanakan operasi kompleks di dunia fizikal yang sebenar.

Fizikal AI adalah teknologi yang "membolehkan mesin autonomi, seperti robot dan kereta auto-pilot, untuk mengesan, memahami, dan melaksanakan operasi kompleks di dunia fizikal sebenar". Wang Xiang, ahli komite eksekutif Akademi Komputer China, menjelaskan konsep ini secara sistematik di Pameran Rantaian Rantaian China Ketiga: "Fizikal AI bermaksud sistem AI mempunyai kemampuan tertutup 'mengesan—berfikir—bertindak—umpan balik' di dunia sebenar."

Dengan kata lain, AI sebelum ini adalah “bisa berchating”, sedangkan AI fizikal sekarang adalah “bisa melakukan tindakan”. Apabila AI keluar daripada kotak perbualan ChatGPT dan memasuki dunia nyata seperti pabrik, gudang, dan rumah, itulah masalah yang ingin diselesaikan oleh AI fizikal.

Perbezaan ini terlihat jelas dalam perkembangan dua syarikat robot bintang tahun ini.

Salah satunya ialah Figure AI dari Amerika, yang membuktikan “robot benar-benar boleh bekerja” melalui siaran langsung selama lima hari berturut-turut, bermula pada 14 Mei. Kandungan siaran langsung tersebut ialah tiga robot berbentuk manusia Figure 03 yang bergiliran di lini pengeluaran untuk mengelas pek pos, tugas robot adalah mengesan kod bar, mengambil pek, menyesuaikan arah semula, dan meletakkan kod bar menghadap ke bawah di atas tali penghantar.

Semasa siaran langsung, sebuah robot beroperasi secara berterusan selama lebih daripada 33 jam, mengendalikan lebih daripada 40,000 pakej. Pendiri, Brett Adcock, menyatakan bahawa robot tersebut menggunakan model Helix 02 terkini syarikat, beroperasi dalam "mod sepenuhnya autonom".

Makna siaran langsung Figure AI bukan sahaja untuk menunjukkan kemampuan teknologi mereka, tetapi juga untuk memberitahu dunia melalui gambar langsung bahawa teknologi AI fizikal telah melintasi titik kritikal "paparan makmal". Sebuah syarikat yang menyiar langsung robot bekerja secara berterusan selama beberapa hari tanpa masalah besar adalah satu deklarasi teknologi yang kuat.

Robotik Zhiyuan China juga menjalankan siaran langsung serupa, menempatkan Zhiyuan Sprite G2 di lini penghasilan平板 di Taman Teknologi Longqi, Nanchang, untuk bekerja bersama manusia. Data ujian langsung menunjukkan bahawa robot mampu beroperasi berterusan selama 8 jam tanpa sebarang kegagalan besar, dengan kejayaan operasi keseluruhan melebihi 99.5%; setiap proses hanya memerlukan 18-20 saat, mampu menghasilkan 310 unit produk setiap jam, dan satu robot sahaja mampu menangani beban kerja dua proses.

Lebih daripada itu, Agi Robotics secara rasmi mengumumkan pada Mac bahawa robot pintar badani am pertama di dunia telah mencapai penghantaran 10,000 unit, melompat dari 5,000 kepada 10,000 unit dalam masa kurang daripada tiga bulan, dari Disember 2025 hingga Mac 2026.

Di luar jumlah penghantaran, Zhìyuán Robotics mengungkapkan bahawa syarikat berhasrat mencapai pendapatan sebanyak 10 bilion pada tahun 2027. Jika merujuk kepada pengalaman perkembangan industri terkini seperti tenaga baharu, pemanduan automatik, atau cip, sebuah syarikat yang baru beroperasi kurang dari dua tahun yang mampu mencapai penghantaran berskala ribuan unit dan menetapkan sasaran pendapatan sepuluh bilion boleh dianggap sebagai fenomena dalam bidang teknologi keras.

Dua syarikat ini membuktikan dengan data dan senario yang nyata bahawa AI fizikal tidak lagi bergantung pada pengendalian jauh atau skrip pra-tetap untuk "berpura-pura", tetapi memiliki kemampuan untuk menyelesaikan tugas-tugas kompleks secara autonomi dalam persekitaran sebenar.

Lebih penting lagi, Zhiyuan menjadi yang pertama melampaui ambang penghantaran 10,000 unit, mengikat kemampuan penghasilan masal dengan pesanan yang telah diterima, menunjukkan bahawa laluan ini telah mencapai titik belok dari “pengesahan teknikal” kepada “pelaksanaan komersial”. Dengan kata lain, “kelayakan” AI fizikal bukan lagi soal keraguan; persaingan sebenar telah memasuki zona dalam yang membabitkan “ketersediaan” dan “ekonomi”.

02 Pendorong Teknologi Ledakan AI Fizikal

Jadi, masalahnya sekarang, mengapa AI fizikal tiba-tiba meledak pada tahun ini? Setelah ditinjau semula, selain permintaan komersial yang sebenar, serangkaian terobosan teknologi di belakangnya menjadi pendorong utama.

Pertama-tama, model bahasa besar (LLM) membawa "keupayaan pemahaman" kepada robot. Robot tradisional bergantung pada kod dan pemrograman peraturan yang pasti, seolah-olah jurutera telah menulis "naskah" terlebih dahulu, di mana setiap tindakan robot dilaksanakan secara ketat mengikut petunjuk naskah yang telah ditetapkan. Model ini mempunyai kelemahan besar, iaitu sekiranya persekitaran kerja robot sedikit berubah, kod perlu ditulis semula, kekuatan ketahanannya lemah, dan sukar untuk melangkau ambang komersial.

Namun, semasa Google cuba menggabungkan LLM dengan pelaksanaan fizikal robot, dan pada Ogos 2023 mengeluarkan model besar multimodal berbadan seperti Google PaLM-E dan RT-2, ia membolehkan robot untuk secara automatik membahagikan tugas kompleks kepada beberapa langkah dan melaksanakannya melalui arahan bahasa semula jadi, menjadikan model bahasa besar berpindah dari kemampuan “memahami perbualan” kepada “pelaksanaan fizikal”.

Dalam ucapan di CES 2026, Huang Renxun menunjukkan esensi evolusi teknologi ini: AI fizikal sebenarnya merupakan peralihan kuasa dasar, di mana apabila AI fizikal melintasi titik kritikal evolusi teknologi, kuasa beralih dari kod deterministik yang ditulis oleh manusia kepada rangkaian saraf yang mempunyai kemampuan generalisasi dan memahami hukum fizikal.

Pada masa ini, robot tidak lagi hanya “melaksanakan kod”, tetapi memiliki kemampuan “memahami arahan dan merancang tindakan sendiri”.

Jika model bahasa besar menyelesaikan masalah "memahami", maka model dunia menyelesaikan masalah "bertindak dalam dunia fizikal", dan inti model dunia ialah membolehkan AI mempelajari satu set pemahaman dalaman mengenai hukum pergerakan dunia fizikal.

Platform Cosmos, model asas dunia AI fizikal yang diperkenalkan oleh NVIDIA di CES tahun lepas, menjadi peristiwa bersejarah; kemampuan utama model ini ialah mampu menghasilkan data tindakan yang mematuhi hukum fizik daripada teks atau gambar, membolehkan pembangun menggunakan Cosmos untuk mempercepatkan pembangunan AI fizikal bagi kereta pintar, robot, dan agen AI analisis video.

Menurut NVIDIA, Cosmos dilatih berdasarkan lebih daripada 20 juta jam data sebenar, yang secara besar-besaran mengurangkan kesukaran simulasi dan latihan model. Dengan model dunia, sistem AI boleh menjalankan simulasi besar-besaran dalam persekitaran maya, kemudian memindahkannya ke dunia fizikal sebenar.

Kemampuan utama robot bukanlah “memahami” atau “mendengar”, tetapi “melakukan dengan betul”. Kehadiran model Vision-Language-Action membolehkan robot memproses input visual, pemahaman bahasa, dan kawalan tindakan secara serentak, mencipta gelung tertutup “lihat, lakukan”.

DeepMind memperkenalkan model besar multimodal berbadan baru, Gemini Robotics 1.5, pada September tahun lalu, mengklaim ini sebagai model berpikir pertama di dunia yang dioptimasi khusus untuk penalaran berbadan; NVIDIA pula melancarkan model sumber terbuka Isaac GR00T N1.6 yang direka khusus untuk robot manusia, yang mampu membuka kunci kawalan seluruh badan.

Sambil itu, Pusat Inovasi Robot Manusia Beijing telah melepaskan model otak kecil badan XR-1 secara sumber terbuka, menjadikannya model pertama di negara ini yang memenuhi piawaian nasional untuk kecerdasan badan, dilatih berdasarkan lebih daripada satu juta data, mampu menyelesaikan tugas operasi dua lengan yang kompleks seperti mengambil dan meletakkan, menolak dan menarik, serta memutar.

Sampai sini, AI fizikal telah "mengumpulkan" semua kemampuan teknikal asas yang diperlukan untuk pelaksanaan, LLM membolehkan mesin "memahami" niat manusia, model dunia membolehkan mesin "memprediksi" kesan fizikal, dan VLA menghubungkan jarak terakhir dari "memahami" kepada "melakukan dengan betul". Gabungan ketiga-tiganya menjadikan robot mampu melaksanakan tugas secara autonomi dalam persekitaran terbuka untuk pertama kalinya.

Tentu, operasi cekap masih menghadapi batasan; kawalan halus terhadap lengan dan tangan masih menghadapi banyak masalah yang perlu diselesaikan. Dengan kata lain, AI fizikal telah mendapat tiket masuk untuk "bekerja di kilang", tetapi untuk benar-benar "masuk ke rumah dan menyediakan minuman", ia masih perlu melintasi lompatan kualitatif dari "gerakan kasar" ke "operasi halus".

03 Dari visi teknikal kepada kemampuan penghantaran

Memahami sejarah dan keadaan semasa AI fizikal adalah penting, dan kini, industri kecerdasan berbadan perlu menghadapi persoalan: dimensi inti apakah yang akan menjadi fokus persaingan seterusnya?

Kita mengambil pelajaran dari perkembangan pengendalian kendaraan tanpa pengendali; pertarungan data tidak dapat dielakkan dalam pengendalian kendaraan tanpa pengendali, dan kecerdasan tubuh yang memiliki logika serupa juga tidak dapat mengelakkan hal ini. Secara umum, siapa pun yang memiliki data latihan yang lebih berkualiti tinggi akan memiliki suara yang lebih berpengaruh.

Sekarang dalam industri ini, NVIDIA telah terlebih dahulu membina penghalang model dunia berdasarkan Cosmos, dengan model yang dilatih menggunakan lebih daripada 20 juta jam data sebenar yang sukar ditiru dengan cepat, manakala Zhiyuan telah menyelesaikan penghantaran massal 10,000 robot, bermakna ia memiliki kemampuan pengumpulan data sebenar yang didorong oleh umpan balik, yang secara meluas dianggap sebagai parit data dalam industri ini.

Perlu ditekankan bahawa data yang diperlukan untuk persaingan AI fizikal bukan semata-mata tentang siapa yang mempunyai jumlah paling besar, tetapi memerlukan kerjasama antara data sintetik dan data sebenar.

Mengandalkan data sebenar semata-mata menghadapi masalah skala dan kos penghancuran peralatan, manakala terlalu bergantung pada data sintetik mencipta jurang perpindahan dari simulasi ke realiti (sim2real). Solusi "pembelajaran lintas sumber data" dari Pusat Inovasi Robot Manusia Beijing adalah hasil daripada pendekatan ini, membolehkan robot dilatih menggunakan video manusia dalam jumlah besar, secara signifikan mengurangkan kos latihan sambil meningkatkan kecekapan latihan.

Ini sangat mudah difahami; siapa yang mampu menghubungkan sepenuhnya litar tertutup “latihan data sintetik—penyelarasan data sebenar—umpan balik skenario sebenar” akan berada di posisi terdepan dalam pertandingan ini.

Setelah masalah data diselesaikan, bagaimana menggabungkan AI fizikal dengan AI maya secara efisien menjadi kunci utama bagi AI fizikal untuk melangkah lebih jauh.

Kita sedang membincangkan AI fizikal, tetapi arah yang sering diabaikan ialah bahawa AI fizikal dan AI maya bukanlah saling bertentangan; dari segi arsitektur teknikal, sistem AI fizikal yang lengkap boleh dibahagikan kepada tiga lapisan: lapisan bawah ialah lapisan pengesanan (sensor, pengenalan visual), lapisan tengah ialah lapisan kognitif dan pengambilan keputusan (inferens AI), dan lapisan atas ialah lapisan pelaksanaan tindakan (kawalan mekanikal).

AI maya bertanggungjawab atas lapisan tengah, manakala AI fizikal perlu menghubungkan keseluruhan rantai dari pengesanan hingga pelaksanaan.

Solusi penuh-stack "chip + model + alat" NVIDIA merupakan perwujudan pemikiran ini, di mana platform komputasi tepi Jetson Thor menyediakan kekuatan pemrosesan, model GR00T menyediakan kecerdasan, dan platform Isaac menyediakan rantai alat pengembangan. Dengan merujuk kepada solusi ini, siapa pun yang mampu melakukan integrasi mendalam antara perangkat lunak dan perangkat keras di masa depan tidak hanya akan dapat menyelesaikan siklus tertutup AI fizikal dari "otak" hingga "anggota badan", tetapi juga dapat membina parit teknologi sendiri.

Titik terakhir ialah proses komersialisasi AI fizikal. Tiga tahun lalu, ruang imaginasi modal terhadap lintasan robot datang dari “visi teknologi”, tetapi kini, pasaran modal mempunyai standard penilaian yang lebih praktikal, iaitu kemampuan penghantaran.

Menurut statistik media, jumlah pembiayaan dalam bidang kecerdasan tubuh China sepanjang tahun 2025 mencapai 73.5 miliar yuan dengan 744 peristiwa pembiayaan, dan sejak 2026 telah ditambahkan lebih daripada 37 miliar yuan, sehingga jumlah kumulatif melebihi 110 miliar yuan, tetapi di bawah kemakmuran ini, arus modal mengalami perubahan struktural yang jelas terlihat.

Pada Mei 2026, Tianji Intelligence menyelesaikan pembiayaan Siri B sebanyak 1 miliar yuan, dengan pesanan yang sedang ditangani pada Q1 melebihi 10,000 unit, dengan pelanggan yang mencakup 45 syarikat robot.

Zhongke Fifth Era menerima pembiayaan Siri A berjumlah ratusan juta yuan, serta mengumumkan telah memperoleh pesanan luar negara bernilai ratusan juta yuan.

Dalam pembiayaan Weitai Power dan Lu Ming Robotics, pelabur industri seperti SAIC Shangqi Capital dan Mitsubishi Electric telah masuk berturut-turut, dengan tujuan mengikat kapasiti lini pengeluaran dengan kemampuan penghantaran robot.

Sebaliknya, syarikat rintisan robot manusia Amerika, Cartwheel Robotics, yang memiliki visi teknologi tetapi tiada pesanan sokongan, telah mengumumkan kegagalan pada Mac 2026.

Kes positif dan negatif menunjukkan bahawa modal tidak lagi membayar untuk demo yang menarik, tetapi hanya membayar untuk kemampuan penghantaran produksi sebenar.

04 Penutup

Kebangkitan fizikal AI kelihatan tiba-tiba, tetapi sebenarnya adalah hasil yang semula jadi.

Tentu, ada pihak industri yang berpendapat bahawa "AI Fizikal" lebih merupakan konsep baru yang dicipta oleh pasaran modal, pada dasarnya merupakan evolusi semula jadi bagi kecerdasan badan dan teknologi robotik, tetapi tidak dapat disangkal bahawa kemunculan AI Fizikal dengan jelas menandakan bahawa industri AI sedang berpindah dari "kecerdasan maya" kepada "pelaksanaan fizikal", yang pada dasarnya merupakan proses sejarah yang tidak boleh dibalikkan.

Dalam persaingan paling terkini, Figure AI memamerkan kekuatannya melalui siaran langsung, Agi Robotics membina rintangan industri melalui penghantaran dalam jumlah besar, dan NVIDIA membina ekosistem platform menggunakan Cosmos dan GR00T... Namun, soalan seterusnya ialah, syarikat manakah yang akan menjadi OpenAI dalam bidang AI fizikal? Skenario penggunaan manakah yang akan mengalami "masa ChatGPT" terlebih dahulu?