Physical AI, nagsasagawa na.
May-akda ng artikulo, pinagmulan: Dongjian Xin Yan She
Simula noong 2026, isang sikat na salita ang lumabas sa mundo ng AI—“Physical AI”.
Minsan ni Huang Renxun sa CES event sa simula ng taon, “Ang susunod na alon ng AI ay ang AI na gagana sa pisikal na mundo,” habang pinauunlad ni Sun Yuchen ang kanyang pahayag: “Tapos na ang benepisyo ng virtual AI, ang pisikal na AI ang pinakamalaking pagkakataon sa mga susunod na tatlong taon.”
Sa sektor ng industriya, ang kilalang kumpanyang Figure AI ay nagpalabas ng isang live stream na nagtrabaho nang tuloy-tuloy sa loob ng limang araw para sa paghahati ng mga robot, na nag-udyok sa buong network; ang domestic na company na Zhìyuán Robotics ay inihayag ang paglabas ng kanilang 10,000th general-purpose embodied robot…
Ang mga komento ng mga malalaking player at ang tunay na pagbabago sa embodied intelligence ay naglalatag ng atensyon ng industriya sa malaking istorya mula sa virtual intelligence papunta sa physical execution, ngunit marami pa rin ang may katanungan: ang tinatawag na “physical AI” ay isang natural na tumbok sa pag-unlad ng teknolohiya, o isang matalinong pagpapalit ng konsepto?
Sa taon na 2026, ang industriya ng AI ay nagdaraan sa isang malaking paglakas ng "Physical AI," kung saan ang Jensen Huang ay nagsabi na ang susunod na alon ng AI ay ang AI na gumagana sa pisikal na mundo. Sa pamamagitan ng isang 5-araw na live streaming ng paghahati ng robot, ang Figure AI ay nabigyan ng teknolohiya na lumampas sa kritikal na punto ng laboratoryo demo, habang ang AgiRobot ay nagsagawa ng paglabas ng kanilang 10,000th general-purpose embodied robot. Ang pangunahing teknolohiya ay ang pagbibigay sa AI ng kakayahang magkaroon ng isang sariling loop na "pagsasalaysay-pag-iisip-paggawa-pagbabalik-tanaw" sa totoong mundo. Ang mga pangunahing tagapagtaguyod ay ang mga malalaking modelo ng wika na nagbibigay sa mga robot ng kakayahang maintindihan, ang mga modelo ng mundo na lutasin ang mga problema sa pagkilos sa pisikal na mundo, at ang mga VLA model na nag-uugnay sa huling kilometro mula sa pag-unawa hanggang sa tamang paggawa. Ang Physical AI ay nagmumula sa pagpapatotoo ng teknolohiya patungo sa komersyal na pagpapatupad, at higit sa 110 bilyon yuan ang nakalap na pondo mula pa noong 2026, at ang kompetisyon ay pumasok na sa yugto ng mass production at pagpapadala.
Pinagmulan ng artikulo: Dongjian Xin Yan She
01 Mula sa “makapag-uusap” patungo sa “makagawa ng mga gawain”
Bago sagutin ang tanong na ito, muna nating i-decompose ang kaunting magulo at propesyonal na termino.
Ang pisikal na AI, sa literal na pagkakahulugan, ay ang teknolohiya ng artificial intelligence na malalim na pinagsasama ang AI sa pisikal na mundo, ngunit sa mas malalim na pag-aaral, ang virtual na AI ay responsable sa “pag-iisip at pakikipag-ugnayan,” habang ang pisikal na AI ay kailangang “magsensory at mag-aksyon,” kaya naman, hindi na ito isang intelligent agent sa screen, kundi kailangang gawing makapagsensory, makakaintindi, at makapagpapatupad ng mga kumplikadong gawain sa totoong pisikal na mundo ang mga makina.
Ang physical AI ay isang teknolohiya na “nagpapahintulot sa mga autonomous na makina, tulad ng mga robot at autonomous na sasakyan, na makapagtanggap, makaintindi, at makapagpapatupad ng mga kumplikadong gawain sa totoong pisikal na mundo.” Sinuri nang sistematiko ni Wang Xiang, miyembro ng Executive Committee ng Chinese Computer Federation, ang konseptong ito sa Ikatlong International China Supply Chain Expo: “Ang physical AI ay nangangahulugan na ang mga AI system ay may kakayahang magkaroon ng isang sariling pagsasapulot na ‘pagsasalita—pagsusuri—pagkilos—pagbabalik-tanaw’ sa totoong mundo.”
Sa madaling salita, ang dating AI ay “nakakausap,” samantalang ang kasalukuyang physical AI ay “nakakagawa ng mga gawain”; kapag lumabas ang AI sa kahon ng ChatGPT at pumasok sa mga gawaian, warehouse, at tahanan sa tunay na mundo, iyon ang problema na lutasin ng physical AI.
Ito ay lalong nakikita sa mga pagkilos ng dalawang sikat na kompanya ng robot sa taong ito.
Isa sa mga ito ay ang Figure AI mula sa Estados Unidos, na nagpapatotoo sa “totoo bang makakapagtrabaho ang mga robot” sa pamamagitan ng patuloy na 5-araw na livestream, na nagsimula noong Mayo 14, kung saan ang 3 Figure 03 humanoid robots ay nagbabago-bago sa production line upang hiwalayin ang mga pakete, ang kanilang gawain ay ang pag-verify ng barcode, paghawak ng mga pakete, pagbabago ng direksyon, at pagpapadala ng barcode pababa sa conveyor belt.
Sa loob ng live stream, nagtrabaho nang patuloy ang isang robot nang higit sa 33 oras at nilutasan ang higit sa 40,000 na pakete, ayon kay founder Brett Adcock, na gumagamit ang robot ng pinakabagong Helix 02 model ng kumpanya sa “puno ng autonomous mode”.
Ang kahalagahan ng live stream ng Figure AI ay hindi lamang nagpapakita ng kanilang kakayahan sa teknolohiya, kundi pati na rin ang pagpapakita sa buong mundo sa pamamagitan ng real-time na larawan na ang physical AI technology ay nasa tumpak na punto na hihigit sa “laboratory demonstration”—ang pagpapakita sa produksyon ng isang robot na gumagana nang walang malalaking problema sa loob ng ilang araw ay isang malakas na pahayag ng teknolohiya.
Kumagawa rin ang Zhìyuán Robotics ng Tsina ng isang katulad na live stream, kung saan isinama nila ang kanilang Zhìyuán Sprite G2 sa production line ng MMIT (Multimedia Integration) sa Nanchang Longqi Technology Park upang magtrabaho kasama ang mga tao. Ayon sa mga resulta ng live test, walang malalaking anomaliya ang robot sa 8 oras na tuloy-tuloy na paggawa, at ang kabuuang tagumpay sa paggawa ay higit sa 99.5%; kada proseso ay nangangailangan lamang ng 18-20 segundo, at kaya nitong tapusin ang 310 na produkto bawat oras, kaya isang robot lamang ang kailangan upang harapin ang trabaho ng dalawang proseso.
Higit pa sa Figure AI, ang AgiRobot ay opisyal na inanunsyo noong Marso ang pagpapadala ng 10,000 yunit ng unang pangkalahatang embodied AI robot sa mundo, na nagtagal lamang ng higit sa tatlong buwan mula sa 5,000 hanggang 10,000 yunit mula Disyembre 2025 hanggang Marso 2026.
Sa labas ng bilang ng mga ipinadala, ipinahayag ng AgiRobot na ang kumpanya ay may plano na makamit ang kita ng 10 milyar hanggang 2027. Kung tatayaan sa pamamagitan ng nakaraang pag-unlad ng mga nakababagong industriya tulad ng bagong enerhiya, awtomatikong pagmamaneho, o mga chip, ang pagkakaroon ng isang kumpanya na may ilang taon lamang ng pagkakatatag na makapag-impluwensya sa isang antas ng production sa libo-libo at pagtakda ng layunin ng 10 milyar na kita ay maaaring ituring na isang phenomenon sa larangan ng hard tech.
Patunayan ng dalawang kumpanya ito gamit ang totoong data at mga skenaryo na hindi na kailangan ng physical AI na magdepende sa remote control o pre-set scripts para “mag-perform,” kundi may kakayahang makumpleto ng mga kumplikadong gawain sa totoong kapaligiran.
Mas mahalaga pa, ang Zhìyuán ang unang lumampas sa threshold ng 10,000 unit na ipinadala, na nag-uugnay sa kakayahan sa mass production at mga order na nasa kamay, na nagpapakita na ang larangan na ito ay nagsimulang lumipat mula sa “pagpapatotoo ng teknolohiya” patungo sa “pagkamit ng komersyal.” Sa ibang salita, ang “kakayahang gawin” ng Physical AI ay hindi na isang tanong—ang totoong kompetisyon ay nasa malalim na bahagi na ng “kakayahang gamitin” at “ekonomikong katangian.”
02 Teknolohiyang nagpapalakas sa pag-usbong ng Physical AI
Kaya ngayon, ang tanong ay, bakit biglang umabot sa puncyo ang physical AI sa taong ito? Pagpapalit sa nakaraan, maliban sa totoong pangangailangan sa komersyal, ang serye ng teknikal na pag-usbong ang naging pinakamalaking tagapagpabilis.
Una sa mga pangunahing pagbabago ay ang pagdala ng “kakayahang maunawaan” ng malalaking modelo sa wika (LLM) sa mga robot. Ang mga tradisyonal na robot ay nakasalalay sa deterministic code at rule-based programming, na katumbas ng pag-isulat ng “iskrip” ng mga inhinyero kung saan bawat galaw ng robot ay sinusunod nang walang pag-aalinlangan ang mga nakapaghandaan sa iskrip. Ang modelo na ito ay may malaking kahinaan: kung may anumang pagbabago sa kapaligiran ng robot, kailangan muli i-write ang code—nagpapakita ito ng mababang robustness at mahirap makalabas sa hangganan ng komersyalisasyon.
Gayunpaman, kasunod ng pagsubok ng Google na i-merge ang LLM sa pisikal na pagganap ng robot at ang paglalabas nito ng mga embodied multimodal na malalaking modelo tulad ng Google PaLM-E at RT-2 noong Agosto 2023, naging posible na ang mga robot na gamitin ang mga natural language instruction upang awtomatikong hatiin ang mga kumplikadong gawain sa ilang mga hakbang at isagawa, kaya nangyari ang paglilipat ng kakayahan ng malalaking wika model mula sa “pag-unawa sa usapan” patungo sa “pisikal na pagganap”.
In his CES 2026 keynote, Huang Renxun pointed out the essence of this technological evolution: Physical AI is essentially a transfer of underlying control; when Physical AI passes the tipping point of technological evolution, control shifts from deterministic code written by humans to neural networks with generalization capabilities that understand physical laws.
Sa point na ito, ang mga robot ay hindi na lamang “nagpapatupad ng code” kundi may kakayahang “unawain ang mga utos at magplano ng sarili nilang aksyon.”
Kung ang malalaking modelo ng wika ay nalutas ang problema ng “pag-unawa,” ang modelo ng mundo ay nalutas ang problema ng “pagkilos sa pisikal na mundo,” at ang pangunahing bahagi ng modelo ng mundo ay ang pagtuturo sa AI ng isang panloob na pag-unawa sa mga batas ng paggalaw ng pisikal na mundo.
Ang Cosmos, ang platform ng physical AI world foundation model na ipinakilala ni NVIDIA sa CES noong nakaraan, ay naging isang markang pangyayari; ang pangunahing kakayahan ng model na ito ay ang pagbuo ng data ng galaw na sumusunod sa mga batas ng pisika mula sa teksto o imahe, at maaaring gamitin ng mga developer ang Cosmos upang mabilisang pag-unlad ng physical AI para sa mga smart car, robot, at AI agents para sa video analysis.
Ayon sa NVIDIA, binase ang Cosmos sa higit sa 20 milyon na oras ng totoong data, na nagsasagawa ng malaking pagbaba sa kalagayan ng pag-simulate at pag-train ng model. Sa pamamagitan ng world model, maaaring mag-simulate ang AI system sa virtual na kapaligiran at pagkatapos ay i-migrate ito sa totoong pisikal na mundo.
Ang pinakamataas na kakayahan ng robot ay hindi ang “pag-unawa” o “pagkakaintindi,” kundi ang “paggawa nang tama.” Ang pagkakaroon ng Vision-Language-Action model ay nagbibigay sa robot ng kakayahang magtratrabaho nang sabay-sabay sa mga visual input, pag-unawa sa wika, at kontrol ng galaw, upang makamit ang isang saradong loop na “kita, gawin.”
Ipinakilala ng DeepMind noong Setyembre ng nakaraang taon ang kanilang bagong henerasyon ng maramihang modality at embodied AI na modelo na Gemini Robotics 1.5, na sinasabing ang unang modelo sa mundo na dinisenyo para sa embodied reasoning; samantala, ipinakilala ng NVIDIA ang open-source na modelo na Isaac GR00T N1.6 na espesyal na disenyo para sa humanoid robots, na nagpapahintulot sa buong katawan na kontrol.
Samantala, ang Beijing Embodied Robot Innovation Center ay isinilid ang XR-1 embodied cerebellum model, na naging unang model sa bansa na sumasailalim sa pambansang pamantayan para sa embodied intelligence, na tinuturuan gamit ang higit sa isang milyon na data upang maisagawa ang mga kumplikadong gawain sa dalawang braso tulad ng pagkuha at paglalagay, paghila at pagpupush, at pag-ikot.
Sa point na ito, ang physical AI ay “nakapag-ikot” na ang lahat ng pangunahing teknikal na suporta na kailangan para sa pagpapatupad: ang LLM ay nagpapakilala sa machine kung ano ang nais ng tao, ang world model ay nagpapahintulot sa machine na “mabasa” ang physical na epekto, at ang VLA ay nagpapalabas ng huling yugto mula sa “pag-unawa” patungo sa “paggawa nang tama.” Ang pagkakasama-samang ito ay nagbibigay sa robot ng unang pagkakataon na may kakayahang mag-autonomous na magpatupad ng mga gawain sa isang bukas na kapaligiran.
Totoo namang may mga hadlang pa ang masusing pagkilos; ang masusing pagkontrol sa mga braso at kamay ay mayroon pa ring maraming isyu na dapat lutasin. Sa ibang salita, natanggap na ng physical AI ang pahintulot na “magsimula sa pabrika,” ngunit upang makapasok nang tunay sa mga tahanan para maghain ng tsaa at umalat, kailangan pa itong lampasin ang kritikal na pagbabago mula sa “maliwanag na galaw” patungo sa “masusing pagkilos.”
03 Mula sa teknikal na pangarap patungo sa kakayahang magbigay
Mahalaga na maintindihan ang nakaraan at kasalukuyan ng physical AI, at ngayon, ang tanong na dapat harapin ng industriya ng embodied intelligence ay, saan susundin ang kompetisyon sa mga sumusunod na pangunahing dimensyon?
Mula sa pag-unlad ng autonomous driving, natutunan natin ang mga aral: ang laban sa data ay hindi maiiwasan ng autonomous driving, at ang embodied intelligence na may magkakaparehong lohika ay hindi rin makakaiwas dito. Karaniwan, ang nagtataglay ng mas mataas na kalidad na training data ay may mas malaking awtoridad.
Sa kasalukuyan sa industriya, ang NVIDIA ang nanguna sa pagbuo ng isang barrier sa mundo gamit ang Cosmos, na may modelo na tinuturuan ng higit sa 20 milyong oras ng totoong data at mahirap makuha nang mabilis, habang ang Agi完成 ng 10,000 mga robot sa mass production deployment, na nangangahulugan na mayroon ito ng tunay, feedback-driven na kakayahan sa pagkuha ng data, na itinuturing ng malawak sa industriya bilang isang data moat.
Dapat na tandaan na ang data na kailangan para sa kompetisyon ng physical AI ay hindi lamang tungkol sa kung sino ang may pinakamalaking dami, kundi kailangan ng koordinasyon sa pagitan ng synthesized at totoong data.
Ang pagtitiwala lamang sa totoong data ay nagdudulot ng mga problema sa sukat at gastos sa pagkasira ng kagamitan, habang ang sobrang pagtitiwala sa sintetikong data ay may pagkakabagay sa pagitan ng simulasyon at katotohanan (sim2real). Ang solusyon ng “cross-data-source learning” ng Beijing Humanoid Robot Innovation Center ay isang produkto ng ideyang ito, na nagpapahintulot sa mga robot na gamitin ang malaking dami ng mga video ng tao para sa pagtuturo, na nagpapababa nang malaki sa gastos sa pagtuturo at nagpapataas ng efisyensiya nito.
Nakakaintindi na natin iyan; ang makakapagtapos ng buong loop na “pagsasanay gamit ang sintetikong data – finetune gamit ang totoong data – feedback mula sa tunay na sitwasyon” ay magkakaroon ng pinakamataas na posisyon sa paligsahan.
Pagkatapos malutas ang mga problema sa data, kung paano epektibong i-fuse ang physical AI at virtual AI ang naging susi para sa mas malalim na pag-unlad ng physical AI.
Sa kasalukuyan, kapag tinatalakay natin ang physical AI, isang direksyon na madalas na nalilimutan ay ang katotohanang ang physical AI at virtual AI ay hindi magkakaalit. Mula sa pananaw ng teknikal na arkitektura, ang isang buong physical AI system ay maaaring hatiin sa tatlong antas: ang pinakamababang antas ay ang sensory layer (sensor, visual recognition), ang gitnang antas ay ang cognitive decision layer (AI inference), at ang pinakakataas na antas ay ang action execution layer (mechanical control).
Ang virtual AI ay pangunahing nagtatrabaho sa intermediate layer, habang ang physical AI ay kailangang magbuo ng buong chain mula sa pagpapansin hanggang sa pagpapatupad.
Ang buong solusyon ni NVIDIA na “chip + model + tool” ay isang pagpapakita ng ideyang ito: ang Jetson Thor edge computing platform ay nagbibigay ng computing power, ang GR00T model ay nagbibigay ng inteligensya, at ang Isaac platform ay nagbibigay ng development toolchain. Tutugma sa solusyong ito, ang mga magiging tagapagtagumpay sa hinaharap ay ang mga makakapagpapalalim ng integrasyon ng software at hardware, hindi lamang upang matapos ang loop mula sa “utak” hanggang sa “mga kamay” ng physical AI, kundi upang mabuo ang kanilang sariling teknikal na parapet.
Ang huling punto ay ang komersyalisasyon ng physical AI; tatlong taon na ang nakalipas, ang imahinasyon ng kapital sa sector ng robotics ay batay sa “teknilikal na pangarap,” ngayon, mayroon na ang mga merkado ng kapital ng mas praktikal na pamantayan sa pagtataya: ang kakayahang magbigay.
Ayon sa mga media, ang kabuuang pagsasalapi sa larangan ng embodied AI sa China noong 2025 ay 73.5 bilyong yuan sa 744 mga transaksyon sa pagsasalapi, at mula noong 2026, dagdag pa ng higit sa 37 bilyong yuan, na nagdulot ng kabuuang pagbaba ng higit sa 110 bilyong yuan, ngunit sa ilalim ng ganda na ito, may nakikita nang malinaw na struktural pagbabago sa direksyon ng kapital.
Sa Mayo 2026, natapos ng Tianji Intelligence ang B-round na pagsasapalaran ng 1 bilyong yuan, na may pangunahing pagsisikap na ang mga order na nasa kamay sa Q1 ay lampaas ang 10,000 unit, na nakakapag-abot sa 45 mga kumpanya ng robot.
Kasabay ng pagkuha ng milyon-milyong yuan sa A-round funding, inilathala rin nila ang pagkuha ng mga order na halos milyon-milyong yuan sa abroad.
Sa pagpapautang ni Vitas Power at Lu Ming Robotics, sumali ang mga investor mula sa industriya tulad ng SAIC Shangqi Capital at Mitsubishi Electric, na layunin ay i-bind ang kapasidad ng produksyon at ang kakayahan sa pagpapadala ng robot.
Sa kabilang panig, ang amerikanong startup sa humanoid robot na Cartwheel Robotics, na may teknikal na pangarap ngunit walang mga order na sumusuporta, ay nag-anunsyo ng pagkabigo noong Marso 2026.
Ipapakita ng mga positibo at negatibong kaso na hindi na binabayaran ng kapital ang mga galing na demo, kundi ang tunay na kakayahan sa paggawa at pagpapadala sa malaking saklaw.
04 Wakas
Ang biglang pagtaas ng popularty ng physical AI ay tila biglaan, ngunit ito ay natural na pag-unlad.
Kasama rin ang ilang mga eksperto sa industriya na ang “Physical AI” ay mas maraming pagsasalaysay ng bagong konsepto na nilikha ng merkado ng kapital, at ang本质 ay patuloy na pag-unlad ng embodied intelligence at robotics technology, ngunit hindi maikakaila na ang paglago ng Physical AI ay malinaw na nagtuturo na ang industriya ng AI ay naglalakbay mula sa “virtual intelligence” patungo sa “physical execution,” at ito ay isang hindi maiiwasang proseso sa kasaysayan.
Sa pinakabagong round ng kompetisyon, ipinakita ng Figure AI ang kanilang lakas sa pamamagitan ng live streaming, binuo ng Agi Robotics ang mga hadlang sa industriya sa pamamagitan ng mass production at delivery, at ginawa ng NVIDIA ang platform ecosystem gamit ang Cosmos at GR00T... Ngayon, ang tanong ay: Sino sa mga kompanyang ito ang magiging ang OpenAI sa physical AI? Alin sa mga application scenarios ang unang makakaranas ng “ChatGPT moment”?
