Mula sa Code hanggang sa Kognisyon: Isang Malalim na Pagsusuri sa Pag-unlad ng mga Utak ng Robot

May-akda: Matt White, Global AI Chief Technology Officer ng Linux Foundation

Isinalin ni Felix, PANews

Humanoid robot

Wang Xingxing (CEO ng Unitree Technologies) at Matt White

Mga ilang linggo na ang nakalipas habang nasa Shanghai, isang kasamang naglalakbay (isang matalino, karaniwang nagbabasa ng balita at nagmamasid ng mga bagay, ngunit hindi gaanong kilala sa robotika) ay nagtanong sa hapunan sa isang tanong na inaasahan ko sa buong paglalakbay.

Ang mga robot dog na tumatakbo saan-saan, ang humanoid robot na nagpapakita ng martial arts sa demonstration stage ng Unitree, at ang robotic arm na nagpapakita ng pagpaputol ng damit. Paano nila ito ginagawa? Ginagamit ba nila ang large language models (LLM)? Paano ba talaga ito gumagana? Mayroon ba kaming language model na nagpapatakbo sa kanilang mga galaw?

Ito ay isang magandang tanong, at patotoo: sa ilang paraan, oo, ngunit ang totoong kuwento ay mas kakaibang kaysa sa iyon. Ang mga robot na nakikita mo sa social media ay hindi mga ChatGPT na may metal shell. Sila ay gumagana sa isang tech stack (maraming antas ng AI na nagtatrabaho nang sama-sama). Ang tech stack na ito ay nagbago nang higit pa sa loob ng tatlong taon kaysa sa nakaraang tatlong dekada. Ang mga language model ay bahagi nito. Ang mga visual model, action models, behavior trees, classic control loops, at isang bagong klase ng sistema na tinatawag na “world models” ay mahahalagang bahagi rin nito. At ang “world models” ay maaaring ang pinakamahalagang pag-unlad sa lahat.

Ito ay isang mahabang artikulo na magsisimula sa simula, at susundan ang bawat malaking pagbabago hanggang sa kasalukuyang yugto: ang mga robot ay hindi lamang nakakasagot sa mundo, kundi nakakaimaginasyon din ng mundo.

Una: Panahon bago ang LLM: Kapag ang mga robot ay kung saan ay simpleng software lang

Sa loob ng maraming dekada, ang paggawa ng mga robot ay nangangahulugan ng pagsusulat ng malaking dami ng code, at halos lahat ng code na ito ay hindi kailangang matutunan.

Ang klasikong industriyal na robot ay isang塔状结构 na binubuo ng mga maingat na disenyo na module. Halimbawa, ang orange na robotic arm na nag-weld ng mga底盘 ng Toyota noong mga 90s, o ang BigDog ng Boston Dynamics noong mga unang taon ng 2000s.

Pagsusuri: Filtruhin ang larawan ng kamera, gawin ang edge detection, at gamitin ang geometric matching upang makakilala ng posisyon ng mga bahagi.
Estimasyon ng estado: Pagsasama-sama ng wheel encoders, gyroscope, at accelerometer (sensor fusion) upang matukoy ang posisyon at bilis ng paggalaw ng robot.
Plano: Gamitin ang mga algoritmo tulad ng A* o RRT upang kalkulahin ang isang walang kolisyon na daan sa isang kilalang mapa, batay sa layuning posisyon.
Kontrol: Sa pinakamababang antas, ang PID controller ay nag-aadjust ng torque ng motor ng mga sandali hanggang libo-libo beses bawat segundo upang sundin ang path na ito.

Karaniwang isinulat ng iba’t ibang tao sa iba’t ibang laboratorio at pinagsama nang lubos na detalyado. Ang mga pagkilos (tulad ng “Kung ang baso ay pula, kunin ito; kung hindi, maghintay”) ay isinasaayos bilang state machine o behavior tree: mga flowchart na sinusunod ng robot step by step.

Humanoid robot

Ang mga benepisyo ng paraan na ito ay malinaw. Ito ay may pagkakatotoo at sumusunod sa mga pamantayan sa kaligtasan. Ito ang dahilan kung bakit ang iyong sasakyan ay may epektibong ABS braking system.

Ang mga kahinaan ay magkakaroon din ng malinaw. Ang ganitong robot ay maaaring magamit nang maayos lamang sa mga sitwasyon na inihanda ng mga inhinyero. Kapag isasama ito sa bagong pabrika, bagong kondisyon ng ilaw, o bagong kulay ng baso, ito ay mabubulok. Ang kanyang kakayahang pangkalahatan ay halos zero.

Pangalawa: Ang machine learning ay nagsisimula nang mapasok

Sa mga dekada ng 2010, ang deep learning ay nagsimulang lumutas ng mga problema sa antas ng perception. Ang mga convolutional neural networks (CNN) na nakalaban sa mga tao sa ImageNet image classification task, ay maaaring muling itrain para sa pagdetect ng mga point ng paghawak sa mga bagay, pagse-segment ng mga kagamitan sa loob ng silid, o pagkilala sa postura ng tao. Bigla na lang, ang “perception” layer na nasa itaas ng teknikal na stack ay hindi na kailangang disenyo ng tao—maaari mo na itong direkta training.

Pagkatapos, ang mekanismo ng pagkatuto ay umabot sa antas ng “kontrol.” Ipakita ng mga siyentipiko mula sa Berkeley, DeepMind, at OpenAI na ang reinforcement learning (na nagpapahintulot sa mga robot agent na subukan ang milyon-milyon beses sa isang simulated na kapaligiran at pagsanayin ang epektibong pagkilos) ay maaaring magdulot ng nakakagulat na kasanayan sa paglalakad, paghawak ng mga bagay sa kamay (ang paglutas ng Rubik’s Cube gamit ang isang kamay ni OpenAI noong 2019 ay isang mahalagang milestone), at mga estratehiya sa paggalaw na nakakatugon sa iba’t ibang uri ng terreno.

Ang isang paralel na direksyon sa pag-aaral ay ang pagkatuto sa pamamagitan ng pagkopya, karaniwang kilala bilang behavior cloning: ang pag-record ng mga higit sa isang daan na pagsubok ng tao na remote-control ang robot upang matapos ang isang gawain, at pagkatapos ay pag-train ng neural network upang makapaghula kung ano ang aksyon na gagawin ng tao batay sa mga nakikita ng robot.

Ang susi sa lahat ng ito ay: bawat natutunang estratehiya ay sobrang limitado. Kapag tinuruan ang isang network na hawakan ang isang pula na bloke, hindi ito alam kung paano gamitin ang isang dilaw na baso. Kapag tinuruan itong maglakad sa damo, mababagsak ito sa lamesa. Ang kakayahang mag-pagpapalawak ay patuloy na isang malaking hamon.

Mahalagang banggitin na noong panahong iyon, lumitaw ang isang infrastruktura na patuloy na sumusuporta sa halos lahat: ROS o Robot Operating System (una pong ipinakilala noong Nobyembre 2007). Ang ROS ay hindi isang operating system tulad ng Windows o Linux, kundi isang middleware framework, isang pangkalahatang sistema ng pipeline para sa mga robot. Ito ay nagpapahintulot sa mga “camera node,” “navigation node,” “manipulator controller node,” at iba pang dozens ng node na mag-publish at mag-subscribe sa mga mensahe sa pamamagitan ng isang shared bus.

Ang kasalukuyang bersyon ng ROS2 ay tumatakbo sa ilalim ng karamihan sa mga siyentipiko at komersyal na robot sa buong mundo, mula sa mga laboratorio ng Stanford University hanggang sa mga bagong kumpanya ng humanoid robot sa China, walang exception. Kapag binabanggit ng mga tao ang “operating system” ng robot, halos laging tinutukoy nito ang ROS2 kasama ang iba’t ibang package ng pagkakita, pagpaplano, at pagkontrol na tumatakbo dito.

Humanoid robot

ROS2: Hindi ito isang operating system, kundi isang pangkalahatang pipe na nagpapahintulot sa mga independiyenteng robot software na magkomunikasyon sa isa't isa

Tatlo: Ang paggamit ng LLM sa larangan ng robotics

Sumunod, ipinanganak ang ChatGPT.

Biglang mayroong ganitong bagay: LLM. Nakakabasa ito ng simpleng Ingles na utos, nagagawa ang marami-hakbang na pag-iisip, sumusulat ng code at tumatawag ng mga function. Agad na naintindihan ng mga eksperto sa robotika na ito ang nawawalang kahong kanilang pinagsisikapang lutasin sa loob ng maraming taon. Ang pinakamahirap na bahagi ng paggawa ng mga robot na makagawa ng mga kapaki-pakinabang na gawain sa bahay o opisina ay hindi karaniwan ang pagkontrol ng motor, kundi ang interaksyon sa tao at robot: paano ipapaliwanag ng tao sa robot kung ano ang dapat gawin, at paano i-decompose ng robot ang layuning ito sa mga atomikong aksyon na alam nito nang maayos na gawin?

Ang unang paggamit ng LLM sa mga robot ay ang pagtingin sa mga language model bilang isang natural language compiler na nasa itaas ng ROS. Ang pattern ay sumusunod:

Dalain ang kape sa ibabaw ng kusina at ilagay sa aking mesa.
Nilikha ng LLM ang plano batay sa listahan ng mga atomikong kasanayan na available para sa robot: maaaring isang serye ng function calls, state machine, o behavior tree na isulat sa XML.
Ang mga node ng ROS2 ay magpapatupad ng plano nang paunti-unti. Kung mabigo ang isang hakbang, ang impormasyon sa pagkabigo ay ipapasa sa LLM upang mabago muli ng LLM ang plano.

Ang SayCan project ng Google noong 2022 ay isang napakalaking bersyon ng ideyang ito: ang LLM ang nagpapahayag ng mga kasanayan, isang hiwalay na “affordance” model ang nagtataya sa posibilidad ng tagumpay ng bawat kasanayan sa kasalukuyan, at pinipili ng robot ang pinakamataas na kombinasyon ng joint score. Ang mga bukas na framework tulad ng ROS-LLM, ROSGPT, at ROSA na pinamumunuan ng Huawei Research Lab ay nagpapalaganap sa modelo na ito.

Totoo namang malaking hakbang ito. Bigla na lang, maaari mong sabihin sa robot na “linisin ang mesa at ilagay ang mga recycle sa blue bin,” at sasagot ito ng ilang makatwirang aksyon. Ngunit tandaan, mayroon pa ring ilang problema: ang wika ay nasa antas ng pagpaplano pa rin. Ang mga tiyak na utos ng aksyon ay patuloy na ginagawa ng mga controller na mabuting disenyo o espesyal na tinuturuan. Ang language model ay isang matalinong scheduler lamang, at hindi ito responsable sa paggalaw.

Humanoid robot

Apat: Visual-Language-Action Model (VLA), kapag ang utak ay nagsisimula nang magdrive ng robot

Humanoid robot

Ang Keenon XMAN-R1 robot ay kumukuha ng gamot mula sa mga shelf sa automated pharmacy ng Galbot Company sa Beijing. Basta $100,000 lang.

Ang susunod na paglalakbay ay mas mahirap, ngunit mas mahalaga. Ang mga siyentipiko ay nagtataguyod ng isang mas ambisyosong tanong: Kung ang modelo ay hindi lang nakakapaghahanda, kundi direktang nakakagawa ng mga utos ng aksyon? Kung ang mga imahe ng camera at mga utos sa wika ay direktang ipinapasa sa isang neural network, at maaari mong makakuha ng mga galaw ng joint sa susunod na milisecond?

Ito ang visual-language-action model (VLA). Ito ay kasalukuyang pangunahing paraan sa larangan ng humanoid at quadruped robots.

Ang unang kilalang visual-language robot ay ang RT-2 na inilabas ng Google DeepMind noong 2023. Ang kanyang talino ay nasa paggamit ng isang malaking visual-language model (na naitraining na para sa paglalarawan ng imahe at pag-sagot sa mga tanong) at pagpapatuloy sa pagtuturo nito gamit ang data ng robot demonstration, ngunit pinapakita ang mga galaw ng robot bilang isa pang uri ng token na dapat ipredict. Ang parehong neural network na dati ay maaaring maglabas ng “ang pusa ay nakaupo sa mat” ayayari ngayon na maglabas ng isang serye ng mga token na kumokod ng “ililipat ang kanang paa 3 sentimetro pababa, isara ang paa, at itaas 5 sentimetro.” Ang pag-iisip at pagkilos ay ginagawa sa parehong model.

Pagkatapos, sa gitna ng 2024, isang koponan na pinamumunuan ng Stanford University ang naglabas ng OpenVLA, isang bukas na pinagkukunan na VLA model na may 7 bilyong parameter na tinuturuan gamit ang Open X-Embodiment dataset. Ang dataset na ito ay naglalaman ng higit sa isang milyong training fragments mula sa 21 iba’t ibang research lab at sumasaklaw sa 22 iba’t ibang robot body. Ito ang unang pagkakataon na ang mga tao sa labas ng Google ay maaaring i-download ang isang pangkalahatang robot model at magsimula sa pagbabago nito. Nagbago nito ang buong larangan sa isang gabi.

Kasalukuyan, ang mga pinakamalaking VLA, bagaman maraming maliit, ay mabilis na umuunlad:

Ang π0 at π0.5 mula sa Physical Intelligence: Kapalas na pag-adapt sa mga gawain.
NVIDIA Isaac GR00T N1.7: Buksang weights, komersyal na lisensya, disenyo para sa humanoid robot, at ang modelo na ginagamit ng karamihan sa mga Chinese hardware company kasalukuyan para sa post-training gamit ang kanilang sariling data.
Ang Helix at ang updated na Helix-02 ng Figure AI: proprietary technology, ngunit mahalaga sa arkitektura.
AgiBot's Genie Envisioner: Platform batay sa Chinese World Model.
SmolVLA, NORA, ACoT-VLA, CogACT: Dumarami ang mga VLA mula sa akademya na nag-aaral ng iba’t ibang direksyon ng disenyo.

Paano gumagana ang VLA (walang matematikal na pormula)

Maaaring isipin ang VLA bilang pagpapagsama ng tatlong input signal sa isang output signal.

Ang unang data stream ay ang visual data. Ang RGB camera (minsan ay depth sensor o lidar), minsan ay ang tactile sensor sa mga dila, ay proseso ng visual encoder (karaniwan ay isang Transformer model tulad ng DINOv2 o SigLIP), na kumokompres sa bawat imahe sa mga sandaling “visual token” na naglalaman ng mga detalye ng nakikita ng robot.

Ang pangalawang stream ng data ay ang wika. Ang iyong utos (“Ibigay sa akin ang screwdriver”) ay binabago sa mga token tulad ng sa ChatGPT.

Nakakonekta ang dalawang data stream at ipinapasa sa isang Transformer “backbone” (karaniwan ay isang maliit na open-source language model tulad ng Qwen3 o Llama). Ang backbone na ito ang nagtataglay ng pag-iisip, pinagsasama ang impormasyong nakikita nito sa impormasyong tinatanong sa kanya.

Ikatlong stream ng data: Aksyon, mula sa kabilang dulo. Dito nagkakaroon ng pagkakaiba-iba ang iba’t ibang disenyo ng arkitektura:

Discrete action tokens: Ang modelo ay direktang nagpapagawa ng mga token na maaaring i-decode bilang mga anggulo ng joint o posisyon ng end effector, tulad ng paggawa ng mga salita ng ChatGPT. Ang paraang ito ay simpleng ngunit nagdudulot ng paghinto sa mataas na frekwensiya.
Flow-matching action head: Isang independiyenteng maliit na network na tumatanggap ng output ng backbone at nag-aalis ng ingay upang lumikha ng isang malambot na trahektorya ng posisyon ng joint, tulad ng mga image diffusion model, ngunit nagpapalabas ng galaw. Ito ang ginagawa ni π0, na nagbibigay ng mas malambot at mas natural na mga aksyon.
Action chunking: Hindi hinuhulaan ang susunod na isang komando, kundi hinuhulaan ang buong set ng mga komando para sa susunod na kalahating segundo upang palakasin ang paggalaw.

Humanoid robot

Sa VLA model: dalawang input stream ang ipinapasa, output ang motion command, at pinagsasama ang inference at action sa isang network.

Ito ang mahalagang pagbabago sa arkitektura: ang pag-iisip at pagkilos ay hindi na hihiwalay. Pinagtuturo sa neural network kung paano kilalanin ang baso, at kung paano ito hawakan. Ito ang pagkakasama na nagpapahintulot sa VLA na magkaroon ng pagpapalawak, habang ang kanilang mga naunang bersyon ay hindi kayang gawin.

Limba: Paano nagco-cooperate ang LLM at VLA sa Double Brain Strategy

May isang detalye na madalas na hindi ipinapaliwanag sa mga kampanya. Ang pinakamahusay na performance na humanoid robot ngayon ay hindi nagpapatakbo ng isang solong VLA system, kundi dalawang model na may iba’t ibang bilis na nagkakomunikasyon sa isa’t isa. Ang ganitong sistema ay minsan ay tinatawag na dual-system o system 1/system 2 architecture, na nakuha mula sa psychological framework ni Daniel Kahneman na nagsasabing ang tao ay may mabilis na intuisyong utak at isang mabagal na masusing pag-iisip na utak.

Ang Helix ni Figure AI ang nagjadwal sa ganitong disenyo, at ngayon, ito (at mga variant nito) ay halos lahat ay pinagsasamaan. Lalo na mahalaga na ang NVIDIA's GR00T N1.7 ay gumamit ng ganitong disenyo, at karamihan sa mga tao na robot sa China ay gumagamit din nito. Ang istruktura nito ay sumusunod:

Sistema 2 (S2): Mabagal na pag-iisip na utak. Isang visual-language model na may 7 bilyong parameter na tumatakbo sa isang frequency na humigit-kumulang 7–9 Hz (o 7 hanggang 9 beses bawat segundo). Ang tungkulin nito ay obserbahan ang mga pananaw, i-parse ang mga utos, gawin ang maramihang pag-iisip (tulad ng, “Ang baso ay nasa likod ng kahon ng cereal; kailangan kong unang alisin ang kahon”), at maglabas ng mataas na antas na intensyon—karaniwan ay isang set ng kompakto na mga internal vector, hindi ang sariling mga salita.
Sistema 1 (S1): Mabilis na reaksyon na utak. Isang mas maliit na modelo ng visual-motor na estratehiya (tungkol sa 80 milyong parameter) na tumatakbo sa 200 Hz. Nakakatanggap ito ng vector ng intensyon mula sa S2 kasama ang pinakabagong sensor data, at naglalabas ng tuloy-tuloy na mga utos sa mga sasakyan. Walang anumang tunay na “pag-iisip” ito—tanging tumutugon lamang.

Kasalukuyang idinagdag ng Figure Corporation ang System 0 sa Helix-02. Nakakasalungat sa ilalim ng dual-brain system, ito ay isang reflex layer, hindi isang third cognitive layer. Ito ay isang network na may 10 milyong parameter at tumatakbo sa 1 kHz na frequency, na responsable sa pagtratuhong pang-ilalim at pagkakasundo ng buong katawan, na nagpapalit sa higit sa 100,000 linya ng manual na isulat na C++ code para sa motion control. Maaari mong isipin ang S0 bilang isang natututong spinal cord: hindi ito nagpapasya o nagpaplano, kundi nagtataguyod lamang ng pagtayo at pagkakasundo ng katawan, habang ang pag-iisip ay ginagawa ng itaas na dual-brain system.

Humanoid robot

Ang dual-brain architecture ng modernong humanoid robot: ang System 2 ay nag-iisip nang mabagal, ang System 1 ay tumutugon nang mabilis—mayroon pa ring reflex layer na System 0 sa ilalim nito para sa pagpapanatili ng balanse, pagkakontak ng touch, at koordinasyon ng buong katawan

Ang pagkakahati na ito ay nagmumula sa mga limitasyon sa pisika. Kung ang isang utos ng galaw ay ipapalabas lamang tuwing 200 miliyong segundo (ang bilis ng isang malaking VLA), ang galaw ng robot ay magiging mabagal tulad ng paggalaw sa ilalim ng tubig. Dapat mas mabilis ang pag-update ng mga utos ng galaw kaysa sa likas na osilasyon ng mga juntang itinutugon nito, na nangangahulugan na kailangan ng mga hundreds o libo-libong update bawat segundo. Walang anumang Transformer model na may 7 bilyong parameter ang makakapagpapatakbo nang ganitong bilis sa isang robot na nagpapagana sa battery.

Kaya, ang mga gawain sa pag-iisip ay hinati: ang malaki at mabagal na modelo ang nagtatrabaho sa pag-iisip; ang maliit at mabilis na modelo ang nagtatrabaho sa pagkilos. Hindi sila nag-uusap sa wikang Ingles, kundi sa pamamagitan ng mga natutunang latent vector: ang mabagal na modelo ang naglalabas ng abstraktong layunin, habang ang mabilis na modelo ay alam kung paano i-interpret ito.

Anim: Ang isyu ng pagpapalagay ng cloud, edge computing, at "utak"

Saan ba talaga ginagawa ang lahat ng mga kalkulasyong ito?

Ngayon, may malakas na, halos ideolohikal na pagkakasundo sa pagitan ng mga team ng robot na ang mga core control loop na may kinalaman sa kaligtasan ay dapat tumatakbo sa lokal. May dalawang dahilan:

Delays. Ang round-trip transmission time ng WiFi o cellular network ay mayroong minimum na 30-80 milliseconds. Ang mga command para sa action ay kailangang i-update bawat 1-5 milliseconds. Hindi makakapagtrabaho nang maayos ang network cycle na ito.

Kakayahan. Ang mga robot ay gumagana sa mga pabrika, warehouse, kusina, ospital, at iba pang lugar. Maaaring mawala ang koneksyon sa network anumang oras. Kung sasabog ang robot kapag nawala ang Wi-Fi, ito ay magiging isang panganib sa kaligtasan.

Kaya, ang modernong paghahati-hati ay malapit na sumusunod:

On-device (local), running on devices such as the NVIDIA Jetson Thor or AGX Thor module (approximately 2,000 TFLOPS, 128 GB memory, 40–130 W power consumption):

Lahat ng mga tampok ng S0/S1: balans, paggalaw, pagkontrol sa mga maliit na galaw.
Ang VLA mismo (system 2) ay mas maraming beses na quantized sa mga format na FP8 o FP4 upang makatugon sa mga limitasyon ng hardware. Ngayon, ang mga modelo sa saklaw ng 2 bilyon hanggang 7 bilyon na parameter ay maaari nang tumakbo sa device.
Pagsasalaysay, pagpapagana ng mga sensor, at ligtas na programa sa pagmamanman na maaaring sakop ang anumang iba pang operasyon.

Cloud o remote server (kung mayroon):

Interactive interface ("Hey, bot, what should I make for dinner?"): These interfaces can tolerate delays.
Cluster learning: Mga libo-libo ng robot ang nagpapadala ng remote operation data pabalik sa server para i-summarize sa susunod na bersyon ng model.
Kailangan ng malawakang pangmatagalang pagpaplano, maaaring gamitin ang mga modelo sa advanced na iskala.
Operator dashboard and monitoring.

Dagdag pa, mayroon ding patuloy na lumalaking intermediate layer: mga lokal na edge server sa loob ng mga pabrika o warehouse na nakakonekta sa mga cluster ng robot sa pamamagitan ng lokal na network, na may latency na nasa porsyento ng mga millisecond lamang. Ang mas malalaking LLM ay maaaring i-deploy sa antas na ito upang magpapatupad ng mga mataas na antas ng pagpaplano na hindi kailangang pamahalaan ng bawat robot.

Ang alon ng mga robot na may anyo ng tao sa Tsina ay binuksan batay sa ipinapalagay na ito: Unitree, AgiBot, Xpeng IRON, Fourier, at EngineAI. Ang mga robot nila ay may on-board computing capability (karaniwang Jetson, minsan ay ginagamit ang mga lokal na chip tulad ng Huawei Ascend), habang ang cloud ay ginagamit para sa cluster learning at dialog interface, hindi para sa control loop.

Humanoid robot

Ang lugar kung saan tumutupad ang robot brain: ang mga seguridad-kritikal na loop ay tumutupad sa lokal, habang ang cloud ay ginagamit para sa pagproseso ng mga bagay na maaasahan.

Pito: Bakit naging sentro ang mga open-source model

Kung susundin mo lang ang demo, maaaring isipin mong pinamumunuan ng ilang maliit na mga kompanya sa Amerika na may malaking pondo ang larangan na ito. Ngunit ang katotohanan ay mas kumplikado kaysa sa iyon. Ang bilis ng pag-unlad ng physical AI ay malaki nang natutukoy ng mga open-source weight model na maaaring i-download at i-adjust ng sinuman.

Ang mga modelo na listahan dito ay hindi marami, ngunit mahalaga:

OpenVLA (Stanford University): Ang unang open-source na 7B na pangkalahatang robot model.
NVIDIA Isaac GR00T (N1, N1.5, N1.7): Malalabas ang mga open-source weight, at darating na rin ang commercial license; binuo ang model na ito gamit ang mga libo-libong oras ng human-centric video. Ang GR00T N1.7 ay ipapalabas noong Marso 2026, kung saan ang anumang user na may humanoid robot ay maaaring magamit nang libre ang dual-system architecture nito.
Ang π0 ng Physical Intelligence: I-publish ang mga timbang para sa pag-aaral.
NVIDIA Cosmos: Open-World Foundation Model.
AgiBot World: Malaking open-source dataset mula sa isang startup sa Shanghai na naglalaman ng demo ng remote-controlled humanoid robot.
LeRobot ng Hugging Face: isang bukas na library na naging pagsasama-sama ng lahat ng mga platform na ito.
Ang mimic-video ng Mimic robotics: isang open-source na video-to-action model na may sample efficiency na 10 beses mas mataas kaysa sa tradisyonal na VLA.

Mahalaga ito dahil sa dalawang dahilan. Una, hindi na kailangan ng mga startup sa robotics na mag-spender ng milyon-milyon dolyar para sa pre-training ng isang base model: maaari nilang gamitin ang GR00T o π0, at pagkatapos ay i-post-train gamit ang kanilang sariling data ng robot. Tama ang gawin nina Unitree, ZhiJi Dynamics, Booster, Galbot, at higit sa dekada na mga mas maliit na Chinese company. Ito ang dahilan kung bakit isang kumpanya na may ilang daan lang na empleyado ay kayang lumikha ng humanoid robot na makakalakad, makakasalita, at makakapagpapalipat ng damit: sila ay nakaupo sa balikat ng open-source tech stack.

Sa pangalawa, ang open-source models ay ang tanging realistiko paraan upang lutasin ang mga isyu sa kaligtasan. Kung isang ganap na closed-source model ang tumatakbo sa loob ng isang robot sa isang pabrika, at walang kakayahan ang labas na mundo na maunawaan ang kanyang logic ng inference, ito ay isang talagang nightmare sa regulasyon. Ang open models ay nagpapahintulot sa mga auditor, mga mananaliksik, at mga operator na talagang suriin kung ano ang talagang tinuruan sa robot.

Walo: Ano pa ang iba pang mga isyu na hindi pa nalulutas

Kung nakakita ka ng sapat na maraming video ng demo ng robot, siguradong nakakita ka rin ng maraming video ng pagkabigo ng robot. Ang kasalukuyan na henerasyon ng LLM+VLA robot ay talagang nakakapanatik, ngunit may malinaw na mga limitasyon. Narito ang mga problema nito:

Nagpapatuloy ang gawain sa gitna. Mas malakas ang kakayahan ng VLA na harapin ang hindi inaasahang pagbabago kaysa sa anumang dating teknolohiya. Ngunit kapag talagang nagkakaroon ng problema (tulad ng maling pagkuha, pag-rol ng bagay, o pagpasok ng isang tao sa workspace), ang pagbabalik sa tamang daan ay nananatiling kahinaan. Ang robot ay paulit-ulit na gagawin ang maling galaw.
Sample efficiency. Ang pag-train ng isang VLA mula sa zero ay nangangailangan ng libu-libong oras ng remote operation data. Samantala, ang tao ay nakakamogar mag-operate ng isang bagong kasangkapan sa ilang minuto. Ang pagkakaiba sa efficiency ay malaki.
Generalization sa iba’t ibang entidad. Ang modelo na tinuruan sa Stanford Laboratory gamit ang Franka robotic arm ay hindi maaaring ma-transfer nang perpekto sa humanoid robot ng Yutu sa isang warehouse sa Shenzhen. Magkaiba ang kanilang pisikal na anyo.
Mahabang gawain. Ang anumang gawain na nangangailangan ng higit sa 30-60 segundo ng magkakasunod na pagkilos at naglalaman ng maraming sub-target ay madaling mawala sa layunin. Ang gawain tulad ng “Gawin mo ang almusal ko” ay laging hindi makakamit.
Pangkalahatang kaalaman sa pisika. Tinuturuan ang VLA sa pamamagitan ng pagpapakita, hindi sa pag-unawa. Hindi ito talagang nauunawaan ang prinsipyo kung bakit lumalabas ang tubig kapag sinira ang isang baso. Tanging nakakita lamang ito ng ilang halimbawa at gumagamit ng pattern matching upang makapaghula kung ano ang susunod na mangyayari.
Kakayahan sa spatial reasoning. Kahit na multimodal sila, mahina sila sa mga gawain tulad ng “iwasan ang mga hadlang sa halip na pasukin” o “ipagkumpuni ang mga bagay na ito nang hindi malalagay.”

Ang huling serye ng mga kahinaan ay nagtulak sa larangan na magtaya sa isang lubos na iba’t ibang modelo.

Siyam: Pandaigdigang Model

Imahinahin mo: Ano ang mangyayari kung hindi mo itinuturo ang robot kung paano makapag-predict ng mga galaw, kundi itinuturo mo ito kung paano makapag-predict ng mga epekto ng mga galaw?

Ang World Model ay isang neural network na nagpapahula kung paano magiging ang mundo sa susunod, batay sa kasalukuyang estado ng mundo (karaniwan ay isang video o isang serye ng mga frame) at mga nakaplanong aksyon. Sa simpleng salita, isipin mo ito bilang isang matututong video predictor na may steering wheel. Ibinibigay mo sa ito ang huling segundo ng footage mula sa camera at sinasabi mo, "Ihaharap ng robot ang kanyang braso nang 10 sentimetro," at ito ay makakagawa ng isang realistiko na video na nagpapahula sa susunod na segundo.

Bakit ito mahalaga?

Dahil sa pagkakaroon ng world model, makakapag-isip ang robot bago gumawa ng aksyon. Maaari itong mag-isip ng tatlo o apat na iba’t ibang posibleng aksyon, maaasahan ang bawat resulta, magbigay ng puntos, at piliin ang pinakamahusay na solusyon. Lahat ng ito ay natatapos bago maganap ang anumang motor movement. Ito ang paraan kung paano gumagana ang chess engine: hindi ito nagmememorya ng mga hakbang, kundi nagmomodelo ng hinaharap. Kahit kailan ay hindi pa nagkaroon ng ganitong kakayahan sa larangan ng pisikal na robot, dahil wala pang sapat na tumpak na model na makakapag-simula sa kumplikadong totoo mundo.

Humanoid robot

Ang mga world model ay nagpapahintulot sa mga robot na simulan ang iba’t ibang posibleng skenaryo, iscore ito, at piliin ang pinakamahusay na solusyon bago magsimula ang anumang motor.

Ano ang tila ang mundo noong 2026?

Marami ang mga pinakamoderno na world models ngayon, ngunit mabilis ang pag-unlad. Narito ang ilang mga model:

NVIDIA Cosmos: isang serye ng open-world base models, kabilang ang Cosmos Predict 2.5 (generative model), Cosmos Transfer 2.5 (controllable simulation model), Cosmos Reason 2 (visual-language reasoner para sa robot), at ang pinakabagong Cosmos Policy. Ang Cosmos Policy ay lumalabas pa sa pagpapalawak, kung saan ito ay direktang naglalabas ng mga aksyon para sa kontrol sa pamamagitan ng post-training sa world model. Ang Cosmos ay tinuruan gamit ang mga libo-libo na GPU-hours ng video data (ang Cosmos Predict 2.5 ay ang world model sa serye).
DeepMind Genie 3: isang interaktibong modelo ng mundo na nakakagawa ng buong nababagal na mga kapaligiran batay sa mga text prompt, na may 24 frames per second at nakakapagpatuloy nang matatag sa loob ng ilang minuto. Unang disenyo para sa mga game environment.
Meta V-JEPA 2: Ginamit ang higit sa isang milyon na oras ng mga video mula sa web para sa pre-training, at pagkatapos ay ginamit ang 62 na oras ng robot video para sa action-conditioned training. Sa mga totoong robot arm sa iba’t ibang laboratorio, naitagpuan ang 80% na zero-shot pick-and-place success rate nang walang anumang task-specific training. Ang paraan na “JEPA” ay iba sa arkitektura nito mula sa iba pang mga paraan.
DeepMind Dreamer 4: Natutunan na kumuha ng diamond sa Minecraft (isang 20,000-step na gawain) gamit lamang ang offline data, nang walang anumang interaksyon sa environment. Ito ay nagpapatotoo na ang totoong reinforcement learning sa virtual na mundo ay posible.
AgiBot's Genie Envisioner: Isang pinagsamang mundo ng modelo mula sa Tsina, na tinuruan gamit ang higit sa 3,000 na oras ng mga video ng pag-operate ng tao-humanoid na robot sa totoong mundo. Maaari itong mag-generate ng mga nakapaghuhula na trajectory at mga actionable trajectory. Gumagamit ang AgiBot ng NVIDIA Cosmos Predict 2 bilang backbone network at nag-post-train gamit ang kanilang sariling data. Ito ang eksaktong “open-source tech stack + sariling data” na modelo na naipaliwanag kanina.
Toyota Research Institute's world model based on Cosmos: for remote operation data augmentation and navigation.

Humanoid robot

Ang mga pinakamahalagang anim na mundo model noong 2025-2026, bawat isa ay may iba’t ibang pananaw kung paano dapat matutunan ng mga makina ang pisika.

Sampu: Alternatibong arkitektura, dahil ang larangan ay hindi pa nagkakasundo

Walang iisang pamantayan sa pagbuo ng mundo. Ang digmaan sa arkitektura ay isa sa pinakamalikhaing talakayan sa kasalukuyang larangan ng AI, at diretso itong nakakaapekto sa kaya ng mga robot sa hinaharap. Tatlong pangkat ang dapat tandaan:

Pixel-level video diffusion (Cosmos/Sora school): Gumagamit ng diffusion model upang makapag-predict ng mga actual na pixel ng susunod na frame. Ang mga benepisyo ay maaari itong gamitin bilang generator ng synthetic data, na makakapag-render ng mga bagong robot demonstration na hindi naganap pa. Ang mga disadvantages ay mataas ang gastos, minsan ay lumalabag sa mga batas ng pisika, at ang pag-predict sa mga pixel na hindi babalikan ay isang pagkawala.

Joint Embedding Predictive Architecture, o JEPA (mga tagasunod ni LeCun): hindi nagbabawal ng pixel, kundi nagbabawal ng abstrakto na representasyon ng susunod na frame. Tinatanggal ang mga detalye ng tekstura, at pinapanatili lamang ang semantikong esensya ng mga bagay sa eksena. Ang kahusayan nito ay nakatuon sa mga salik na mahalaga para sa aksyon. Ang kawalan nito ay ang pagiging mahirap gamitin. Ang V-JEPA, V-JEPA 2, at ang bagong JEPA-VLA hybrid model ay kasalukuyang sinusuri ang larangan na ito.

Potential Action World Models (Genie/Dreamer school): Matututo kung paano i-compress ang isang buong video sa isang potensyal na “wika ng aksyon” na nakakadepensa sa istruktura ng pagkilos, at pagkatapos ay ituturo ang world model na makapaghula ng susunod na potensyal na estado batay sa susunod na potensyal na aksyon. Ang kahusayan ay nagbibigay-daan sa paggamit ng mga network video na walang aksyon para sa pagtuturo, kasunod ng pagdaragdag ng kaunting totoong robot data. Ang kahinaan ay ang mga potensyal na aksyon ay hindi maunawaan ng tao, at ang pag-analisa ng kaligtasan ay naging mas kumplikado.

Humanoid robot

Pixel diffusion, JEPA, at latent actions: parehong layunin, iba’t ibang paraan ng pagbuo ng world model

Eleven: Mga praktikal na aplikasyon ng robot batay sa mundo model

Kung mabilisang ipaunlad ang ilang taon, ang arkitektura ng mga advanced humanoid robot ay maaaring magmukha ganito:

Ang VLA ay mayroong isang pandaigdigang modelo. Kapag nakakatagpo ang robot sa bagong sitwasyon, ito ay gagawin ang katulad ng sumusunod:

Ang VLA ay nagmungkahi ng ilang posibleng susunod na hakbang (nananatili itong isang estratehiya).
Ang world model ay kukunin ang bawat kandidatong aksyon at magsimula ng isang imahinasyong video na nagtatagal ng 1-3 segundo.
Ang mga tagapaghatol ng halaga ay magpapasiya batay sa inaasahang resulta: Nabuksan ba ang baso? May bumaba ba? Nasaktan ba ang tao?
Pipiliin ng robot ang aksyon na may pinakamataas na puntos at gagawin lamang ang unang bahagi nito.
Real sensor data feedback; circular repetition.

Ito ang model predictive control, isang teknolohiya na ginagamit na sa mga taon para i-stabilize ang mga rocket at quadcopters, ngunit ginagamit nito ang natutunang mundo model para palitan ang mga artipisyal na natukoy na piskal na ekwasyon. Ang kanyang scalability ay nasa katotohanan na ang mundo model ay pre-trained gamit ang milyon-milyong oras ng video, hindi dahil may tao ang sumulat ng Navier-Stokes equations para sa kitchen environment.

Ang mga benepisyo ay umuunlad nang paulit-ulit:

Nagkakaroon ng pagbabago sa pagkakabawi. Kung may mali sa pagkuha, ang mundo model ay maaaring isipin ang iba’t ibang paraan ng pagkorekta at pumili ng pinakamalayong landas.
Nagkakaroon ng pagpapabuti sa pangkalahatang kakayahan. Ang mga modelo ng mundo na tinuturuan sa mga video sa internet ay nakakaranas ng mga “mga pangyayaring pisikal” na mas marami sa ilang orden ng magnitude kaysa sa anumang dataset ng remote na pagpapatakbo ng robot.
Ang pangmatagalang pagpaplano ay naging mas kontrolado. Magplano sa imahinasyon, hindi sa katotohanan.
Nagkakasundo na ang pagkakaiba sa pagitan ng simulasyon at katotohanan. Kahit na dati ay kailangan ng sariling itinayo na simulator (tulad ng Isaac Sim, Newton Physics Engine) para sa pagtuturo, at pagkatapos ay umaasa na ang natutunan ay maaaring ma-transfer sa totoong aplikasyon, ngayon ay maaari nang gamitin ang mga simulator na naituturo na makakapagpares ng mga totoong video. Kaya mas maliit ang pagkakaiba.
Ang synthetic data ay umabot sa paglago. Isang world model ay kaya mag-generate ng milyon-milyong iba’t ibang robot trajectory na may iba’t ibang ilaw, materyales, at configuration ng mga bagay, nang halos libre. Ito ay nalulutas ang isa sa pinakamalaking bottleneck sa larangan.

Bukod dito, mayroon ito ng isang mahalagang benepisyo sa kaligtasan. Ang mga robot na makakapag-simulang mga epekto ng mga aksyon ay makakatanggi na gawin ang mga mapanganib na pagkilos: hindi dahil sa mga limitasyon ng mga nakapre-set na patakaran, kundi dahil sila ay nakababatay sa hinaharap na posibleng pagkakasugat ng tao.

Humanoid robot

Dalawang paraan ng paggalaw: Ang VLA ay tumutugon batay sa nakikita; ang robot na may mundo model ay nagsisipag-isip bago maggalaw

12: Dapat ding malaman

Ang tunay na pangunahing problema ay ang data: kung hindi mo maipapadala ang data sa model, walang kwenta ang lahat ng inobasyon sa arkitektura sa mundo. Sa kasalukuyan, ang remote operation (kung saan ang mga tao ay gumagamit ng VR device upang kontrolin ang robot nang parang puppet) ay ang pangunahing teknikal na hadlang. Ang kompetitibong benepisyo ng isang robot company ay patuloy na umaasa sa kanilang data collection pipeline, hindi sa model mismo. Ang AgiRobot ay nagsasagawa na ng mga warehouse na puno ng operators. Ang Law of Dexterity Scaling ng NVIDIA GR00T N1.7 ay nagpapakita na ang mas maraming human first-person video ay direktang at makabuluhan na mapapabuti ang dexterity ng robot. Ito rin ay isa sa mga dahilan kung bakit may结构性 advantage ang China: mas mababang gastos sa pagkuha ng data, mas maliwanag na environment para sa deployment, at aktibong koordinasyon ng gobyerno sa supply chain.

Ang simulation ay isang parallel universe. Ang NVIDIA Isaac Sim, ang bagong open-source Newton physics engine (ang bersyon 1.0 ay opisyal na ipapalabas noong Abril 2026), at ang Omniverse platform ay nagpapahintulot sa mga negosyo na magtrabaho sa mga robot sa mga milyon ng parallel simulation environment nang hindi kailangang i-deploy sa totoong mundo. Ang karamihan sa mga tampok na tila “robotic intelligence” ay binuo sa simulation environment at pagkatapos ay iginagawa sa hardware.

Ang mga ekonomikong benepisyo ay nagsisimula nang makita. Si Unitree ay nagbigay ng halos 5,500 na humanoid robot noong 2025 at plano nito na makamit ang 10,000 hanggang 20,000 noong 2026. Ang average na presyo ay bumaba mula sa $85,000 patungo sa $25,000 sa loob ng dalawang taon. Ang presyo ng R1 ni Unitree ay $5,900. Ang presyo ng paglulunsad ng Noetix Bumi ay $1,400. Ang presyo ng hardware ng humanoid robot ay papalapit na sa antas ng presyo ng consumer electronics, habang ang AI technology sa loob nito ay nananatiling pinag-uunahan sa mga demo product. Ang pagkakaiba na ito ay hihigpitin sa wakas, at kapag nangyari ito, ang pagtaas ng laki ng merkado ay magdudulot ng malaking epekto sa buong industriya.

Ang mga mode ng pagkabigo ay tila kakaiba. Kapag nagkakaroon ng pagkabigo ang mga robot batay sa LLM, ang kanilang paraan ng pagkabigo ay kadalasang hindi kayang gawin ng mga tradisyonal na robot. Halimbawa, maaaring magsagawa ng mali nang may tiwala, “mag-hallucinate” tungkol sa ilang mga tampok, o mabigo sa isang loop ng pakikipag-usap sa kanilang sariling planner. Ang mga tradisyonal na robot community ay may malaking pagdududa tungkol dito, at ang pagdudulong ito ay may katotohanan, dahil nananatili sila sa paniniwala na ang mga learning system ay dapat na masuri at limitahan ang kanilang pag-uugali. Sa kasalukuyan, ang pinakamakapagkakatiwalaang nai-deploy na mga robot ay hybrid: ang VLA brain ay nakaposisyon sa isang kamay na disenyo na seguridad.

Ang kuwento ng “ChatGPT moment” ay isang kapaki-pakinabang ngunit mapagmaliw na metapora: patuloy ni Huang Renxun ang pagsasabi sa lahat na ang ChatGPT moment ng mga robot ay nangyari na. Sinasabi niya ito dahil bumibili ang NVIDIA ng mga spade at pickaxes. Ang mas tapat na bersyon ay: kasalukuyang nasa panahon ng GPT-2 ng physical AI. Napakalakas nito, nakakagulat ito; ngunit hindi pa sapat na malakas upang ma-deploy nang walang pagmamasid. Mabilis itong ina-update, ngunit hindi pa nakarating sa punto ng viral na pag-usbong—kundi isang mabagal ngunit tiyak na pagtaas.

Pangwakas

Humanoid robot

Ang pag-unlad ng quadruped robot ng Unitree (maliwanag maliwanag maliwanag)

Sa demonstrasyon na nakita sa opisina ng Unitree, limang G1 humanoid robot ang nagpakita ng martial arts, na may maingat na choreography, pinapaganda ng on-board VLA-style controller, at sinusubaybayan ng remote operator. Sa pangkalahatan, ito ay hindi ganap na autonomous. Ngunit ang buong proseso: pagpapansin, pagpaplano, at pagkontrol ng galaw — ay pinapalitan ng neural networks. Dalawang taon pagkatapos, ang parehong robot ay nakakagawa ng parehong galaw nang walang choreography, dahil naunang isip na nito ang buong galaw at pinili ang pinakamainam na bersyon.

Ang buong pag-unlad na ilarawan sa artikulong ito: mula sa mga controller na sinulat ng kamay, patungo sa pagka-alam ng machine learning, pagkatapos ay sa LLM planner, pagkatapos ay sa VLA, pagkatapos ay sa dual-system architecture, at huling sa world model, ay tunay na isang mabagal na pagbabago sa posisyon ng robotikong inteligensya. Nagsimula ito sa isip ng mga inhinyero, pagkatapos ay umunlad sa mga code na sinulat ng kamay, pagkatapos ay pumasok sa antas ng pagpapakita, pumasok sa planner, at pumasok sa antas ng patakaran. At ngayon, ito ay huling umuunlad patungo sa pag-aaral ng sariling modelo ng mundo.

Bawat pagbabago ay nagiging mas pangkalahatan, mas malikhain, at mas kapaki-pakinabang ang robot. Kung ang pagbabago sa modelo ng mundo ay magtatagumpay, ito ay magbibigay ng makapangyarihang kakayahan sa robot: sapat na makapangyarihang upang ang tanong ay maging hindi “Ano ang kayang gawin ng robot?”, kundi “Ano ang dapat nating ipaalam sa kanila?”

Kaugnay na pagbabasa: Pagsusuri sa 30+ na kumpanya ng humanoid robot: Sino ang makakapanalo noong 2026?