Dari Kod ke Kognisi: Penyelaman Mendalam ke Dalam Evolusi Otak Robot

Penulis: Matt White, Ketua Teknologi AI Global, Linux Foundation

Dikompilasi oleh Felix, PANews

Robot berbentuk manusia

Wang Xingxing (CEO Unitree Technologies) dan Matt White

Beberapa minggu yang lalu di Shanghai, seorang rakan semasa perjalanan (seorang yang bijak, biasa membaca berita dan memperhatikan perkara-perkara, tetapi tidak begitu memahami teknologi robot) bertanya soalan yang telah ditunggu-tunggu sepanjang perjalanan itu semasa makan malam.

Anjing robot yang kita lihat berlari-lari, robot berbentuk manusia yang mempersembahkan seni bela diri di pentas demonstrasi di pejabat Unitree, dan lengan mekanikal yang melipat pakaian yang kita lihat—bagaimana mereka melakukan ini? Adakah mereka digerakkan oleh model bahasa besar (LLM)? Bagaimana sebenarnya ia berfungsi? Adakah terdapat model bahasa tertentu yang mengawal gerakan mereka?

Ini adalah soalan yang bagus, dan dengan jujur: dalam beberapa segi, ya, tetapi kisah sebenarnya jauh lebih menarik. Robot yang anda lihat di media sosial bukanlah ChatGPT yang memakai cangkang logam. Mereka berjalan di atas satu set teknologi (AI pelbagai lapisan yang bekerja sama). Set teknologi ini telah berubah lebih banyak dalam tiga tahun terakhir berbanding tiga puluh tahun sebelumnya. Model bahasa adalah sebahagian daripadanya. Model visual, model tindakan, pokok tingkah laku, litar kawalan klasik, serta keluarga sistem baharu yang dipanggil “model dunia” juga merupakan komponen penting. Dan “model dunia” mungkin merupakan perkembangan paling penting di antara semua ini.

Ini adalah artikel panjang yang akan bermula dari awal, kemudian menerangkan setiap perubahan besar secara bertahap, sehingga sampai pada peringkat semasa: robot tidak hanya mampu memberi tindak balas terhadap dunia, tetapi juga mampu membayangkan dunia.

Satu: Era sebelum LLM: Ketika robot masih hanya perisian

Selama beberapa dekad, membuat robot bermaksud menulis banyak kod, dan hampir semua kod ini tidak perlu dipelajari.

Robot industri klasik adalah struktur menara yang terdiri daripada modul-modul yang direka dengan teliti. Contohnya, lengan mekanikal berwarna oren yang mengelas rangka Toyota pada tahun 90-an, atau BigDog daripada Boston Dynamics pada awal 2000-an.

Persepsi: Menapis gambar kamera, melakukan pengesanan tepi, dan menggunakan pencocokan geometri untuk mengenal pasti kedudukan benda kerja.
Perkiraan status: Menggabungkan encoder roda, gyroscope, dan akselerometer (penggabungan sensor) untuk menentukan posisi dan kelajuan pergerakan robot.
Perancangan: Diberikan postur sasaran, gunakan algoritma seperti A* atau RRT untuk mengira laluan tanpa perlanggaran dalam peta yang diketahui.
Kawalan: Di peringkat paling bawah, pengawal PID menyesuaikan tork motor beratus-ratus hingga ribuan kali setiap saat untuk mengikuti laluan tersebut.

Tingkatan-tingkatan ini biasanya ditulis oleh orang yang berbeza di makmal yang berbeza, dan disambung dengan sangat teliti. Perilaku (contohnya, “jika cawan berwarna merah, ambil; jika tidak, tunggu”) dikodkan sebagai mesin keadaan atau pokok perilaku: iaitu carta alir yang dilaksanakan secara berperingkat oleh robot.

Robot berbentuk manusia

Kelebihan kaedah ini jelas. Ia boleh diramalkan dan memenuhi piawaian keselamatan. Inilah sebabnya kereta anda dilengkapi dengan sistem brek ABS yang berkesan.

Kekurangannya juga jelas. Robot seperti ini hanya mampu menunjukkan kecerdasannya dalam skenario yang telah dirancang oleh jurutera. Sekali diletakkan di pabrik baru, kondisi pencahayaan baru, atau warna cawan baru, ia akan gagal. Kemampuannya untuk menggeneralisasi hampir nol.

Dua: Pembelajaran mesin secara halus turut serta

Pada tahun 2010-an, pembelajaran mendalam mulai menangani masalah lapisan persepsi. Jaringan saraf konvolusional (CNN) yang mengalahkan manusia dalam tugas pengelasan gambar ImageNet boleh dilatih semula untuk mengesan titik genggaman pada objek, memisahkan perabot di dalam ruangan, atau mengenal pasti postur manusia. Tiba-tiba, lapisan "persepsi" di puncak tangga teknologi tidak lagi memerlukan reka bentuk manual—anda boleh melatihnya secara langsung.

Selepas itu, mekanisme pembelajaran merebak ke lapisan "kawalan". Para penyelidik dari Universiti Berkeley, DeepMind dan OpenAI menunjukkan bahawa pembelajaran penguatan (yang membolehkan agen robot mencuba berjuta-juta kali dalam persekitaran simulasi dan memperkuat tingkah laku yang berkesan) boleh menghasilkan langkah yang menakjubkan, pengendalian objek di tangan (OpenAI menyelesaikan rubik's cube dengan satu tangan pada tahun 2019 merupakan satu tonggak sejarah), serta strategi pergerakan yang menyesuaikan diri dengan pelbagai jenis medan.

Arah penyelidikan selari lain ialah pembelajaran meniru, biasanya dikenali sebagai kloning tingkah laku: merekodkan ratusan percubaan manusia mengendalikan robot untuk menyelesaikan tugas tertentu, kemudian melatih rangkaian saraf untuk meramalkan tindakan yang akan diambil oleh manusia berdasarkan apa yang diperhatikan oleh robot.

Kunci semua ini ialah: setiap strategi yang dipelajari terlalu sempit. Melatih rangkaian untuk mengambil blok merah, ia tidak tahu bagaimana menangani cawan kuning. Melatihnya berjalan di atas rumput, ia jatuh di atas lantai jubin. Kemampuan generalisasi masih menjadi masalah yang perlu diselesaikan.

Perlu ditekankan bahawa pada masa ini muncul satu infrastruktur yang sehingga kini menyokong hampir semua perkara: ROS, Robot Operating System (dilancarkan pertama kali pada November 2007). ROS bukanlah sistem operasi seperti Windows atau Linux, tetapi sebuah kerangka kerja middleware, satu sistem saluran robotik serba guna. Ia membenarkan “nod kamera”, “nod navigasi”, “nod pengawal lengan mekanikal”, dan puluhan nod lain untuk menerbitkan dan berlanggan mesej melalui saluran bersama.

Versi semasa ROS2 beroperasi di bawah semua robot ilmiah dan komersial di seluruh dunia, dari makmal Universiti Stanford hingga syarikat permulaan robot bentuk manusia di China, tanpa pengecualian. Apabila orang berbincang mengenai “sistem pengendali” robot, hampir selalu merujuk kepada ROS2 ditambah dengan pelbagai pakej persepsi, perancangan, dan kawalan yang berjalan di atasnya.

Robot berbentuk manusia

ROS2: Ia bukan sistem pengendalian, tetapi saluran umum yang membolehkan perisian robot yang berasingan berkomunikasi antara satu sama lain

Tiga: Aplikasi LLM dalam bidang robotik

Kemudian, ChatGPT dilahirkan.

Tiba-tiba muncul sesuatu seperti ini: LLM. Ia mampu membaca arahan bahasa Inggeris yang mudah, melakukan penalaran berbilang langkah, menulis kod, dan memanggil fungsi. Pakar robotik hampir segera menyedari bahawa ini adalah kekurangan yang telah mereka usahakan selama bertahun-tahun. Untuk membuat robot menyelesaikan tugas yang berguna di rumah atau pejabat, bahagian yang paling sukar biasanya bukan kawalan motor, tetapi interaksi manusia-robot: bagaimana manusia memberitahu robot apa yang perlu dilakukan, dan bagaimana robot memecahkan matlamat ini menjadi tindakan atom yang sudah diketahuinya bagaimana untuk dilaksanakan?

Langkah pertama dalam mengaplikasikan LLM ke robot adalah dengan menganggap model bahasa sebagai kompiler bahasa semula jadi yang berada di atas ROS. Pola adalah seperti berikut:

Bawa cawan kopi di atas meja dapur dan letakkan di atas meja saya.
LLM menghasilkan pelan berdasarkan senarai kemahiran atom yang tersedia untuk robot: boleh berupa urutan panggilan fungsi, mesin keadaan, atau pokok tingkah laku yang ditulis dalam XML.
Node ROS2 akan melaksanakan rancangan tersebut secara bertahap. Jika langkah tertentu gagal, maklumat kegagalan akan dilaporkan kepada LLM untuk perancangan semula.

Projek SayCan Google pada tahun 2022 adalah versi yang sangat ringkas daripada konsep ini: LLM mengusulkan kemahiran, model "ketersediaan" yang berasingan menilai kebarangkalian kejayaan setiap kemahiran pada masa ini, dan robot memilih gabungan kemahiran dengan skor gabungan tertinggi. Kerangka terbuka seperti ROS-LLM, ROSGPT, dan ROSA yang dipimpin oleh Laboratorium Penyelidikan Huawei telah mempromosikan model ini.

Ini memang merupakan lompatan yang bermakna. Tiba-tiba, anda boleh memberitahu robot, "Bersihkan meja dan masukkan bahan kitar semula ke dalam tong sampah biru," dan ia akan cuba menjalankan tindakan yang munasabah. Namun, perhatikan bahawa masih terdapat beberapa masalah: model bahasa masih berada pada peringkat perancangan. Arahan tindakan sebenar masih dihasilkan oleh pengawal bawah yang dirancang dengan teliti atau dilatih secara khusus. Model bahasa hanyalah seorang penyusun pintar, ia tidak bertanggungjawab untuk menggerakkan.

Robot berbentuk manusia

Empat: Model visual-bahasa-tindakan (VLA), apabila otak mulai menggerakkan robot

Robot berbentuk manusia

Robot Keenon XMAN-R1 sedang mengambil ubat dari rak di farmasi automatik syarikat Galbot di Beijing. Hanya dengan USD100,000

Lompatan seterusnya akan lebih sukar, tetapi lebih penting. Para penyelidik mengemukakan soalan yang lebih ambisius: jika model tidak hanya mampu merancang, tetapi juga menghasilkan arahan tindakan secara langsung? Jika gambar kamera dan arahan bahasa dimasukkan secara langsung ke dalam satu rangkaian saraf, kemudian dapatkan pergerakan sendi pada milisaat seterusnya?

Ini adalah model visual-bahasa-tindakan (VLA). Ia kini menjadi paradigma utama dalam bidang robot bentuk manusia dan robot berkaki empat.

Robot visual bahasa pertama yang dikenali luas ialah RT-2 yang dilancarkan oleh Google DeepMind pada 2023. Kehebatannya terletak pada: menggunakan model visual bahasa berskala besar (yang telah dilatih untuk menggambarkan gambar dan menjawab soalan), dan meneruskan latihan model tersebut dengan data demonstrasi robot, tetapi dengan menganggap tindakan robot sebagai tanda lain yang perlu diramal. Jaringan saraf yang sama sebelumnya boleh mengeluarkan “kucing duduk di atas tikar”, kini boleh mengeluarkan siri tanda yang mengkodkan “gerakkan cakar kanan ke hadapan sejauh 3 cm, tutup cakar, angkat sejauh 5 cm”. Penalaran dan tindakan dilakukan dalam model yang sama.

Seterusnya, pada pertengahan 2024, sebuah pasukan yang dipimpin oleh Universiti Stanford mengeluarkan OpenVLA, sebuah model VLA sumber terbuka dengan 7 bilion parameter yang dilatih berdasarkan set data Open X-Embodiment. Set data ini menghimpun lebih daripada satu juta fragmen latihan dari 21 makmal penyelidikan yang berbeza, mencakupi 22 jenis badan robot yang berbeza. Ini adalah kali pertama orang di luar Google boleh memuat turun model robot generik dan mula mengubahnya. Ia mengubah seluruh bidang dalam semalam.

Sekarang, VLA terkemuka, walaupun jumlahnya sedikit, berkembang pesat:

π0 dan π0.5 dari Physical Intelligence: Kesesuaian tugas yang cemerlang.
NVIDIA Isaac GR00T N1.7: Bobot terbuka, lesen komersial, direka khusus untuk robot bentuk manusia, dan merupakan model yang digunakan oleh kebanyakan syarikat peranti China semasa ini untuk latihan semula dengan data mereka sendiri.
Helix dan Helix-02 yang diperbaharui dari Figure AI: teknologi eksklusif, tetapi sangat penting dari segi arsitektur.
AgiBot's Genie Envisioner: Platform berdasarkan model dunia China.
SmolVLA, NORA, ACoT-VLA, CogACT: Semakin banyak VLA muncul di kalangan akademik, masing-masing menjelajahi arah reka bentuk yang berbeza.

Bagaimana VLA berfungsi (tanpa formula matematik)

Anda boleh membayangkan VLA sebagai menggabungkan tiga isyarat masukan menjadi satu isyarat keluaran.

Aliran data pertama ialah data visual. Kamera RGB (kadang-kadang sensor kedalaman atau LiDAR), kadang-kadang sensor sentuhan di hujung jari, diproses oleh encoder visual (biasanya model Transformer seperti DINOv2 atau SigLIP), yang mengompres setiap gambar menjadi ratusan "token visual" yang merangkum apa yang dilihat oleh robot.

Aliran data kedua ialah bahasa. Arahan anda (“Tolong berikan saya obeng”) diubah menjadi token seperti dalam ChatGPT.

Dua aliran data ini disambungkan dan dimasukkan ke dalam "tulang belakang" Transformer (biasanya model bahasa open-source kecil seperti Qwen3 atau Llama). Tulang belakang ini bertanggung jawab atas penalaran, menggabungkan informasi yang dilihatnya dengan informasi yang ditanyakan kepadanya.

Aliran ketiga: Tindakan, mengalir dari hujung lain. Di sinilah pelbagai reka bentuk arsitektur berbeza:

Token tindakan diskret: Model menghasilkan token yang boleh dinyatakan sebagai sudut sendi atau kedudukan end-effector, seperti ChatGPT menghasilkan perkataan. Pendekatan ini ringkas, tetapi boleh menyebabkan lag semasa beroperasi pada frekuensi tinggi.
Aksi diffusion atau flow-matching: Jaringan mikro yang berdiri sendiri menerima output dari backbone, lalu menghapus kebisingan untuk menghasilkan trajektori posisi sendi yang licin, sama seperti model diffusion gambar, tetapi menghasilkan pergerakan. Ini adalah pendekatan π0, yang menghasilkan aksi yang lebih licin dan lebih alami.
Action chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

Robot berbentuk manusia

Dalam model VLA: dua aliran input dimasukkan, output arahan pergerakan, inferens dan tindakan digabungkan dalam satu rangkaian.

Inilah perubahan arsitektur yang sangat penting: penalaran dan tindakan tidak lagi dipisahkan. Mengajarkan jaringan saraf untuk mengenali cawan, juga mengajarkannya cara meraih cawan. Penggabungan inilah yang memungkinkan VLA melakukan generalisasi, sedangkan pendahulunya tidak mampu melakukannya.

Lima: Strategi dua otak, bagaimana LLM dan VLA bekerja sama

Terdapat butiran yang jarang dijelaskan secara terbuka dalam pemasaran. Robot bentuk manusia dengan prestasi terbaik saat ini tidak menjalankan satu sistem VLA tunggal, tetapi menjalankan dua model dengan kelajuan berbeza yang berkomunikasi antara satu sama lain. Ini kadang-kadang dipanggil arsitektur sistem ganda atau sistem 1 / sistem 2, yang diambil daripada kerangka psikologi Daniel Kahneman, yang berpendapat bahawa manusia mempunyai otak intuisi pantas dan otak pemikiran perlahan yang teliti.

Helix dari Figure AI menjadikan reka bentuk ini sebagai klasik, dan kini ia (serta varian-varianya) hampir disalin di mana-mana. Terutamanya penting, NVIDIA GR00T N1.7 mengambil reka bentuk ini, dan kebanyakan robot manusia China juga menggunakannya. Strukturnya adalah seperti berikut:

Sistem 2 (S2): Otak berfikir perlahan. Model visual-bahasa dengan 7 bilion parameter, beroperasi pada frekuensi sekitar 7–9 Hz (iaitu 7 hingga 9 kali setiap saat). Tugasnya adalah mengamati adegan, menganalisis arahan, melakukan penalaran berperingkat (seperti, “mangkuk berada di belakang kotak sereal; saya perlu menggerakkan kotak dahulu”), dan mengeluarkan niat tingkat tinggi—biasanya satu set vektor dalaman yang padat, bukan teks itu sendiri.
Sistem 1 (S1): Otak reaksi pantas. Model strategi visual-motor yang jauh lebih kecil (sekitar 80 juta parameter) yang beroperasi pada frekuensi 200 Hz. Ia menerima vektor niat S2 ditambah data sensor terkini, dan mengeluarkan arahan sendi berterusan. Ia tidak mempunyai “pemikiran” dalam erti kata sebenarnya, hanya bertindak balas.

Baru-baru ini, syarikat Figure menambahkan System 0 ke Helix-02. Ia berada di bawah sistem dua otak, merupakan lapisan refleks, bukan lapisan kognitif ketiga. Ia adalah rangkaian dengan 10 juta parameter yang beroperasi pada frekuensi 1 kHz, bertanggungjawab mengurus keseimbangan dasar dan koordinasi seluruh badan, menggantikan lebih daripada seratus ribu baris kod C++ kawalan pergerakan yang ditulis secara manual. Anda boleh membayangkan S0 sebagai sumsum tulang belakang yang dipelajari: ia tidak melakukan penalaran atau perancangan, tetapi hanya bertanggungjawab mengekalkan postur tubuh dan koordinasi, sementara pemikiran diuruskan oleh sistem dua otak di atasnya.

Robot berbentuk manusia

Arsitektur otak ganda pada robot manusia moden: Sistem 2 berfikir perlahan, Sistem 1 bertindak cepat—di bawahnya terdapat lapisan refleks Sistem 0 untuk mengekalkan keseimbangan, sentuhan taktil, dan koordinasi seluruh badan

Pembahagian ini berasal daripada sekatan fizik. Jika arahan pergerakan hanya dihantar setiap 200 milisaat (kelajuan operasi VLA besar), pergerakan robot akan menjadi sangat perlahan, seolah-olah bergerak di bawah air. Kadar kemas kini arahan pergerakan mesti lebih pantas daripada osilasi semula jadi sendi yang dikawal, bermakna ratusan hingga ribuan kemas kini setiap saat diperlukan. Tiada model Transformer dengan 7 bilion parameter yang mampu berjalan secepat ini pada robot yang berkuasa bateri.

Oleh itu, tugas kognitif dibahagikan: model yang besar dan perlahan bertanggung jawab untuk berfikir; model yang kecil dan pantas bertanggung jawab untuk bertindak. Mereka tidak berkomunikasi dalam bahasa Inggeris, tetapi melalui vektor laten yang dipelajari: model perlahan menghantar matlamat abstrak, manakala model pantas tahu cara mentafsirkannya.

Enam: Masalah penempatan awan, komputasi tepi, dan "otak"

Di mana semua pengiraan ini sebenarnya dilakukan?

Sekarang, hampir terbentuk konsensus yang kuat, hampir ideologis, di antara pasukan robot bahawa gelung kawalan utama yang berkaitan dengan keselamatan mesti berjalan secara tempatan. Terdapat dua sebab:

Keterlambatan. Masa putar balik untuk jaringan WiFi atau seluler, dengan anggaran optimis, adalah 30-80 milisaat. Arahan tindakan perlu dikemas semula setiap 1-5 milisaat. Kitaran rangkaian seperti ini tidak boleh berfungsi dengan normal.

Kebolehpercayaan. Robot beroperasi di pabrik, gudang, dapur, hospital, dan tempat lain. Sambungan rangkaian boleh terputus sewaktu-waktu. Jika robot berhenti berfungsi apabila Wi-Fi terputus, ia akan menjadi ancaman keselamatan.

Jadi, pembahagian moden kira-kira seperti berikut:

Dipasang di tempat (lokal), berjalan pada peranti seperti modul NVIDIA Jetson Thor atau AGX Thor (kira-kira 2,000 TFLOPS, 128 GB memori, kuasa 40–130 W):

Semua fungsi S0/S1: keseimbangan, gerakan, kawalan tindakan halus.
VLA itu sendiri (sistem 2), untuk menyesuaikan dengan batasan perangkat keras, semakin sering dikuantisasi ke format FP8 atau FP4. Model dalam julat 2 bilion hingga 7 bilion parameter kini boleh dijalankan di peranti.
Pengesanan, penggabungan sensor, dan program pemantauan keselamatan yang boleh menutupi sebarang operasi lain.

Cloud atau pelayan jauh (jika ada):

Antaramuka perbualan (“Hei, robot, apa yang saya patut makan untuk makan malam?”): Antaramuka ini boleh menoleransikan kelewatan.
Pembelajaran koloni: Ribuan robot menghantar data operasi jarak jauh kembali ke pelayan untuk diringkaskan ke model versi seterusnya.
Perlu perancangan jangka panjang berskala besar, yang mungkin menggunakan model berskala canggih.
Dasbor dan pemantauan operator.

Selain itu, terdapat lapisan tengah yang semakin berkembang: pelayan tepi tempatan yang terletak di pabrik atau gudang, yang berkomunikasi dengan kumpulan robot melalui rangkaian tempatan dengan latensi hanya dalam beberapa milisaat. LLM yang lebih besar mungkin diperlengkapi pada lapisan ini untuk menjalankan tugas penjadualan lanjutan yang tidak perlu diurus sendiri oleh setiap robot.

Gelombang robot bentuk manusia di China dibina berdasarkan anggapan ini: Unitree, AgiBot, Xpeng IRON, Fourier, EngineAI. Robot mereka dilengkapi dengan keupayaan pengiraan di papan (biasanya Jetson, kadang-kadang menggunakan cip tempatan seperti Huawei Ascend), manakala awan digunakan untuk pembelajaran kelompok dan antaramuka dialog, bukan gelung kawalan.

Robot berbentuk manusia

Lokasi sebenar operasi otak robot: litar kritikal keselamatan beroperasi secara tempatan, manakala awan digunakan untuk menangani perkara yang boleh ditunggu.

Tujuh: Mengapa model sumber terbuka tiba-tiba menjadi perhatian

Jika anda hanya melihat demonstrasi, anda mungkin menganggap bidang ini dikuasai oleh beberapa syarikat Amerika yang mempunyai modal besar. Tetapi kenyataannya jauh lebih kompleks. Kelajuan perkembangan AI fizikal sebahagian besarnya ditentukan oleh model berat sumber terbuka yang boleh dimuat turun dan disesuaikan oleh sesiapa sahaja.

Model-model yang disenaraikan di bawah walaupun tidak ramai, tetapi mempunyai makna yang besar:

OpenVLA (Stanford University): Model robot generik 7B pertama yang bersumber terbuka.
NVIDIA Isaac GR00T (N1, N1.5, N1.7): Bobot sumber terbuka akan segera dilancarkan, dan lesen komersial juga akan segera tersedia; model ini dilatih berdasarkan puluhan ribu jam video pusat manusia. GR00T N1.7 dilancarkan pada Mac 2026, di mana setiap pengguna yang memiliki robot berbentuk manusia boleh menggunakan arsitektur sistem gandanya secara percuma.
π0 dari Physical Intelligence: Membekalkan berat untuk penyelidikan.
NVIDIA Cosmos: Model asas dunia terbuka.
AgiBot World: Set data terbuka yang besar daripada syarikat rintisan Shanghai, termasuk demonstrasi robot bentuk manusia yang dikendalikan jarak jauh.
LeRobot dari Hugging Face: sebuah perpustakaan terbuka yang telah menjadi tempat berkumpul bagi semua platform di atas.
Mimic robotics's mimic-video: model video-kegerakan sumber terbuka yang meningkatkan kecekapan sampel sebanyak 10 kali ganda berbanding VLA tradisional.

Ia penting kerana dua sebab. Pertama, syarikat mulaan robot tidak perlu lagi menghabiskan berjuta-juta dolar untuk pra-latih model asas: mereka boleh mengambil GR00T atau π0, kemudian melakukan pasca-latihan dengan data robot mereka sendiri. Unitree, ZhiJi Dynamics, Booster, Galbot, dan puluhan syarikat China yang lebih kecil sedang melakukan ini. Inilah sebabnya mengapa sebuah syarikat dengan hanya beberapa ratus pekerja mampu menghasilkan robot berbentuk manusia yang boleh berjalan, berbicara, dan melipat pakaian: mereka berdiri di atas bahu teknologi sumber terbuka.

Kedua, model sumber terbuka adalah satu-satunya jalan praktikal untuk menyelesaikan masalah keselamatan. Jika sebuah model sepenuhnya tertutup berjalan di dalam robot pabrik, dan pihak luar tidak mempunyai apa-apa kefahaman terhadap logik inferensinya, ini pasti menjadi mimpi buruk pengawasan. Model terbuka membolehkan auditor, penyelidik, dan operator untuk benar-benar memeriksa apa yang sebenarnya telah dilatihkan kepada robot tersebut.

八：还有哪些问题尚未解决

Jika anda telah menonton cukup banyak video demonstrasi robot, anda pasti juga telah melihat banyak video kegagalan robot. Robot generasi semasa LLM+VLA memang mengesankan, tetapi juga mempunyai kekangan yang jelas. Berikut adalah masalah yang ada:

Mengembalikan tugas di tengah jalan. Kemampuan VLA untuk mengendalikan perubahan tak terduga lebih unggul daripada teknologi sebelumnya. Tetapi apabila terjadi kesalahan serius (seperti kesalahan pengambilan, benda berguling, atau seseorang memasuki kawasan kerja), kemampuan untuk kembali ke jalur yang benar masih lemah. Robot akan terus mengulangi tindakan yang gagal secara buta.
Kecekapan sampel. Melatih VLA dari awal memerlukan beribu-ribu jam data pengendalian jarak jauh. Manakala manusia boleh belajar mengendalikan alat baru dalam beberapa minit. Kesenjangan kecekapan ini sangat besar.
Generalisasi lintas entiti. Model yang dilatih dengan lengan robot Franka di laboratorium Stanford tidak boleh dipindahkan dengan sempurna ke robot bentuk manusia Unitree di gudang Shenzhen. Bentuk fizikalnya berbeza.
Tugas jangka panjang. Sebarang tugas yang memerlukan tingkah laku berterusan lebih daripada 30-60 saat dan mengandungi beberapa sasaran sampingan cenderung menyimpang daripada matlamat. Tugas seperti "buatkan saya sarapan" sentiasa tidak dapat dicapai.
Pengetahuan fizikal. VLA menerima latihan peniruan, bukan latihan pemahaman. Ia tidak benar-benar memahami prinsip bahawa air akan tumpah apabila satu cawan air disingkirkan. Ia hanya pernah melihat beberapa contoh dan memprediksi apa yang akan berlaku seterusnya berdasarkan pencocokan corak.
Kemampuan penalaran ruang. Walaupun ia multimodal, ia lemah secara luar biasa dalam tugas-tugas seperti “mengelilingi rintangan bukan melaluinya” atau “menyusun benda-benda ini tanpa jatuh”.

Kekurangan terakhir dalam siri ini mendorong bidang ini untuk membuat tumpuan kepada model yang sama sekali berbeza.

Sembilan: Model Dunia

Bayangkan ini: apa yang akan berlaku jika kita melatih robot untuk meramalkan kesan tindakan, bukan meramalkan tindakan itu sendiri?

Model Dunia adalah jaringan saraf yang meramalkan keadaan dunia seterusnya berdasarkan keadaan semasa dunia (biasanya satu video atau siri gambar kerangka) dan tindakan yang ditetapkan. Dengan ringkasnya, anda boleh membayangkannya sebagai penghala video pembelajaran yang mempunyai pemutar arah. Anda memberinya gambar kamera saat terakhir dan memberitahunya “robot akan menggerakkan lengan ke hadapan sejauh 10 cm”, dan ia akan menghasilkan video yang realistik untuk meramalkan gambar saat seterusnya.

Mengapa ini penting?

Kerana sekali model dunia ada, robot boleh berfikir sebelum bertindak. Ia boleh membayangkan tiga hingga empat tindakan calon yang berbeza, meramalkan kesan setiap tindakan, memberi penilaian, dan memilih pilihan terbaik. Semua ini selesai sebelum gerakan motor dilakukan. Ini adalah cara kerja enjin catur: ia tidak mengingat langkah-langkah, tetapi mensimulasikan masa depan. Sebelum ini, kemampuan ini tidak pernah dimiliki dalam bidang robotik fizikal, kerana tiada model yang cukup tepat untuk mensimulasikan dunia nyata yang rumit.

Robot berbentuk manusia

Model dunia membenarkan robot mensimulasikan pelbagai senario masa depan yang mungkin, memberi penilaian kepadanya, dan memilih skema terbaik sebelum mana-mana motor dihidupkan

Apa bentuk model dunia pada tahun 2026?

Model dunia terkini sangat pelbagai dan berkembang dengan pantas. Berikut adalah beberapa model:

NVIDIA Cosmos: satu siri model asas dunia terbuka, termasuk Cosmos Predict 2.5 (model generatif), Cosmos Transfer 2.5 (model simulasi yang boleh dikawal), Cosmos Reason 2 (penaakul visual-bahasa untuk robot), dan Cosmos Policy terkini. Cosmos Policy melangkah lebih jauh dengan menghasilkan tindakan secara langsung untuk pengawalan melalui post-training model dunia. Cosmos dilatih menggunakan data video berjumlah puluhan ribu jam GPU (Cosmos Predict 2.5 adalah model dunia dalam siri ini).
DeepMind Genie 3: Sebuah model dunia interaktif yang mampu menghasilkan persekitaran sepenuhnya boleh dilalui berdasarkan petunjuk teks, dengan kadar bingkai 24 bingkai per saat dan beroperasi secara stabil selama beberapa minit. Awalnya direka untuk persekitaran permainan.
Meta V-JEPA 2: Lebih daripada satu juta jam video web digunakan untuk pra-pelatihan, kemudian hanya 62 jam video robot digunakan untuk pelatihan bersyarat tindakan. Pada lengan robot nyata di pelbagai makmal, tanpa sebarang pelatihan tugas khusus, kejayaan nol-sampel pengambilan dan penempatan mencapai 80%. Kaedah "JEPA" berbeza secara struktur daripada kaedah lain.
DeepMind Dreamer 4: Hanya menggunakan data luar, tanpa sebarang interaksi persekitaran, telah belajar mengumpulkan berlian di Minecraft (tugasan 20,000 langkah). Ini membuktikan bahawa pembelajaran penguatan sejati di dunia maya adalah mungkin.
AgiBot's Genie Envisioner: Platform model dunia seragam dari China, dilatih menggunakan lebih dari 3000 jam video operasi robot bentuk manusia dunia nyata. Ia boleh menghasilkan trajektori perluasan yang diramal serta trajektori tindakan yang boleh dilaksanakan. AgiBot menggunakan NVIDIA Cosmos Predict 2 sebagai jaringan tulang belakang, serta melakukan pasca-latihan dengan data sendiri. Ini adalah model "tatalaksana teknologi sumber terbuka + data sendiri" yang telah dinyatakan sebelum ini.
Model dunia Toyota Research Institute berdasarkan Cosmos: untuk peningkatan data dan navigasi jarak jauh.

Robot berbentuk manusia

Enam model dunia terpenting pada 2025–2026, setiap model membawa pandangan berbeza mengenai bagaimana mesin seharusnya mempelajari fizik.

Sepuluh: Arsitektur alternatif, kerana bidang ini belum disepakati

Membina model dunia tidak mempunyai piawaian seragam. Perdebatan mengenai arsitektur adalah salah satu perdebatan paling menarik dalam bidang AI semasa ini, yang secara langsung mempengaruhi apa yang boleh dilakukan oleh robot di masa depan. Tiga kumpulan berikut patut diperhatikan:

Penyebaran video pada peringkat piksel (sekolah Cosmos/Sora): Menggunakan model penyebaran untuk meramal piksel sebenar bingkai masa depan. Kelebihannya ialah boleh digunakan sebagai penghasil data sintetik, mampu merender demonstrasi robot baru yang tidak pernah berlaku. Kekurangannya ialah kosnya tinggi, kadang-kadang melanggar hukum fizik, dan meramal piksel yang tidak pernah dilihat adalah pembaziran.

Arsitektur Prediksi Penyertaan Bersama, disingkat JEPA (sekolah LeCun): bukan memprediksi piksel, tetapi memprediksi representasi abstrak dari frame berikutnya. Meninggalkan butiran tekstur, hanya mempertahankan esensi semantik objek dalam adegan. Kelebihannya adalah efisien, berfokus pada faktor-faktor penting untuk tindakan. Kekurangannya adalah sukar digunakan. V-JEPA, V-JEPA 2, dan model hibrida JEPA-VLA baru sedang mengeksplorasi bidang ini.

Model Dunia Tindakan Potensial (aliran Genie/Dreamer): belajar untuk mengompresi video keseluruhan menjadi “bahasa tindakan” potensial yang mampu menangkap struktur tingkah laku, kemudian melatih model dunia untuk meramal keadaan potensial seterusnya berdasarkan tindakan potensial seterusnya. Kelebihannya ialah membolehkan anda melatih menggunakan video rangkaian tanpa tindakan, kemudian menambahkan sedikit data robot sebenar. Kekurangannya ialah tindakan potensial tidak boleh difahami oleh manusia, dan analisis keselamatan menjadi lebih kompleks.

Robot berbentuk manusia

Pixel diffusion, JEPA, dan tindakan laten: tujuan yang sama, tetapi cara membina model dunia sangat berbeza

Eleven: Aplikasi praktikal robot berdasarkan model dunia

Jika dipercepat beberapa tahun, arsitektur robot manusia canggih mungkin akan terlihat seperti ini:

VLA membawa model dunia. Apabila robot menghadapi situasi baru, ia akan menjalankan operasi serupa berikut:

VLA mengusulkan beberapa cadangan tindakan susulan (ia masih merupakan strategi).
Model dunia akan mengambil setiap tindakan calon dan mensimulasikan video khayalan selama 1-3 saat.
Penilai nilai akan memberi skor berdasarkan hasil yang dibayangkan: cawan telah diangkat? ada sesuatu yang jatuh? seseorang telah ditabrak?
Robot akan memilih tindakan dengan skor tertinggi dan hanya melaksanakan bahagian pertamanya.
Real sensor data feedback; cyclic repetition.

Ini adalah pengawalan prediktif model, teknologi yang telah lama digunakan untuk menstabilkan roket dan pesawat berbaling-baling empat, tetapi ia menggantikan persamaan fizik yang diturunkan secara manual dengan model dunia yang dipelajari. Skalabilitinya terletak pada fakta bahawa model dunia dilatih secara pra-latihan berdasarkan jutaan jam video, bukan kerana seseorang menulis persamaan Navier-Stokes untuk persekitaran dapur.

Manfaatnya meningkat secara bertahap:

Kesihatan pemulihan telah membaik. Jika berlaku kesilapan pengambilan, model dunia boleh membayangkan pelbagai laluan pembaikan dan memilih laluan yang paling menjanjikan.
Kemampuan generalisasi telah ditingkatkan. Model dunia yang dilatih berdasarkan video web mengalami fenomena fizikal yang lebih banyak beberapa peringkat daripada mana-mana set data pengendalian jauh robot.
Perancangan jangka panjang menjadi boleh dikawal. Merancang dalam imajinasi, bukan dalam realiti.
Kesenjangan antara simulasi dan realiti semakin mengecil. Dahulu, perlu menggunakan simulator yang dibina sendiri (contohnya Isaac Sim, enjin fizik Newton) untuk latihan, kemudian berharap hasil latihan boleh dipindahkan ke aplikasi sebenar, tetapi kini boleh menggunakan simulator yang telah dilatih dan dapat disesuaikan dengan video sebenar untuk latihan. Oleh itu, kesenjangan lebih kecil.
Data sintetik mengalami pertumbuhan eksponensial. Satu model dunia hampir boleh menghasilkan jutaan trajektori robot yang berbeza secara percuma, mencakupi pelbagai pencahayaan, bahan, dan konfigurasi objek. Ini menyelesaikan salah satu halangan terbesar dalam bidang ini.

Selain itu, ia juga memiliki kelebihan keselamatan yang penting. Robot yang mampu mensimulasikan kesan tindakan boleh menolak menjalankan operasi berbahaya: bukan kerana sekatan peraturan tetap, tetapi kerana ia meramalkan bahawa seseorang mungkin tercedera di masa depan.

Robot berbentuk manusia

Dua cara pergerakan: VLA bertindak balas berdasarkan apa yang dilihat; robot model dunia berfikir sebelum bergerak

十二：Perlu diketahui juga

Masalah data adalah masalah inti sebenarnya: jika tidak dapat memberikan data kepada model, semua inovasi arsitektur di dunia tidak akan membantu. Saat ini, operasi jarak jauh (manusia mengenakan peralatan VR untuk mengendalikan robot secara remote seperti marionette) merupakan hambatan teknologi utama. Keunggulan kompetitif sebuah perusahaan robotik semakin bergantung pada saluran pengumpulan data mereka, bukan pada model itu sendiri. Agi Robotics telah membangun gudang yang dipenuhi operator. Hukum ekspansi ketangkasan NVIDIA GR00T N1.7 menunjukkan bahwa lebih banyak video sudut pandang orang pertama manusia secara langsung dan dapat diprediksi akan meningkatkan ketangkasan robot. Ini juga merupakan sebagian alasan mengapa Tiongkok memiliki keunggulan struktural: biaya tenaga kerja pengumpulan data yang lebih rendah, lingkungan penerapan yang lebih toleran, serta koordinasi aktif negara terhadap rantai pasokan.

Simulasi adalah alam semesta paralel. Isaac Sim dari NVIDIA, enjin fizik Newton sumber terbuka baharu (versi 1.0 akan dilancarkan secara rasmi pada April 2026), dan platform Omniverse membolehkan syarikat melatih robot dalam jutaan persekitaran simulasi selari tanpa perlu melancarkannya ke dunia nyata. Kebanyakan fungsi yang kelihatan seperti “kecerdasan robot” sebenarnya dikembangkan dalam persekitaran simulasi, kemudian dipindahkan ke peranti keras.

Ekonomi mulai menunjukkan hasil. Unitree menghantar sebanyak 5,500 unit robot bentuk manusia pada tahun 2025 dan merancang untuk mencapai 10,000 hingga 20,000 unit pada tahun 2026. Harga purata turun dari USD85,000 kepada USD25,000 dalam tempoh dua tahun. Harga R1 Unitree ialah USD5,900. Harga pelancaran Noetix Bumi ialah USD1,400. Harga peranti keras robot bentuk manusia sedang mendekati tahap harga produk elektronik pengguna, manakala teknologi AI di dalamnya masih tertinggal berbanding produk demonstrasi. Kesenjangan ini akannya menyusut, dan apabila ia berlaku, peningkatan saiz pasaran akan memberi kesan ketara kepada seluruh industri.

Moda kegagalan kelihatan aneh. Apabila robot berdasarkan LLM gagal, cara mereka gagal seringkali tidak mungkin dilakukan oleh robot tradisional. Sebagai contoh, melakukan kesalahan dengan yakin, mengalami “halusinasi” terhadap fungsi tertentu, atau terperangkap dalam putaran perbualan dengan perancangnya sendiri. Dunia robot tradisional memiliki tingkat keraguan yang cukup besar terhadap hal ini, dan keraguan ini tidak tanpa dasar, kerana mereka menekankan bahawa sistem pembelajaran mesti dipantau secara selamat dan dibatasi perilakunya. Robot yang paling boleh dipercayai yang telah dilancarkan saat ini adalah jenis hibrid: otak VLA ditempatkan di dalam sangkar keselamatan yang direka secara manual.

Narasi "masa ChatGPT" adalah metafora yang berguna tetapi menyesatkan: Huang Renxun terus memberitahu semua orang bahawa masa ChatGPT untuk robot telah tiba. Beliau berkata demikian kerana NVIDIA menjual cangkul dan pickaxe. Versi yang lebih jujur ialah: kini kita berada lebih kurang pada era GPT-2 untuk AI fizikal. Ia sangat kuat dan mampu membuat anda terkesan; tetapi belum cukup kuat untuk dideploy tanpa pengawasan. Ia sedang mengalami iterasi pantas, tetapi belum mencapai titik ledakan penyebaran virus, melainkan trajektori kenaikan perlahan tetapi teguh.

Penutup

Robot berbentuk manusia

Perkembangan robot empat kaki Unitree (dari kanan ke kiri)

Dalam demonstrasi yang dilihat di pejabat Unitree, lima robot humanoid G1 melakukan seni bela diri dengan gerakan yang dirancang teliti, dikontrol secara halus oleh pengendali berasaskan VLA, dan diawasi oleh operator jarak jauh untuk memastikan semuanya berjalan lancar. Pada dasarnya, ia bukan sepenuhnya otonom. Tetapi keseluruhan proses: persepsi, perancangan, dan kawalan pergerakan, kini digantikan oleh rangkaian saraf. Dua tahun kemudian, robot yang sama mampu melakukan gerakan yang sama tanpa perlu dirancang, kerana ia telah membayangkan keseluruhan gerakan tersebut terlebih dahulu dan memilih versi terbaik.

Perkembangan keseluruhan yang digambarkan dalam artikel ini: dari pengawal yang ditulis secara manual, ke pemahaman pembelajaran mesin, kemudian ke perancang LLM, ke VLA, ke arsitektur sistem ganda, dan akhirnya ke model dunia, sebenarnya merupakan perubahan perlahan-lahan dalam lokasi kecerdasan robot. Ia bermula di dalam fikiran jurutera, kemudian berkembang menjadi kod yang ditulis secara manual, seterusnya memasuki lapisan pengesanan, lapisan perancangan, dan lapisan strategi. Kini, ia akhirnya bergerak menuju pembentukan model dunia itu sendiri.

Setiap perubahan menjadikan robot lebih serbaguna, lebih adaptif, dan lebih berguna. Jika perubahan model dunia berjaya, ia akan benar-benar memberikan kekuatan yang kuat kepada robot: cukup kuat sehingga soalannya bukan lagi “Apa yang boleh dilakukan oleh robot?” tetapi “Apakah yang sepatutnya kita suruh mereka lakukan?”

Bacaan berkaitan: Menyenaraikan lebih daripada 30 syarikat robot bentuk manusia: Siapa yang akan menang pada 2026?