Penulis: Matt White, Chief Technology Officer Global AI, Linux Foundation
Diterjemahkan oleh: Felix, PANews

Wang Xingxing (CEO Unitree Technologies) dan Matt White
Beberapa minggu lalu di Shanghai, seorang teman seperjalanan (cerdas, biasanya membaca berita dan mengamati sekitar, tetapi tidak terlalu memahami teknologi robot) bertanya pertanyaan yang telah lama saya tunggu selama perjalanan ini saat makan malam.
Anjing robot yang kita lihat berlarian, robot manusia yang mempertunjukkan seni bela diri di panggung demonstrasi kantor Unitree, dan lengan mekanis yang melipat pakaian yang kita lihat—bagaimana mereka melakukannya? Apakah mereka digerakkan oleh large language model (LLM)? Bagaimana sebenarnya cara kerjanya? Apakah ada semacam model bahasa yang mengendalikan gerakan mereka?
Ini adalah pertanyaan yang bagus, dan sejujurnya: dalam beberapa hal ya, tetapi kisah sebenarnya jauh lebih menarik. Robot yang Anda lihat di media sosial bukanlah ChatGPT yang mengenakan cangkang logam. Mereka menjalankan satu set teknologi (berbagai lapisan AI yang bekerja sama). Set teknologi ini telah berubah lebih banyak dalam tiga tahun terakhir daripada dalam tiga puluh tahun sebelumnya. Model bahasa adalah salah satu bagiannya. Model visual, model tindakan, pohon perilaku, loop kontrol klasik, serta keluarga sistem baru yang disebut “world model” juga merupakan komponen penting. Dan “world model” mungkin merupakan perkembangan paling penting di antara semuanya.
Ini adalah artikel panjang yang akan dimulai dari awal, lalu secara bertahap menjelaskan setiap perubahan besar, hingga mencapai tahap saat ini: robot tidak hanya mampu merespons dunia, tetapi juga membayangkan dunia.
Satu: Era Sebelum LLM: Ketika robot masih hanya berupa perangkat lunak
Selama beberapa dekade, membuat robot berarti menulis banyak kode, dan hampir semua kode ini tidak perlu dipelajari.
Robot industri klasik merupakan struktur menara yang terdiri dari modul-modul yang dirancang dengan cermat. Misalnya lengan mekanis oranye yang mengelas sasis Toyota pada dekade 1990-an, atau BigDog dari Boston Dynamics pada awal tahun 2000-an.
- Persepsi: Menyaring gambar kamera, melakukan deteksi tepi, dan mengenali posisi benda kerja menggunakan pencocokan geometris.
- Perkiraan status: Menggabungkan encoder roda, gyro, dan akselerometer (sensor fusion) untuk menentukan posisi dan kecepatan pergerakan robot.
- Perencanaan: Diberikan pose target, gunakan algoritma seperti A* atau RRT untuk menghitung jalur bebas tabrakan dalam peta yang diketahui.
- Kontrol: Di tingkat paling dasar, pengendali PID menyesuaikan torsi motor ratusan hingga ribuan kali per detik untuk mengikuti jalur tersebut.
Level-level ini biasanya ditulis oleh berbagai orang di laboratorium yang berbeda, dan disusun dengan sangat teliti. Perilaku (misalnya, "ambil cangkir jika berwarna merah, jika tidak tunggu") dikodekan sebagai state machine atau behavior tree: yaitu diagram alur yang secara bertahap dieksekusi oleh robot.

Keunggulan metode ini jelas. Metode ini dapat diprediksi dan sesuai dengan standar keamanan. Inilah mengapa mobil Anda dilengkapi sistem rem ABS yang efektif.
Kekurangannya juga jelas terlihat. Robot semacam ini hanya dapat menunjukkan kecerdasannya dalam skenario yang telah diprediksi oleh insinyur. Begitu ditempatkan di pabrik baru, kondisi pencahayaan baru, atau warna cangkir baru, ia akan gagal. Kemampuan generalisasinya hampir nol.
Dua: Pembelajaran mesin secara diam-diam ikut terlibat
Pada tahun 2010-an, deep learning mulai menangani masalah pada lapisan persepsi. Jaringan saraf konvolusional (CNN) yang mengalahkan manusia dalam tugas klasifikasi gambar ImageNet dapat dilatih ulang untuk mendeteksi titik cengkeraman pada objek, memisahkan perabotan di dalam ruangan, atau mengenali postur tubuh manusia. Tiba-tiba, lapisan "persepsi" di puncak tumpukan teknologi tidak lagi memerlukan desain manual—Anda dapat melatihnya secara langsung.
Selanjutnya, mekanisme pembelajaran menyebar ke lapisan "kontrol". Para peneliti dari Universitas Berkeley, DeepMind, dan OpenAI menunjukkan bahwa reinforcement learning (yang memungkinkan agen robot mencoba jutaan kali dalam lingkungan simulasi dan memperkuat perilaku yang efektif) dapat menghasilkan pola berjalan yang menakjubkan terampil, manipulasi objek dengan tangan (OpenAI memecahkan rubik's cube dengan satu tangan pada tahun 2019 merupakan tonggak penting), serta strategi gerak yang beradaptasi dengan berbagai medan.
Arah penelitian paralel lainnya adalah pembelajaran imitasi, yang biasa disebut cloning perilaku: merekam ratusan upaya manusia mengendalikan robot secara jarak jauh untuk menyelesaikan tugas tertentu, lalu melatih jaringan saraf untuk memprediksi tindakan apa yang akan diambil manusia berdasarkan apa yang diamati oleh robot.
Kuncinya adalah: setiap strategi yang dipelajari terlalu sempit. Melatih jaringan untuk mengambil balok merah, ia tidak tahu cara menangani cangkir kuning. Melatihnya berjalan di rumput, ia justru jatuh di lantai ubin. Kemampuan generalisasi tetap menjadi tantangan yang perlu diatasi.
Perlu dicatat bahwa pada periode ini muncul sebuah infrastruktur yang hingga kini masih mendukung hampir semua hal: ROS, Robot Operating System (pertama kali dirilis pada November 2007). ROS bukanlah sistem operasi dalam arti Windows atau Linux, melainkan sebuah kerangka kerja middleware, sebuah sistem pipa robotik universal. Ia memungkinkan “node kamera”, “node navigasi”, “node pengendali lengan robot”, dan puluhan node lainnya untuk mempublikasikan dan berlangganan pesan melalui bus bersama.
Versi saat ini ROS2 berjalan di lapisan dasar sebagian besar robot ilmiah dan komersial di seluruh dunia, mulai dari laboratorium Universitas Stanford hingga perusahaan rintisan robot humanoid di Tiongkok, tanpa terkecuali. Ketika orang membicarakan "sistem operasi" robot, hampir selalu merujuk pada ROS2 ditambah berbagai paket perangkat lunak persepsi, perencanaan, dan kontrol yang berjalan di atasnya.

ROS2: Bukan sistem operasi, melainkan saluran umum yang memungkinkan perangkat lunak robot independen berkomunikasi satu sama lain
Tiga: Aplikasi LLM di bidang robotika
Kemudian, ChatGPT lahir.
Tiba-tiba muncul sesuatu seperti ini: LLM. Ia mampu membaca instruksi bahasa Inggris sederhana, melakukan penalaran multi-langkah, menulis kode, dan memanggil fungsi. Para ahli robotika langsung menyadari bahwa ini adalah komponen yang selama bertahun-tahun mereka cari. Untuk membuat robot menyelesaikan tugas yang berguna di rumah atau kantor, bagian tersulit biasanya bukan kontrol motor, melainkan interaksi manusia-robot: bagaimana manusia memberi tahu robot apa yang harus dilakukan, dan bagaimana robot memecah tujuan ini menjadi tindakan atomik yang sudah diketahuinya cara menjalankan?
Langkah pertama dalam menerapkan LLM ke robot adalah dengan memandang model bahasa sebagai compiler bahasa alami yang berada di atas ROS. Polanya adalah:
Bawa cangkir kopi di atas meja dapur dan letakkan di meja saya.
LLM menghasilkan rencana berdasarkan daftar keterampilan atom yang tersedia untuk robot: dapat berupa urutan pemanggilan fungsi, mesin keadaan, atau pohon perilaku yang ditulis dalam XML.
Node ROS2 akan mengeksekusi rencana tersebut secara bertahap. Jika langkah tertentu gagal, informasi kegagalan akan dilaporkan ke LLM agar LLM dapat merencanakan ulang.
Proyek SayCan Google pada tahun 2022 adalah versi yang sangat ringkas dari konsep ini: LLM mengusulkan keterampilan, model "affordance" independen mengevaluasi kemungkinan keberhasilan setiap keterampilan saat ini, dan robot memilih kombinasi keterampilan dengan skor gabungan tertinggi. Kerangka terbuka seperti ROS-LLM, ROSGPT, dan ROSA yang dipimpin oleh Laboratorium Riset Huawei mempromosikan pola ini.
Ini memang lompatan besar yang bermakna. Tiba-tiba, Anda bisa memberi tahu robot, "Bersihkan meja, masukkan barang daur ulang ke tempat sampah biru," dan robot akan mencoba melakukan beberapa tindakan yang masuk akal. Namun, perlu dicatat bahwa masih ada beberapa masalah di sini: model bahasa masih berada di tingkat perencanaan. Instruksi tindakan aktual tetap dihasilkan oleh pengendali bawah yang dirancang dengan cermat atau dilatih secara khusus. Model bahasa hanyalah seorang pengatur cerdas, bukan pendorong utama.

Empat: Model visual-bahasa-tindakan (VLA), ketika otak mulai menggerakkan robot

Robot Keenon XMAN-R1 sedang mengambil obat dari rak di apotek otomatis perusahaan Galbot di Beijing. Hanya dengan $100.000
Lompatan berikutnya lebih sulit, tetapi juga lebih penting. Para peneliti mengajukan pertanyaan yang lebih ambisius: apa jika model tidak hanya dapat merencanakan, tetapi juga secara langsung menghasilkan perintah tindakan? Jika gambar kamera dan perintah bahasa dimasukkan langsung ke dalam jaringan saraf, lalu dapat menghasilkan gerakan sendi milidetik berikutnya?
Ini adalah model visual-language-action (VLA). Saat ini, ini adalah paradigma utama di bidang robot humanoid dan robot berkaki empat.
Robot visual-language pertama yang dikenal luas adalah RT-2 yang diluncurkan oleh Google DeepMind pada tahun 2023. Keunggulannya terletak pada: menggunakan model visual-language besar (yang telah dilatih untuk deskripsi gambar dan menjawab pertanyaan), lalu melanjutkan pelatihan model tersebut dengan data demonstrasi robot, dengan tindakan robot dianggap sebagai token tambahan yang perlu diprediksi. Jaringan saraf yang sama sebelumnya dapat menghasilkan "kucing duduk di atas tikar", kini dapat menghasilkan serangkaian token yang mengkodekan "gerakkan cakar kanan maju 3 cm, rapatkan cakar, angkat 5 cm". Inferensi dan tindakan dilakukan dalam model yang sama.
Selanjutnya, pada pertengahan 2024, sebuah tim yang dipimpin oleh Universitas Stanford merilis OpenVLA, sebuah model VLA open-source dengan 7 miliar parameter yang dilatih berdasarkan dataset Open X-Embodiment. Dataset ini mengumpulkan lebih dari satu juta fragmen pelatihan dari 21 laboratorium penelitian berbeda yang mencakup 22 jenis tubuh robot berbeda. Ini adalah pertama kalinya orang di luar Google dapat mengunduh model robot generik dan mulai memodifikasinya. Ini mengubah seluruh bidang dalam semalam.
Saat ini, VLA terkemuka meskipun jumlahnya sedikit, berkembang pesat:
- π0 dan π0.5 dari Physical Intelligence: kemampuan adaptasi tugas yang luar biasa.
- NVIDIA Isaac GR00T N1.7: Bobot terbuka, lisensi komersial, dirancang khusus untuk robot manusia, merupakan model yang saat ini digunakan oleh sebagian besar perusahaan perangkat keras Tiongkok untuk post-training dengan data mereka sendiri.
- Helix dan Helix-02 yang diperbarui dari Figure AI: teknologi propietari, tetapi sangat penting secara arsitektur.
- AgiBot's Genie Envisioner: Platform berbasis model dunia Tiongkok.
- SmolVLA, NORA, ACoT-VLA, CogACT: Semakin banyak VLA muncul di kalangan akademik, yang mengeksplorasi berbagai arah desain.
Cara kerja VLA (tanpa rumus matematis)
Anda dapat membayangkan VLA sebagai menggabungkan tiga sinyal masukan menjadi satu sinyal keluaran.
Aliran data pertama adalah data visual. Kamera RGB (kadang-kadang sensor kedalaman atau LiDAR), terkadang sensor taktil di ujung jari, diproses oleh visual encoder (biasanya model Transformer seperti DINOv2 atau SigLIP), yang mengompres setiap gambar menjadi ratusan "token visual" yang merangkum apa yang dilihat robot.
Aliran data kedua adalah bahasa. Instruksi Anda ("Tolong berikan obengnya") diubah menjadi token, seperti di ChatGPT.
Dua aliran data ini dihubungkan dan dimasukkan ke dalam "tulang punggung" Transformer (biasanya model bahasa open-source kecil seperti Qwen3 atau Llama). Tulang punggung ini bertanggung jawab untuk penalaran, menggabungkan informasi yang dilihatnya dengan informasi yang ditanyakan kepadanya.
Aliran ketiga: Tindakan, mengalir dari ujung lainnya. Di sinilah berbagai desain arsitektur berbeda pendapat:
- Token tindakan diskret: Model secara langsung menghasilkan token yang dapat didekode menjadi sudut sendi atau posisi ujung eksekutor, seperti ChatGPT menghasilkan kata. Pendekatan ini sederhana, tetapi dapat menyebabkan lag saat dijalankan pada frekuensi tinggi.
- Head aksi diffusion atau flow-matching: Jaringan mikro independen menerima output dari backbone dan menghilangkan noise untuk menghasilkan trajektori posisi sendi yang halus, mirip dengan model diffusion gambar, hanya saja menghasilkan gerakan. Ini adalah pendekatan π0, yang menghasilkan aksi yang lebih halus dan lebih alami.
- Action chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

Dalam model VLA: dua aliran input masuk, output instruksi gerakan, inferensi dan tindakan digabungkan dalam satu jaringan.
Ini adalah perubahan arsitektur yang sangat penting: inferensi dan tindakan tidak lagi terpisah. Mengajarkan jaringan saraf untuk mengenali cangkir juga mengajarkannya cara meraih cangkir. Keterkaitan inilah yang memungkinkan VLA melakukan generalisasi, sesuatu yang tidak dapat dilakukan pendahulunya.
Lima: Strategi Otak Ganda, bagaimana LLM dan VLA bekerja sama
Ada detail yang jarang dijelaskan secara eksplisit dalam pemasaran. Robot humanoid dengan performa terbaik saat ini tidak menjalankan satu sistem VLA tunggal, melainkan dua model dengan kecepatan berbeda yang saling berkomunikasi. Ini kadang disebut arsitektur sistem ganda atau sistem 1/sistem 2, diambil dari kerangka psikologi Daniel Kahneman yang menyatakan bahwa manusia memiliki otak intuisi cepat dan otak pemikir reflektif lambat.
Helix dari Figure AI menjadikan desain ini menjadi klasik, dan sekarang desain ini (serta varian-varianya) hampir disalin di mana-mana. Terutama penting, NVIDIA GR00T N1.7 mengadopsi desain ini, dan sebagian besar robot manusia Tiongkok juga menggunakannya. Strukturnya sebagai berikut:
- Sistem 2 (S2): Otak berpikir lambat. Sebuah model visual-bahasa dengan 7 miliar parameter yang berjalan pada frekuensi sekitar 7–9 Hz (yaitu 7 hingga 9 kali per detik). Tugasnya adalah mengamati adegan, menafsirkan instruksi, melakukan penalaran multi-langkah (seperti, “Mangkuk berada di belakang kotak sereal; saya perlu menggerakkan kotak terlebih dahulu”), dan mengeluarkan niat tingkat tinggi—biasanya berupa sekumpulan vektor internal yang ringkas, bukan teks itu sendiri.
- Sistem 1 (S1): Otak respons cepat. Model strategi visuomotor yang jauh lebih kecil (sekitar 80 juta parameter) yang berjalan pada frekuensi 200 Hz. Ia menerima vektor niat dari S2 ditambah data sensor terbaru, lalu menghasilkan instruksi sendi kontinu. Ia tidak memiliki "pemikiran" dalam arti apa pun, hanya bereaksi.
Baru-baru ini, perusahaan Figure menambahkan System 0 ke Helix-02. Sistem ini berada di bawah sistem otak ganda, berfungsi sebagai lapisan reflektif, bukan lapisan kognitif ketiga. Ini adalah jaringan dengan 10 juta parameter yang beroperasi pada frekuensi 1 kHz, bertanggung jawab untuk menangani keseimbangan dasar dan koordinasi tubuh secara keseluruhan, menggantikan lebih dari seratus ribu baris kode C++ kontrol gerak yang ditulis secara manual. Anda dapat membayangkan S0 sebagai sumsum tulang belakang yang dipelajari: ia tidak melakukan penalaran atau perencanaan, tetapi hanya bertugas menjaga tubuh tetap tegak dan terkoordinasi, sementara pemikiran dilakukan oleh sistem otak ganda di atasnya.

Arsitektur otak ganda pada robot humanoid modern: Sistem 2 berpikir lambat, Sistem 1 bereaksi cepat—di bawahnya terdapat lapisan refleks Sistem 0 untuk menjaga keseimbangan, kontak taktil, dan koordinasi tubuh secara keseluruhan
Pembagian ini berasal dari batasan fisika. Jika perintah gerak hanya dikeluarkan setiap 200 milidetik (kecepatan operasi VLA besar), gerakan robot akan sangat lambat, seolah bergerak di bawah air. Frekuensi pembaruan perintah gerak harus lebih cepat daripada osilasi alami sendi yang dikendalikannya, yang berarti diperlukan ratusan hingga ribuan pembaruan per detik. Tidak ada model Transformer dengan 7 miliar parameter yang dapat berjalan secepat itu pada robot yang beroperasi dengan baterai.
Oleh karena itu, tugas kognitif dibagi: model besar dan lambat bertanggung jawab atas pemikiran; model kecil dan cepat bertanggung jawab atas tindakan. Mereka tidak berkomunikasi dalam bahasa Inggris, tetapi melalui vektor laten yang dipelajari: model lambat mengirimkan tujuan abstrak, sedangkan model cepat tahu cara menafsirkannya.
Enam: Masalah penempatan cloud, edge computing, dan "otak"
Di mana semua perhitungan ini dilakukan?
Saat ini, hampir terbentuk konsensus yang kuat, hampir ideologis, di antara tim robotika bahwa loop kontrol inti yang berkaitan dengan keamanan harus berjalan secara lokal. Ada dua alasan:
Latensi. Waktu perjalanan pulang-pergi melalui WiFi atau jaringan seluler, bahkan dengan perkiraan optimis, adalah 30-80 milidetik. Sementara perintah tindakan perlu diperbarui setiap 1-5 milidetik. Siklus jaringan semacam ini tidak dapat berfungsi dengan normal.
Keandalan. Robot beroperasi di pabrik, gudang, dapur, rumah sakit, dan tempat lainnya. Jaringan bisa putus kapan saja. Jika robot berhenti bekerja begitu Wi-Fi terputus, itu akan menjadi bahaya keamanan.
Jadi, pembagian modern kira-kira sebagai berikut:
Dipasang langsung (lokal), berjalan pada perangkat seperti modul NVIDIA Jetson Thor atau AGX Thor (sekitar 2.000 TFLOPS, 128 GB memori, konsumsi daya 40–130 W):
- Semua fitur S0/S1: keseimbangan, gerakan, kontrol gerakan halus.
- VLA itu sendiri (sistem 2), untuk menyesuaikan dengan batasan perangkat keras, semakin sering diquantisasi ke format FP8 atau FP4. Saat ini, model dengan rentang 2 miliar hingga 7 miliar parameter dapat dijalankan di perangkat.
- Persepsi, sensor fusion, dan program pemantauan keamanan yang dapat mencakup operasi lainnya.
Cloud atau server jarak jauh (jika ada):
- Antarmuka percakapan (“Hei, robot, apa yang harus saya makan untuk makan malam?”): antarmuka ini dapat mentolerir keterlambatan.
- Cluster learning: Ribuan robot mengirimkan data operasi jarak jauh kembali ke server untuk dirangkum ke dalam model versi berikutnya.
- Diperlukan perencanaan jangka panjang skala besar, yang mungkin menggunakan model berskala mutakhir.
- Dashboard dan pemantauan operator.
Selain itu, ada lapisan tengah yang terus berkembang: server edge lokal di pabrik atau gudang, yang berkomunikasi dengan klaster robot melalui jaringan lokal dengan latensi hanya beberapa milidetik. LLM yang lebih besar mungkin di部署 di lapisan ini, bertanggung jawab untuk menjalankan tugas penjadwalan tingkat tinggi yang tidak perlu dikelola sendiri oleh masing-masing robot.
Gelombang robot manusia di Tiongkok dibangun berdasarkan asumsi ini: Unitree, AgiBot, Xpeng IRON, Fourier, EngineAI. Robot mereka dilengkapi dengan kemampuan komputasi onboard (biasanya Jetson, terkadang menggunakan chip domestik seperti Huawei Ascend), sementara cloud digunakan untuk pembelajaran klaster dan antarmuka percakapan, bukan loop kontrol.

Lokasi sebenarnya di mana otak robot berjalan: sirkuit kritis keamanan berjalan secara lokal, sedangkan cloud digunakan untuk menangani hal-hal yang bisa ditunggu.
Tujuh: Mengapa model open-source tiba-tiba menjadi sorotan
Jika hanya melihat demonstrasi, Anda mungkin menganggap bidang ini didominasi oleh beberapa perusahaan Amerika dengan modal besar. Namun kenyataannya jauh lebih kompleks daripada itu. Kecepatan perkembangan AI fisik sebagian besar ditentukan oleh model bobot open-source yang dapat diunduh dan disesuaikan oleh siapa pun.
Model-model yang tercantum di bawah ini meskipun tidak banyak, namun sangat penting:
- OpenVLA (Stanford University): Model robot universal 7B pertama yang bersumber terbuka.
- NVIDIA Isaac GR00T (N1, N1.5, N1.7): Bobot open-source akan segera dirilis, dan lisensi komersial juga akan segera tersedia; model ini dilatih berdasarkan puluhan ribu jam video pusat manusia. GR00T N1.7 dirilis pada Maret 2026, pada saat itu setiap pengguna robot humanoid dapat menggunakan arsitektur sistem gandanya secara gratis.
- Physical Intelligence's π0: Rilis bobot untuk penelitian.
- NVIDIA Cosmos: Model dasar dunia terbuka.
- AgiBot World: Kumpulan data open source besar dari perusahaan rintisan Shanghai, mencakup demonstrasi robot humanoid yang dikendalikan jarak jauh.
- LeRobot dari Hugging Face: sebuah perpustakaan terbuka yang telah menjadi pusat汇聚 bagi semua platform di atas.
- Mimic robotics's mimic-video: sebuah model video-ke-gerakan open-source yang memiliki efisiensi sampel 10 kali lebih tinggi daripada VLA tradisional.
Ini penting karena dua alasan. Pertama, perusahaan rintisan robot tidak perlu lagi menghabiskan puluhan juta dolar untuk pra-pelatihan model dasar: mereka bisa mengambil GR00T atau π0, lalu melakukan pelatihan lanjutan dengan data robot mereka sendiri. Unitree, ZhiJi Power, Booster, Galbot, dan puluhan perusahaan Tiongkok berukuran lebih kecil sedang melakukannya. Inilah mengapa perusahaan dengan hanya beberapa ratus karyawan mampu menghasilkan robot humanoid yang bisa berjalan, berbicara, dan melipat pakaian: mereka berdiri di atas bahu tumpukan teknologi open-source.
Selanjutnya, model open-source adalah satu-satunya pendekatan realistis untuk menyelesaikan masalah keamanan. Jika sebuah model sepenuhnya tertutup berjalan di dalam tubuh robot pabrik, dan pihak luar sama sekali tidak memiliki wawasan terhadap logika inferensinya, ini pasti menjadi mimpi buruk regulasi. Model terbuka memungkinkan auditor, peneliti, dan operator untuk benar-benar memeriksa apa yang sebenarnya telah dilatih pada robot tersebut.
Delapan: Masalah apa lagi yang belum terpecahkan?
Jika Anda telah menonton cukup banyak video demonstrasi robot, Anda pasti juga telah melihat banyak video kegagalan robot. Robot generasi saat ini dengan LLM+VLA memang mengesankan, tetapi juga memiliki keterbatasan yang jelas. Berikut adalah masalah yang ada:
- Pemulihan di tengah tugas. Kemampuan VLA untuk menangani perubahan tak terduga lebih unggul daripada teknologi sebelumnya. Namun, ketika hal-hal benar-benar salah (misalnya kesalahan pengambilan, objek bergulir, atau seseorang memasuki area kerja), kembali ke jalur yang benar tetap menjadi kelemahan. Robot akan terus mengulangi tindakan gagal secara buta.
- Efisiensi sampel. Melatih VLA dari awal memerlukan ribuan jam data operasi jarak jauh. Sementara manusia dapat belajar mengoperasikan alat baru dalam beberapa menit. Kesenjangan efisiensi ini sangat besar.
- Generalisasi lintas entitas. Model yang dilatih dengan lengan robot Franka di laboratorium Stanford tidak dapat dipindahkan secara sempurna ke robot humanoid Unitree di gudang Shenzhen. Bentuk fisik keduanya berbeda.
- Tugas jangka panjang. Tugas apa pun yang memerlukan perilaku konsisten lebih dari 30-60 detik dan mencakup beberapa sub-tujuan cenderung menyimpang dari tujuan. Tugas seperti "Buatkan saya sarapan" selalu tak tercapai.
- Fakta fisika. VLA diajarkan melalui pelatihan imitasi, bukan pelatihan pemahaman. Ia tidak benar-benar memahami prinsip bahwa air akan tumpah ketika sebuah gelas terguling. Ia hanya pernah melihat beberapa contoh dan memprediksi apa yang akan terjadi selanjutnya berdasarkan pencocokan pola.
- Kemampuan penalaran spasial. Meskipun bersifat multimodal, mereka sangat lemah dalam tugas-tugas seperti “menghindari rintangan daripada melewatinya” atau “menumpuk benda-benda ini tanpa merobohkannya”.
Kerentanan terakhir dalam rangkaian ini mendorong bidang ini untuk mulai mempertaruhkan pada model yang sama sekali berbeda.
Sembilan: Model Dunia
Bayangkan ini: apa yang terjadi jika kita melatih robot untuk memprediksi konsekuensi dari tindakan, bukan untuk memprediksi tindakan itu sendiri?
World Model adalah jaringan saraf yang memprediksi keadaan masa depan dunia berdasarkan keadaan dunia saat ini (biasanya berupa video atau rangkaian frame gambar) dan tindakan yang telah ditentukan. Secara sederhana, Anda bisa membayangkannya sebagai prediktor video pembelajar yang dilengkapi kemudi. Anda memberinya gambar kamera dari detik terakhir dan memberi tahu bahwa “robot akan menggerakkan lengan ke depan sejauh 10 cm”, lalu ia akan menghasilkan video realistis yang memprediksi tampilan detik berikutnya.
Mengapa ini penting?
Karena begitu memiliki model dunia, robot dapat berpikir sebelum bertindak. Ia dapat merancang tiga hingga empat tindakan kandidat berbeda secara pra-visualisasi, memprediksi hasil dari setiap tindakan, memberi peringkat, dan memilih solusi terbaik. Semua ini dilakukan sebelum gerakan motor dimulai. Ini persis cara kerja mesin catur: ia tidak mengingat langkah-langkah, tetapi mensimulasikan masa depan. Sebelumnya, kemampuan semacam ini belum pernah dimiliki di bidang robotika fisik, karena tidak pernah ada model yang cukup akurat untuk mensimulasikan dunia nyata yang rumit.

Model dunia memungkinkan robot mensimulasikan berbagai skenario masa depan yang mungkin, memberi peringkat pada masing-masing, dan memilih solusi terbaik sebelum motor mana pun diaktifkan.
Seperti apa model dunia tahun 2026?
Model dunia tercanggih saat ini sangat beragam, tetapi berkembang pesat. Berikut beberapa model:
- NVIDIA Cosmos: serangkaian model dasar dunia terbuka, termasuk Cosmos Predict 2.5 (model generatif), Cosmos Transfer 2.5 (model simulasi yang dapat dikendalikan), Cosmos Reason 2 (visual language reasoner untuk robot), serta Cosmos Policy terbaru. Cosmos Policy melangkah lebih jauh dengan menghasilkan tindakan langsung untuk kontrol melalui post-training pada model dunia. Cosmos dilatih menggunakan data video selama puluhan ribu jam GPU (Cosmos Predict 2.5 adalah model dunia dalam seri ini).
- DeepMind Genie 3: Sebuah model dunia interaktif yang dapat menghasilkan lingkungan sepenuhnya dapat dinavigasi berdasarkan petunjuk teks, dengan kecepatan frame 24 frame per detik dan dapat berjalan stabil selama beberapa menit. Awalnya dirancang untuk lingkungan game.
- Meta V-JEPA 2: Memanfaatkan lebih dari satu juta jam video web selama pelatihan awal, lalu hanya 62 jam video robot untuk pelatihan bersyarat aksi. Dengan tanpa pelatihan tugas spesifik apa pun, berhasil mencapai tingkat keberhasilan zero-shot pick-and-place sebesar 80% pada lengan robot nyata di berbagai laboratorium. Metode "JEPA" secara arsitektural sangat berbeda dari metode lainnya.
- DeepMind Dreamer 4: Hanya dengan menggunakan data offline, tanpa interaksi lingkungan apa pun, berhasil belajar mengumpulkan berlian di Minecraft (tugas 20.000 langkah). Ini membuktikan bahwa pembelajaran penguatan nyata di dunia virtual adalah可行.
- AgiBot's Genie Envisioner: Platform model dunia seragam dari Tiongkok, dilatih menggunakan lebih dari 3.000 jam video operasi robot humanoid dunia nyata. Platform ini dapat menghasilkan trajektori ekspansi yang diprediksi maupun trajektori tindakan yang dapat dieksekusi. AgiBot menggunakan NVIDIA Cosmos Predict 2 sebagai jaringan tulang punggung, serta melakukan post-training dengan data sendiri. Ini adalah model "tumpukan teknologi open source + data sendiri" yang telah dijelaskan sebelumnya.
- Toyota Research Institute's world model based on Cosmos: for remote operation data augmentation and navigation.

Enam model dunia terpenting tahun 2025-2026, masing-masing memiliki gagasan berbeda tentang bagaimana mesin seharusnya mempelajari fisika.
Sepuluh: Arsitektur alternatif, karena bidang ini belum disepakati
Membangun model dunia tidak memiliki standar tunggal. Perdebatan arsitektur adalah salah satu perdebatan paling menarik di bidang AI saat ini, yang secara langsung memengaruhi apa yang dapat dilakukan robot di masa depan. Tiga kubu berikut patut diperhatikan:
Video diffusion pada tingkat piksel (sekolah Cosmos/Sora): Menggunakan model difusi untuk memprediksi piksel aktual dari frame masa depan. Kelebihannya adalah dapat berfungsi sebagai generator data sintetis yang dapat merender demonstrasi robot baru yang belum pernah terjadi sebelumnya. Kekurangannya adalah biayanya tinggi, terkadang melanggar hukum fisika, dan memprediksi piksel yang tidak akan pernah dilihat merupakan pemborosan.
Joint Embedding Predictive Architecture, disingkat JEPA (sekolah LeCun): tidak memprediksi piksel, tetapi memprediksi representasi abstrak dari frame berikutnya. Meninggalkan detail tekstur, hanya mempertahankan esensi semantik dari objek dalam adegan. Kelebihannya adalah efisien dan fokus pada faktor-faktor yang penting untuk tindakan. Kekurangannya adalah sulit digunakan. V-JEPA, V-JEPA 2, dan model hibrida JEPA-VLA baru sedang mengeksplorasi bidang ini.
Potential Action World Models (Genie/Dreamer paradigm): Learn to compress entire video sequences into a latent "action language" that captures behavioral structure, then train a world model to predict the next latent state based on the next latent action. The advantage is that you can train using unlabeled internet videos and then add only a small amount of real robot data. The drawback is that latent actions are not interpretable by humans, making safety analysis more complex.

Pixel diffusion, JEPA, dan latent actions: tujuan yang sama, cara membangun model dunia yang sangat berbeda
Eleven: Aplikasi Nyata Robot Berbasis Model Dunia
Jika diputar cepat beberapa tahun ke depan, arsitektur robot humanoid canggih mungkin terlihat seperti ini:
VLA membawa model dunia. Ketika robot menghadapi situasi baru, ia akan melakukan operasi serupa berikut:
- VLA mengusulkan beberapa opsi tindak lanjut (masih merupakan strategi).
- Model dunia akan mengambil setiap tindakan kandidat dan mensimulasikan video khayalan selama 1-3 detik.
- Penilai nilai akan memberi skor berdasarkan hasil yang diasumsikan: Gelas telah diangkat? Ada sesuatu yang jatuh? Seseorang tertabrak?
- Robot akan memilih tindakan dengan skor tertinggi dan hanya menjalankan bagian pertamanya.
- Real sensor data feedback; loop repetition.
Ini adalah model predictive control, teknologi yang selama bertahun-tahun telah digunakan untuk menstabilkan roket dan quadcopter, tetapi ia menggantikan persamaan fisika yang diturunkan secara manual dengan model dunia yang dipelajari. Skalabilitasnya terletak pada fakta bahwa model dunia dilatih terlebih dahulu berdasarkan jutaan jam video, bukan karena seseorang menulis persamaan Navier-Stokes untuk lingkungan dapur.
Manfaatnya bertingkat-tingkat:
- Kondisi pemulihan telah membaik. Jika terjadi kesalahan dalam tindakan pengambilan, model dunia dapat membayangkan berbagai jalur koreksi dan memilih jalur yang paling menjanjikan.
- Kemampuan generalisasi meningkat. Model dunia yang dilatih berdasarkan video web mengalami fenomena fisik beberapa orde lebih banyak daripada set data operasi jarak jauh robot apa pun.
- Perencanaan jangka panjang menjadi terkendali. Merencanakan dalam imajinasi, bukan dalam kenyataan.
- Kesenjangan antara simulasi dan realitas semakin mengecil. Sebelumnya, pelatihan harus dilakukan menggunakan simulator yang dibuat sendiri (misalnya Isaac Sim, mesin fisika Newton), lalu berharap hasil pelatihan dapat dipindahkan ke aplikasi nyata; sekarang, pelatihan dapat dilakukan menggunakan simulator yang telah dilatih dan dapat disesuaikan dengan video nyata. Oleh karena itu, kesenjangannya lebih kecil.
- Data sintetis tumbuh secara eksponensial. Sebuah model dunia hampir dapat menghasilkan jutaan jejak robot yang berbeda secara gratis, mencakup berbagai pencahayaan, material, dan konfigurasi objek. Ini menyelesaikan salah satu hambatan terbesar di bidang ini.
Selain itu, ia juga memiliki keunggulan keamanan yang penting. Robot yang mampu mensimulasikan konsekuensi tindakan dapat menolak menjalankan operasi berbahaya: bukan karena batasan aturan yang telah ditetapkan, tetapi karena ia memprediksi bahwa di masa depan mungkin ada orang yang terluka.

Dua cara bergerak: VLA bereaksi berdasarkan yang dilihat; robot model dunia berpikir sebelum bergerak
十二:Masih ada hal yang harus diketahui
Masalah data adalah masalah inti yang sebenarnya: jika tidak dapat memberikan data kepada model, semua inovasi arsitektur di dunia tidak akan membantu. Saat ini, operasi jarak jauh (manusia mengenakan perangkat VR untuk mengendalikan robot secara remote seperti marionette) merupakan hambatan teknis utama. Keunggulan kompetitif perusahaan robotik semakin bergantung pada jalur pengumpulan data mereka, bukan pada model itu sendiri. Agi Robotics telah membangun gudang yang penuh dengan operator. Hukum ekspansi kelincahan NVIDIA GR00T N1.7 menunjukkan bahwa lebih banyak video sudut pandang orang pertama manusia secara langsung dan dapat diprediksi akan meningkatkan kelincahan robot. Ini juga merupakan salah satu alasan mengapa Tiongkok memiliki keunggulan struktural: biaya tenaga kerja pengumpulan data yang lebih rendah, lingkungan penerapan yang lebih toleran, serta koordinasi aktif pemerintah terhadap rantai pasokan.
Simulasi adalah alam semesta paralel. Isaac Sim dari NVIDIA, mesin fisika open-source baru Newton (versi 1.0 akan dirilis resmi pada April 2026), dan platform Omniverse memungkinkan perusahaan melatih robot di jutaan lingkungan simulasi paralel tanpa harus menerapkannya ke dunia nyata. Sebagian besar fungsi yang tampak seperti "kecerdasan robot" sebenarnya dikembangkan di lingkungan simulasi, lalu dipindahkan ke perangkat keras.
Ekonomi mulai menunjukkan hasil. Unitree mengirimkan sekitar 5.500 unit robot humanoid pada tahun 2025 dan berencana mencapai 10.000 hingga 20.000 unit pada tahun 2026. Harga rata-rata turun dari $85.000 menjadi $25.000 dalam dua tahun. Harga R1 Unitree adalah $5.900. Harga peluncuran Noetix Bumi adalah $1.400. Harga perangkat keras robot humanoid sedang mendekati tingkat harga produk elektronik konsumen, sementara teknologi AI di dalamnya masih tertinggal dari produk demonstrasi. Kesenjangan ini pada akhirnya akan menyempit, dan ketika itu terjadi, peningkatan ukuran pasar akan memberikan dampak signifikan terhadap seluruh industri.
Mode kegagalan tampak aneh. Ketika robot berbasis LLM gagal, cara mereka gagal seringkali tidak dapat dilakukan oleh robot tradisional. Misalnya, dengan percaya diri melakukan kesalahan, mengalami "halusinasi" terhadap fitur tertentu, atau terjebak dalam siklus percakapan dengan planner mereka sendiri. Dunia robot tradisional memiliki tingkat kecurigaan yang cukup besar terhadap hal ini, dan kecurigaan tersebut tidak salah, karena mereka menekankan bahwa sistem pembelajaran harus dipantau secara aman dan dibatasi perilakunya. Robot yang paling andal saat ini yang telah diterapkan adalah jenis hibrida: otak VLA ditempatkan di dalam kandang keamanan yang dirancang secara manual.
Narratif tentang "waktu ChatGPT" adalah metafora yang berguna tetapi menyesatkan: Jensen Huang terus memberi tahu semua orang bahwa waktu ChatGPT untuk robot telah tiba. Dia mengatakan hal itu karena NVIDIA menjual sekop dan pacul. Versi yang lebih jujur adalah: saat ini kita kira-kira berada di era GPT-2 untuk AI fisik. Teknologi ini sangat kuat dan mampu membuat Anda terkesan; namun belum cukup kuat untuk dideploy tanpa pengawasan. Ia sedang mengalami iterasi cepat, tetapi belum mencapai titik ledakan viral, melainkan berada pada jalur kenaikan yang perlahan namun teguh.
Penutup

Perkembangan robot empat kaki Unitree (dari kanan ke kiri)
Dalam demonstrasi yang dilihat di kantor Unitree, lima robot humanoid G1 melakukan seni bela diri dengan gerakan yang dirancang secara hati-hati, dikontrol secara halus oleh controller bertipe VLA onboard, dan diawasi oleh operator jarak jauh untuk memastikan semuanya berjalan lancar. Pada dasarnya, ini bukan sepenuhnya otonom. Namun seluruh proses: persepsi, perencanaan, dan kontrol gerak, sedang digantikan oleh jaringan saraf. Dua tahun kemudian, robot yang sama mampu melakukan gerakan yang sama tanpa perlu dirancang sebelumnya, karena ia telah merancang seluruh gerakan tersebut secara internal dan memilih versi terbaiknya.
Seluruh perkembangan yang dijelaskan dalam artikel ini: dari pengendali yang ditulis manual, hingga kesadaran pembelajaran mesin, kemudian perencana LLM, hingga VLA, hingga arsitektur sistem ganda, dan akhirnya ke model dunia, sebenarnya merupakan pergeseran perlahan dari lokasi kecerdasan robot. Itu dimulai dari pikiran insinyur, kemudian berkembang menjadi kode yang ditulis manual, lalu memasuki lapisan persepsi, masuk ke perencana, lalu ke lapisan strategi. Sekarang, ia akhirnya bergerak menuju pembentukan model dunia itu sendiri.
Setiap transformasi membuat robot menjadi lebih serbaguna, lebih adaptif, dan lebih berguna. Jika transformasi model dunia berhasil, ia akan benar-benar memberi robot kemampuan yang kuat: cukup kuat hingga masalahnya bukan lagi “Apa yang bisa dilakukan robot?” , tetapi “Apa yang seharusnya kita biarkan mereka lakukan?”
Bacaan terkait: Meninjau 30+ perusahaan robot manusia: Siapa yang akan menang pada 2026?
