Koddan Bilişe: Robot Beyinlerinin Gelişiminin Derinlemesine İncelenmesi

Yazar: Matt White, Linux Foundation Küresel AI Baş Teknoloji Müdürü

Felix, PANews

İnsan benzeri robot

Wang Xingxing (Yushu Teknoloji CEO) ve Matt White

Birkaç hafta önce Şanghay'dayken, birlikte seyahat eden bir arkadaşım (akıllı, genellikle haberleri takip eden ve etrafını dikkatle izleyen ama robotik teknolojisi hakkında pek bilgisi olmayan) akşam yemeğinde seyahat boyunca beklediğim soruyu sordu.

Gördüğümüz四处跑动 olan robot köpekler, Yutian ofisindeki sahne üzerinde kung fu gösterisi yapan insan benzeri robotlar ve giysileri katlayan robot kollar nasıl çalışıyor? Bunlar büyük dil modelleri (LLM) tarafından mı yönetiliyor? Bu tam olarak nasıl çalışıyor? Bu robotların hareketlerini kontrol eden özel bir dil modeli mi var?

Bu çok iyi bir soru, dürüst olmak gerekirse: bir anlamda evet, ancak gerçek hikaye bunun çok daha ilginç. Sosyal medyada gördüğünüz robotlar, metal bir kılıfa giyilmiş ChatGPT'ler değildir. Bunlar, çok katmanlı bir AI yığınıyla çalışır (birbirleriyle işbirliği yapan). Bu yığın, son üç yılda önceki otuz yıldan daha fazla değişim geçirdi. Dil modelleri bunun bir parçasıdır. Görsel modeller, eylem modelleri, davranış ağaçları, klasik kontrol döngüleri ve “dünya modeli” adı verilen yeni bir sistem ailesi de önemli bileşenlerdir. Ve “dünya modeli”, tüm gelişmeler arasında belki de en önemlisidir.

Bu, baştan başlayıp her büyük değişimi adım adım anlatan uzun bir metindir ve sonunda şu anki aşamaya ulaşır: robotlar artık dünyaya tepki vermekle kalmıyor, aynı zamanda dünyayı hayal edebiliyor.

Birinci: Önceki LLM dönemi: Robotlar hâlâ yazılım iken

Yıllarca, robot üretmek, büyük miktarda kod yazmak anlamına geliyordu ve bu kodların neredeyse hepsi öğrenmeye gerek yoktu.

Klasik endüstriyel robotlar, dikkatle tasarlanmış modüllerden oluşan bir kule yapısına sahiptir. Örneğin, 1990'larda Toyota şasisini kaynaklayan turuncu robot kolları veya 2000'lerin başındaki Boston Dynamics'ın BigDog'u.

Algılama: Kamera görüntüsünü filtreleyerek kenar tespiti yapmak ve geometrik eşleştirme ile parça konumunu tanımlamak.
Durum tahmini: Tekerlek kodlayıcı, jiroskop ve ivme ölçerleri (sensör birleştirme) kullanarak robotun konumunu ve hareket hızını belirleme.
Planlama: Verilen hedef pozisyon için, bilinen haritada çarpmadan geçecek bir yol, A* veya RRT gibi algoritmalarla hesaplanır.
Kontrol: En alt seviyede, PID kontrolcüsü bu yolu takip etmek için saniyede yüzlerce kez motor torkunu ayarlar.

Bu katmanlar genellikle farklı laboratuvarlardan farklı kişiler tarafından yazılmış ve son derece dikkatli bir şekilde birleştirilmiştir. Davranışlar (örneğin, “eğer kupayı kırmızıysa al, aksi halde bekle”) durum makinesi veya davranış ağacı olarak kodlanır: yani robotun adım adım gerçekleştirdiği akış şeması.

İnsan benzeri robot

Bu yöntemin avantajları açıktır. Öngörülebilirdir ve güvenlik standartlarına uygundur. İşte neden arabanızda etkili bir ABS (Antilokaj Fren Sistemi) bulunur.

Dezavantajları da aynı derecede açıktır. Bu tür bir robot, mühendislerin öngördüğü senaryolarda yalnızca akıllılığını sergileyebilir. Yeni bir fabrikaya, yeni ışık koşullarına veya yeni bardak renklerine konulduğunda çöker. Genelleştirme yeteneği neredeyse sıfırdır.

İkinci: Makine öğrenimi sessizce girmeye başladı

2010'lu yıllarda derin öğrenme, algı katmanı sorunlarını çözmeye başladı. ImageNet görüntü sınıflandırma görevinde insanları yenen konvolüsyonel sinir ağları (CNN), nesnelerde tutma noktalarını tespit etmek, odadaki mobilyaları segmente etmek veya insan pozisyonlarını tanımlamak için yeniden eğitilebilirdi. Aniden, teknoloji yığınının tepesindeki “algı” katmanı artık elle tasarlanmaya gerek kalmadı; doğrudan eğitilebilirdi.

Daha sonra, öğrenme mekanizması "kontrol" katmanına yayıldı. Berkeley Üniversitesi, DeepMind ve OpenAI araştırmacıları, güçlendirilmiş öğrenmenin (robot ajanların simülasyon ortamlarında milyonlarca kez deneme yaparak etkili davranışları pekiştirmesi) şaşırtıcı derecede ustaca yürüyüşler, elde nesne manipülasyonları (OpenAI'nin 2019'da tek elle rubik küpünü çözmek bir dönüm noktasıydı) ve farklı arazi türlerine uyum sağlayan hareket stratejileri ürettiğini gösterdi.

Paralel bir araştırma yönü, genellikle davranış klonlaması olarak bilinen taklit öğrenimidir: Bir insanın robotu uzaktan kontrol ederek bir görevi tamamlamak için yüzlerce deneme kaydedilir, ardından sinir ağı, robotun gözlemlediği duruma göre insanın ne eylemi gerçekleştireceğini tahmin etmek için eğitilir.

Her şeyin anahtarı şudur: her öğrenilen strateji çok dar kapsamlıdır. Bir ağı bir kırmızı bloğu almak için eğitirseniz, sarı bir kupayı nasıl işleyeceğini bilmez. Onu çimli bir zeminde yürümeye eğitirseniz, fayanslı zeminde düşer. Genelleştirme yeteneği hâlâ çözülmesi gereken büyük bir sorundur.

Dikkat edilmesi gereken nokta, bu dönemde hala neredeyse her şeyi destekleyen bir altyapının ortaya çıkmasıdır: ROS (Robot Operasyon Sistemi), ilk olarak 2007 Kasımında yayınlanmıştır. ROS, Windows veya Linux anlamında bir işletim sistemi değil, bir ara yazılım çerçevesidir, genel bir robot veri boru hattı sistemidir. “Kamera düğümü”, “navigasyon düğümü”, “mekanik kol kontrolcüsü düğümü” ve onlarca diğer düğümün ortak bir veri yolu üzerinden mesaj yayınlamasını ve abone olmasını sağlar.

ROS2, Stanford Üniversitesi'nin laboratuvarlarından Çin'in insan benzeri robot startup'larına kadar küresel çapta çoğu bilimsel ve ticari robotun alt yapısında çalışmaktadır. İnsanlar robotların “işletim sistemi”nden bahsederken, neredeyse her zaman ROS2'yi ve üzerinde çalışan çeşitli algılama, planlama ve kontrol paketlerini kastediyorlar.

İnsan benzeri robot

ROS2: İşletim sistemi değil, bağımsız robot yazılımlarının birbirleriyle iletişim kurmasını sağlayan genel bir kanaldır.

Üç: LLM'lerin robotik alanında kullanımı

Ardından ChatGPT doğdu.

Aniden böyle bir şey ortaya çıktı: LLM. Basit İngilizce talimatları okuyabilir, çok adımlı çıkarımlar yapabilir, kod yazabilir ve fonksiyonları çağırabilir. Robotikçiler hemen fark ettiler ki, bu yıllardır çözmeye çalıştıkları eksik parçaydı. Evde veya ofiste faydalı görevler yapmak için robotlar oluşturmakta en zor kısım genellikle motor kontrol değil, insan-robot etkileşimi: İnsan, robotlara ne yapmaları gerektiğini nasıl anlatır ve robot, bu hedefi, zaten nasıl yapacağını bildiği atomik eylemlere nasıl böler?

Makinelere LLM uygulamanın ilk dalgası, dil modellerini ROS'un üzerinde bir doğal dil derleyicisi olarak görmektir. Şablon şu şekildedir:

Mutfak tezgâhındaki kahve fincanını getirip masama koy.
LLM, robotun kullanılabilir atomik beceriler listesine göre plan oluşturur: fonksiyon çağrıları dizisi, durum makinesi veya XML ile yazılmış davranış ağacı olabilir.
ROS2 düğümleri planı adım adım yürütür. Bir adım başarısız olursa, başarısızlık bilgisi LLM'ye raporlanarak yeniden planlama yapılır.

Google'un 2022 SayCan projesi, bu fikrin çok basit bir versiyonuydu: LLM beceriler önerir, bağımsız bir “mümkünlük” modeli her becerinin şu anki başarı olasılığını değerlendirir ve robot en yüksek birleşik puanı alan beceri kombinasyonunu seçer. Huawei Araştırma Laboratuvarı'nın öncülük ettiği ROS-LLM, ROSGPT ve ROSA gibi açık kaynak çerçeveler bu modeli yaygınlaştırdı.

Bu gerçekten önemli bir sıçramadır. Aniden, robotunuza “masayı temizle, geri dönüşümlüleri mavi çöp kutusuna koy” diyebiliyorsunuz ve robot bunu yapmak için mantıklı bir eylem deniyor. Ancak burada hâlâ bazı sorunlar var: dil modeli hâlâ planlama katmanında. Gerçek hareket komutları, hâlâ özenle tasarlanmış ya da özel olarak eğitilmiş alt seviye kontrolcüler tarafından oluşturuluyor. Dil modeli sadece akıllı bir tahsis edici; doğrudan hareketi sağlamıyor.

İnsan benzeri robot

Dört: Görsel-Dil-Eylem Modeli (VLA), beynin robotu yönlendirmeye başladığında

İnsan benzeri robot

Keenon XMAN-R1 robot, Beijing'deki Galbot şirketi otomatik eczanesinde raftan ilacı almaktadır. Sadece 100.000 ABD doları

Sonraki sıçrama daha zor ve daha önemli olacak. Araştırmacılar daha ambitiyöz bir soru ortaya attı: Eğer model sadece plan yapmakla kalmayıp doğrudan eylem komutları da üretebilirse? Eğer kamera görüntülerini ve dil komutlarını doğrudan bir sinir ağına girdi olarak verip bir sonraki milisaniyelik eklemler hareketini elde edebilirsek?

Bu, görsel-dil-eylem modelidir (VLA). Şu anda insan benzeri robotlar ve dört ayaklı robotlar alanında ana akım paradigmadır.

İlk yaygın olarak bilinen görsel-dil robotu, Google DeepMind'in 2023'te çıkardığı RT-2'dir. İnce fikri şudur: Büyük bir görsel-dil modeli (bu model, görselleri tanımlama ve sorulara cevap verme için eğitilmiş) kullanılır ve robot gösteri verileriyle ek olarak eğitilir; ancak robot hareketleri, tahmin edilmesi gereken başka bir sembol olarak ele alınır. Aynı sinir ağı daha önce "kedi halı üzerinde oturuyor" çıktısı veriyordu, şimdi ise "sağ kulağı 3 cm ileriye doğru hareket ettir, kulağı kapat, 5 cm yukarı kaldır" gibi bir dizi sembol çıktı veriyor. Akıl yürütme ve eylem aynı modelde tamamlanır.

Daha sonra 2024 ortasında, Stanford Üniversitesi liderliğindeki bir ekip, Open X-Embodiment veri kümesi üzerinde eğitilmiş 7 milyar parametreli açık kaynaklı bir VLA modeli olan OpenVLA'yı yayınladı. Bu veri kümesi, 21 farklı araştırma laboratuvarından ve 22 farklı robot gövdesinden oluşan bir milyondan fazla eğitim parçasını bir araya getiriyor. Bu, Google dışındaki kişilerin ilk kez genel bir robot modelini indirip değiştirmeye başlayabileceği an oldu. Bu, tüm alanı bir gece içinde değiştirdi.

Şu anda, sayısı az olmakla birlikte hızla gelişen önde gelen VLA'lar:

Physical Intelligence'den π0 ve π0.5: Harika görev uygunluğu.
NVIDIA Isaac GR00T N1.7: Açık kaynak ağırlıklar, ticari lisans, insan benzeri robotlar için tasarlanmıştır ve Çinli çoğu donanım şirketi şu anda kendi verileriyle bunu sonrası eğitimi yapmaktadır.
Figure AI'nin Helix ve güncellenmiş Helix-02'si: Özgün teknoloji, ancak mimari olarak çok önemli.
AgiBot'un Genie Envisioner'i: Çin dünya modeline dayalı bir platform.
SmolVLA, NORA, ACoT-VLA, CogACT: Akademik dünyada, farklı tasarım yönlerini keşfeden artan sayıda VLA ortaya çıkıyor.

VLA'nın nasıl çalıştığı (matematiksel formüller olmadan)

VLA'yı, üç girdi sinyalini bir çıktı sinyaline birleştirmek olarak düşünebilirsiniz.

İlk veri akışı görsel veridir. RGB kamera (bazen derinlik sensörü veya lidar), bazen de parmak uçlarındaki dokunsal sensörler, her bir görüntüyü robotun gördüğü şeyleri özetleyen yüzlerce “görsel token” haline getiren bir görsel kodlayıcı (genellikle DINOv2 veya SigLIP gibi Transformer modelleri) tarafından işlenir.

İkinci veri akışı dildir. Talimatınız (“matkapı bana verir misiniz?”) ChatGPT'de olduğu gibi tokenlara dönüştürülür.

Bu iki veri akışı birleştirilerek bir Transformer “gövdesine” (genellikle Qwen3 veya Llama gibi küçük açık kaynak dil modelleri) verilir. Bu gövde, gördüğü bilgileri sorulan bilgilerle birleştirerek çıkarım yapar.

Üçüncü veri akışı: Eylem, diğer uçtan akıyor. Burada çeşitli mimari tasarımlar ayrılıyor:

Diskret aksiyon token'ları: Model, ChatGPT'nin kelimeler ürettiği gibi, eklemlerin açılarını veya son effektör konumlarını kodlayabilecek token'ları doğrudan üretir. Bu yöntem basittir, ancak yüksek frekansta çalıştırıldığında sarsıntıya neden olur.
Yayılma veya akış eşleştirme (flow-matching) eylem başlığı: Ana ağın çıktısını alan bağımsız bir minyatür ağı, görüntü yayılma modelleri gibi, ancak hareket üretirken, düzgün bir eklemler konumu yörüngesi oluşturur. Bu, π0’in yaptığı şeydir ve daha düzgün, daha doğal eylemler üretir.
Aksiyon bloklama: Bir sonraki tek bir komutu tahmin etmek yerine, yarı saniyelik bir komut setini aynı anda tahmin ederek titreşimleri düzleştirin.

İnsan benzeri robot

VLA modelinde: İki giriş akışı girer, hareket komutu çıkar, çıkarım ve eylem bir ağda birleştirilir.

Bu kritik bir mimari dönüşümdür: çıkarım ve eylem artık ayrılmıştır. Sinir ağına bardağı tanıtmak, aynı zamanda bardağı nasıl kavrayacağını da öğretir. Bu bağlanma, VLA'nın öncüllerinin yapamadığı genelleştirmeyi mümkün kılar.

Beş: İki Beyin Stratejisi, LLM ve VLA nasıl birlikte çalışır

Pazarlamada nadiren açıkça açıklanan bir ayrıntı burada var. Günümüzde en iyi performansı gösteren insansı robotlar, tek bir VLA sistemi değil, birbirleriyle iletişim kuran iki farklı hızda çalışan modeli çalıştırmaktadır. Bu, bazen Daniel Kahneman'ın psikolojik çerçevesinden esinlenerek çift sistem veya Sistem 1/Sistem 2 mimarisi olarak adlandırılır; bu çerçeve, insanın hızlı bir sezgisel beyni ve yavaş bir derin düşünme beyni olduğunu öne sürer.

Figure AI'nin Helix'i bu tasarımı klasik hale getirdi ve şimdi bu tasarım (ve varyantları) neredeyse her yerde taklit ediliyor. Özellikle önemlisi, NVIDIA'nın GR00T N1.7'si bu tasarımı benimsedi ve çoğu Çin insanı benzeri robotu bu tasarımı kullanıyor. Yapısı şöyledir:

Sistem 2 (S2): Yavaş düşünme beyni. 7 milyar parametreli bir görsel-dil modeli, yaklaşık 7–9 Hz frekansında çalışır (yani saniyede 7 ila 9 kez). Görevi sahneleri gözlemlemek, talimatları çözümlemek, çok adımlı çıkarımlar yapmak (örneğin, “kase, gevrek kutusunun arkasında; önce kutuyu kaldırmam gerekiyor”) ve genellikle metin değil, sıkıştırılmış iç vektörler şeklinde yüksek seviyeli niyetler üretmektir.
Sistem 1 (S1): Hızlı Tepki Beyni. Yaklaşık 80 milyon parametrelik çok daha küçük bir görsel-hareket strateji modeli, 200 Hz frekansla çalışır. S2'nin niyet vektörünü ve en son sensör verilerini alır, sürekli eklemler komutu üretir. Gerçek anlamda hiçbir “düşünme” yeteneğine sahip değildir, sadece tepki verir.

Son zamanlarda Figure şirketi, Helix-02'ye Sistem 0 ekledi. Bu, çift beyin sisteminin altında yer alan ve üçüncü bilişsel katman değil, bir yansıma katmanıdır. 10 milyon parametreli ve 1 kHz frekansla çalışan bu ağ, temel denge ve vücut koordinasyonunu yönetmek için yüz binlerce satır el ile yazılan hareket kontrol C++ kodunu nörokontrolcülerle değiştirdi. S0'ı, kazanılmış bir omurilik gibi düşünebilirsiniz: S0, düşünme veya planlama yapmaz, sadece vücudun dik tutulmasını ve koordinasyonunu sağlar; düşünme, üstteki çift beyin sistemi tarafından gerçekleştirilir.

İnsan benzeri robot

Modern insan benzeri robotların çift beyni mimarisi: Sistem 2 yavaş düşünür, Sistem 1 hızlı tepki verir—altında dengede kalma, dokunsal temas ve vücut koordinasyonu için bir Sistem 0 refleks katmanı bulunur.

Bu ayrım, fiziksel sınırlardan kaynaklanır. Her 200 milisaniyede bir (bu, büyük bir VLA'nın çalışma hızıdır) hareket komutu verilirse, robotun hareketi su altında hareket eden gibi yavaş olacaktır. Hareket komutlarının güncellenme hızı, kontrol edilen eklemlerin doğal salınım hızından daha hızlı olmalıdır; bu da saniyede yüzlerce veya binlerce güncelleme gerektirir. 7 milyar parametreli herhangi bir Transformer modeli, pil ile çalışan bir robot üzerinde bu hızda çalışamaz.

Bu nedenle, bilişsel görevler bölünmüştür: büyük ve yavaş model düşünmeye, küçük ve hızlı model eyleme sorumludur. Bunlar İngilizce ile değil, öğrenilen gizli vektörler aracılığıyla iletişim kurarlar: yavaş model soyut hedefler gönderir, hızlı model ise bunu nasıl yorumlayacağını bilir.

Altı: Bulut, kenar hesaplama ve “beyin” konumlandırma sorunu

Bu tüm hesaplamalar nerede yapılıyor?

Şu anda, robot ekibleri arasında, güvenlikle ilgili temel kontrol döngülerinin yerel olarak çalışması gerektiği konusunda neredeyse ideolojik bir uzlaşının oluştuğu görülüyor. Bunun iki nedeni var:

Gecikme. WiFi veya hücresel ağın çift yönlü iletim süresi, iyimser tahminle 30-80 milisaniyedir. Ancak hareket komutları her 1-5 milisaniyede bir güncellenmelidir. Bu tür bir ağ döngüsü normal şekilde çalışamaz.

Güvenilirlik. Robotlar fabrikalarda, depolarda, mutfaklarda, hastanelerde vb. yerlerde çalışır. Ağ her an kesilebilir. Wi-Fi kesilirse robotun durması, bir güvenlik tehlikesi oluşturur.

Modern bölümler şu şekilde özetlenebilir:

Yerel olarak, NVIDIA Jetson Thor veya AGX Thor modülü (yaklaşık 2.000 TFLOPS, 128 GB bellek, 40–130 W güç tüketimi) gibi cihazlarda çalışır:

S0/S1'in tüm özellikleri: denge, hareket, ince motor kontrol.
VLA, donanım sınırlamalarına uyum sağlamak amacıyla giderek daha fazla FP8 veya FP4 formatına kuantize edilmektedir. Bugün 2 milyar ile 7 milyar parametre aralığındaki modeller cihaz üzerinde çalıştırılabilmektedir.
Algılama, sensör birleştirme ve diğer tüm işlemlerini kapsayan güvenli izleme programları.

Bulut veya uzak sunucu (varsa):

Sohbet arayüzü ("Hey, robot, akşam yemeğim için ne yapmalıyım?"): Bu arayüzler gecikmeyi kabul eder.
Küme öğrenimi: Binlerce robot, verileri uzaktan sunucuya göndererek bir sonraki model versiyonuna katkıda bulunur.
Büyük ölçekli uzun vadeli planlama yapılması gerekmektedir, önde gelen ölçek modelleri kullanılabilir.
Operatör panosu ve izleme.

Ayrıca, fabrika veya depolarda bulunan ve robot kümeleriyle yerel ağ üzerinden sadece birkaç milisaniye gecikmeyle iletişim kuran yerel kenar sunucularından oluşan giderek büyüyen bir orta katman da mevcuttur. Daha büyük LLM'ler bu katmanda dağıtılabilir ve tekil robotların kendi kendine yönetmesi gerekmeyen ileri düzey zamanlama görevlerini yerine getirebilir.

Çin'deki insan benzeri robot dalgası, Unitree, AgiBot, Xpeng IRON, Fourier ve EngineAI gibi şirketlerin robotlarının, üzerinde hesaplama gücüne (genellikle Jetson, bazen Huawei Ascend gibi yerel çipler) sahip olmaları ve bulutun kontrol döngüleri yerine kümelenmiş öğrenme ve diyalog arayüzü için kullanılması varsayımına dayanmaktadır.

İnsan benzeri robot

Robot beyninin gerçek çalışma konumu: Güvenlik kritik döngüler yerelde çalışır, bulut ise bekleyebilir işlemler için kullanılır.

Yedinci: Neden açık kaynak modelleri sessizce odak noktası haline geldi

Sadece bir gösteri izlerseniz, bu alanın az sayıda sermayeli ABD şirketi tarafından yönetildiğini düşünebilirsiniz. Ancak gerçeklik çok daha karmaşıktır. Fiziksel AI'nın gelişimi, herkesin indirebileceği ve ince ayarlayabileceği açık kaynak ağırlık modelleri tarafından büyük ölçüde belirlenmektedir.

Aşağıda listelenen modeller az olsa da önemlidir:

OpenVLA (Stanford Üniversitesi): İlk açık kaynaklı 7B genel robot modeli.
NVIDIA Isaac GR00T (N1, N1.5, N1.7): Açık kaynak ağırlıklar yakında yayınlanacak, ticari lisans da yakında eklenecek; bu model, on binlerce saatlik insan merkezli video verisiyle eğitildi. GR00T N1.7, 2026 Mart'ta yayınlanacak ve o tarihten itibaren herhangi bir insansı robot sahibi, çift sistem mimarisini ücretsiz olarak kullanabilecek.
Physical Intelligence'nin π0'sı: Araştırmaya yönelik ağırlıkların yayınlanması.
NVIDIA Cosmos: Açık Dünya Temel Modeli.
AgiBot World: Şanghay merkezli bir startup tarafından sunulan, uzaktan kontrol edilen insansı robotlar için kapsamlı açık kaynak veri seti.
Hugging Face'in LeRobot'u: Üstteki tüm platformların birleştiği açık bir kütüphane.
Mimic robotics'un mimic-video'su: Geleneksel VLA'ya göre 10 kat daha yüksek örnek verimliliğine sahip açık kaynaklı video-eksi modeli.

Bu, iki nedenle önemlidir. İlk olarak, robot startup'ları artık temel bir modeli önceden eğitmek için milyonlarca dolar harcamak zorunda değil: GR00T veya π0 alıp kendi robot verileriyle ardından eğitebilirler. Unitree, ZhiJi Dynamics, Booster, Galbot ve onlarca daha küçük Çinli şirket tam olarak bunu yapıyor. Bu, sadece birkaç yüz çalışanı olan bir şirketin yürüyebilen, konuşabilen ve çamaşırları katlayabilen insansı robotlar üretebilmesinin nedeni: onlar açık kaynak teknoloji yığınının omuzlarında duruyor.

İkinci olarak, açık kaynak modelleri güvenlik sorunlarının tek gerçekçi çözüm yoludur. Eğer tamamen kapalı kaynaklı bir model, bir fabrika ünitesindeki bir robotun içinde çalışıyorsa ve dışarıdan onun çıkarım mantığına dair hiçbir bilgiye sahip değilse, bu kesinlikle bir düzenleyici kabus olacaktır. Açık modeller, denetçilerin, araştırmacıların ve operatörlerin robotun tam olarak neye eğitildiğini gerçekten incelemesini sağlar.

Sekiz: Henüz çözülmeyen başka hangi sorular var?

Yeterince çok robot演示 videosu izlediyseniz, birçok robot arızası videosu da görmüşsünüzdür. Şu anki nesil LLM+VLA robotları gerçekten etkileyici, ancak açıkça belirgin sınırlamalara da sahiptir. İşte bununla ilgili sorunlar:

Görev sırasında yeniden başlatma. VLA, önceki herhangi bir teknolojiden daha iyi şekilde beklenmedik değişikliklere tepki verebilir. Ancak gerçek bir hata olduğunda (örneğin, yakalama hatası, nesnenin kayması, çalışma alanına kimse girmesi), tekrar doğru yola dönme zayıftır. Robot, başarısız eylemleri körükçe tekrarlar.
Örnek verimliliği. Sıfırdan bir VLA eğitmek binlerce saat uzaktan operasyon verisi gerektirir. İnsanlar ise yeni bir araç kullanmayı dakikalar içinde öğrenebilir. Bu verimlilik farkı büyük.
Çapraz varlık genelleme. Stanford laboratuvarında Franka robot kolunu kullanarak eğitilen model, Shenzhen deposundaki Unitree insan benzeri robotuna mükemmel şekilde aktarılamaz. Fiziksel yapıları farklıdır.
Uzun süreli görevler. 30-60 saniyeden fazla sürecek sürekli bir davranış gerektiren ve birden fazla alt hedef içeren görevler, hedeften sapma eğilimindedir. “Bana kahvaltı yap” gibi görevler her zaman ulaşılamaz kalır.
Fiziksel bilgi. VLA, anlama eğitimi yerine taklit eğitimi almıştır. Bir bardak suyu devirdiğinizde suyun döküleceğini gerçekten anlamaz. Sadece bazı örnekleri görmüş ve desen eşleştirme yoluyla sonraki olacakları tahmin eder.
Mekansal akıl yürütme yeteneği. Çok modallı olmalarına rağmen, "engellerin üzerinden geçmek yerine onların etrafından dolaşmak" veya "bu şeyleri birbirinin üzerine koyup düşürmemek" gibi görevlerde şaşırtıcı derecede zayıf.

Bu son zayıflık serisi, alanda tamamen farklı bir modele yatırımlar yapılmasına neden oldu.

Dokuz: Dünya Modeli

Düşün ki, bir robotu eylemleri tahmin etmek yerine eylemlerin sonuçlarını tahmin etmek için eğitiyorsunuz; sonuç ne olur?

World Model, mevcut dünya durumunu (genellikle bir video veya ardışık kareler dizisi) ve önceden belirlenmiş eylemleri temel alarak dünyanın sonraki halini tahmin eden bir sinir ağıdır. Basitçe, bir direksiyonlu öğrenen bir video tahmin aracı olarak düşünebilirsiniz. Son bir saniyenin kamera görüntüsünü gösterir ve “robotun kolu 10 cm ileri hareket edecek” diyorsanız, bir sonraki saniyenin gerçekçi bir videosunu üretir.

Neden önemli?

Bir dünya modeli elde edildiğinde, robot hareket etmeden önce düşünebilir. Üç veya dört farklı olası eylemi önceden hayal edebilir, her bir eylemin sonucunu tahmin edebilir, puanlayabilir ve en iyi seçeneği seçebilir. Tüm bu işlemler motor hareketinden önce tamamlanır. Bu tam olarak satranç motorlarının çalışma şeklidir: hamleleri hatırlamaz, gelecekteki senaryoları simüle eder. Daha önce fiziksel robotlarda bu yetenek yoktu, çünkü gerçek dünyayı simüle etmek için yeterince doğru bir modele sahip değildik.

İnsan benzeri robot

Dünya modeli, robotların çeşitli olası gelecek senaryolarını simüle etmesini, bunları puanlamasını ve herhangi bir motor başlatılmadan önce en iyi çözümü seçmesini sağlar.

2026 yılının dünya modeli tam olarak nasıl olacak?

Şu anda en ileri düzeydeki dünya modelleri çeşitlidir ve hızla gelişmektedir. İşte bazı modeller:

NVIDIA Cosmos: Cosmos Predict 2.5 (üretim modeli), Cosmos Transfer 2.5 (kontrollü simülasyon modeli), Cosmos Reason 2 (robotlar için görsel-dil çıkarımı) ve en son Cosmos Policy'yi içeren bir dizi açık dünya temel modeli. Cosmos Policy, dünya modelini ince ayarlayarak doğrudan kontrol için eylemler üretir. Cosmos, binlerce GPU saatlik video verisiyle eğitilmiştir (Cosmos Predict 2.5, bu serideki dünya modelidir).
DeepMind Genie 3: Metin ipuçlarına göre tamamen gezilebilir ortamlar oluşturabilen, saniyede 24 kare hızında çalışan ve dakikalarca kararlı bir şekilde devam edebilen bir etkileşimli dünya modeli. İlk olarak oyun ortamları için tasarlandı.
Meta V-JEPA 2: Yüzlerce bin saatlik web videolarıyla ön eğitim yapıldı ve ardından sadece 62 saatlik robot videolarıyla eylem koşullu eğitim verildi. Özel görev eğitimi olmadan, farklı laboratuvarlardaki gerçek robot kollarında %80 sıfır örnek alma-bırakma başarı oranı elde edildi. “JEPA” yöntemi, mimari olarak diğer yöntemlerden tamamen farklıdır.
DeepMind Dreamer 4: Çevre etkileşimi olmadan yalnızca çevrimdışı veriler kullanarak Minecraft'ta elmas toplamayı (20.000 adımlık bir görev) öğrendi. Bu, sanal dünyalarda gerçek bir pekiştirmeli öğrenmenin mümkün olduğunu kanıtlıyor.
AgiBot'in Genie Envisioner'i: Çin'den gelen, 3000 saatten fazla gerçek dünya insansı robot operasyon videosu ile eğitilmiş tek bir dünya modeli platformu. Hem tahmini genişleme trajektörlerini hem de yürütülebilir eylem trajektörlerini oluşturabilir. AgiBot, NVIDIA Cosmos Predict 2'yi temel ağı olarak kullanır ve kendi verileriyle sonrası eğitilir. Bu, daha önce tanımlanan “açık kaynak teknoloji yığını + kendi veriler” modelidir.
Toyota Research Institute, Cosmos tabanlı dünya modeli: Uzaktan operasyon için veri artırma ve navigasyon.

İnsan benzeri robot

2025-2026 yılları için en önemli altı dünya modeli, her biri makinenin fizikleri nasıl öğreneceğine dair farklı bir varsayım sunar.

On: Bu alan henüz kararlı olmadığı için alternatif mimari

Dünya modeli oluşturmak için standart bir yaklaşım yoktur. Mimarisi üzerine olan tartışmalar, şu anda AI alanında en ilginç tartışmalardan biridir ve robotların gelecekte ne yapabileceğini doğrudan etkiler. Şu üç grubu dikkate alın:

Piksel düzeyinde video yayılımı (Cosmos/Sora okulu): Yayılım modellerini kullanarak gelecek çerçevelerin gerçek piksellerini tahmin edin. Avantajı, hiç yaşanmamış tamamen yeni robot gösterimlerini render edebilecek bir sentetik veri üretici olarak kullanılabilmesidir. Dezavantajı maliyetin yüksek olması, bazen fizik yasalarına aykırı davranması ve asla görülmeyecek pikselleri tahmin etmenin bir kayıp olmasıdır.

Birleşik Gömülü Tahmin Mimariası, JEPA (LeCun okulu): Pikselleri değil, bir sonraki kareye ait soyut temsili tahmin eder. Dokuların detaylarını bırakır, sahnedeki nesnelerin semantik özünü korur. Avantajı verimli olması ve eylemler için kritik olan faktörlere odaklanmasıdır. Dezavantajı kullanımda zorluğudur. V-JEPA, V-JEPA 2 ve yeni JEPA-VLA karışık modeller bu alanda araştırılmaktadır.

Potansiyel Aksiyon Dünya Modelleri (Genie/Dreamer akımı): Tam bir videoyu, davranış yapısını yakalayan potansiyel bir “aksiyon dili”ne sıkıştırmayı öğrenmek ve ardından dünya modelini, bir sonraki potansiyel aksiyona göre bir sonraki potansiyel durumu tahmin edecek şekilde eğitmek. Avantajı, aksiyonsuz web videolarıyla eğitim yapmanıza ve ardından az sayıda gerçek robot verisi eklemenize izin vermesidir. Dezavantajı, potansiyel aksiyonların insanlar tarafından anlaşılabilir olmaması ve güvenlik analizinin karmaşık hale gelmesidir.

İnsan benzeri robot

Piksel yayılımı, JEPA ve potansiyel eylemler: Aynı hedef, tamamen farklı dünya modelleri oluşturma yolları

On: Dünya Modeline Dayalı Robotların Gerçek Uygulamaları

Eğer birkaç yıl ileri sararsanız, öncü insan benzeri robot mimarisi şöyle görünebilir:

VLA, bir dünya modeliyle donatılmıştır. Robot yeni bir durumla karşılaştığında, şu tür işlemler gerçekleştirir:

VLA, bazı sonraki adımlar için adaylar önerdi (hâlâ bir strateji).
Dünya modeli, her aday eylemi alır ve 1-3 saniyelik hayali bir video simüle eder.
Değerlendiriciler, senaryonun sonuçlarına göre puan verecektir: Kupa kaldırıldı mı? Bir şey düştü mü? Kişi çarpıldı mı?
Robot, en yüksek puanı alan eylemi seçer ve yalnızca ilk kısmını yürütür.
Gerçek sensör verileri geri akışı; döngüsel tekrar.

Bu, model tahmini kontroldür; bu teknik yıllardır roketler ve dört rotorlu uçan araçların stabilizasyonunda kullanılmaktadır, ancak bunun yerine öğrenilmiş bir dünya modeli kullanır. Ölçeklenebilirliği, dünya modelinin insanlar tarafından mutfak ortamı için Navier-Stokes denklemlerini yazarak değil, milyonlarca saatlik video ile önceden eğitilmesinden kaynaklanır.

Avantajlar katmanlı şekilde artar:

Durum iyileşmeye başladı. Yakalama hareketinde hata yapılırsa, dünya modeli çeşitli düzeltme yollarını öngörebilir ve en umut verici yolu seçebilir.
Genelleme yeteneği artırıldı. Ağ videoları üzerinde eğitilen dünya modeli, herhangi bir robot uzaktan kontrol veri kümesinden birkaç sıralık daha fazla "fiziksel olay" yaşamıştır.
Uzun vadeli planlamayı kontrol altına alın. Gerçek hayatta değil, hayal gücünüzde planlayın.
Simülasyon ile gerçeklik arasındaki fark daraldı. Daha önce kendi kurduğunuz simülatörlerle (örneğin Isaac Sim, Newton fizik motoru) eğitim yapmalı ve bu eğitimin gerçek uygulamalara aktarılmasını beklemeliydiniz; şimdi ise gerçek videolarla eşleşecek şekilde eğitilmiş simülatörlerle eğitim yapabilirsiniz. Bu nedenle fark daha da küçüldü.
Sentetik veriler patlama hızında artıyor. Bir dünya modeli, farklı ışık, malzeme ve nesne yapılandırmalarını kapsayacak şekilde neredeyse ücretsiz olarak milyonlarca farklı robot trajektorisi oluşturabilir. Bu, alanın en büyük engellerinden birini çözmektedir.

Ayrıca, önemli bir güvenlik avantajına da sahiptir. Eylemlerin sonuçlarını simüle edebilen robotlar, önceden tanımlanmış kuralların sınırları nedeniyle değil, gelecekte kimseyle zarar görebileceğini öngördükleri için tehlikeli işlemleri reddedebilir.

İnsan benzeri robot

İki hareket yöntemi: VLA, gördüklerine tepki verir; dünya modeli robotları ise hareket etmeden önce düşünür.

On iki: Bilinmesi gereken diğer şeyler

Gerçek çekirdek sorun veri sorunudur: Modellere veri sağlanamazsa, dünyadaki tüm mimari yenilikler бесполезны. Şu anda, uzaktan operasyon (insanların VR cihazları giyerek robotları puppet gibi uzaktan kontrol etmesi) ana teknik engeldir. Bir robot şirketinin rekabet avantajı artık modelden ziyade veri toplama hatlarına bağlı hale gelmektedir. Zhìyuán Robotik, operatörlerle dolu bir depo kurmuştur. NVIDIA GR00T N1.7’in beceri ölçekleme yasası, daha fazla insan ilk kişi görüşü videosunun doğrudan ve öngörülebilir şekilde robot becerilerini artırdığını göstermektedir. Bu, Çin’in yapısal avantaj sahibi olmasının nedenlerinden biridir: Daha düşük veri toplama emek maliyeti, daha hoşgörülü dağıtım ortamları ve devletin tedarik zincirini aktif olarak koordine etmesi.

Simülasyon, paralel bir evrendir. NVIDIA'nın Isaac Sim, tamamen yeni açık kaynaklı Newton fizik motoru (1.0 sürümü Nisan 2026'da resmi olarak yayınlanacak) ve Omniverse platformu, şirketlerin robotları gerçek dünyaya dağıtmadan milyonlarca paralel simülasyon ortamında eğitmesini sağlar. Çoğu "robotik akıl" gibi görünen işlev, aslında simülasyon ortamlarında geliştirilip ardından donanıma aktarılır.

Ekonomik verimlilik ortaya başlıyor. Unitree, 2025 yılında yaklaşık 5.500 adet insan benzeri robot teslim etti ve 2026 yılında 10.000 ile 20.000 adet hedefliyor. Ortalama fiyat iki yıl içinde 85.000 dolarlardan 25.000 dolara düştü. Unitree'nin R1 modeli 5.900 dolarla satılıyor. Noetix Bumi'nin listeleme fiyatı 1.400 dolar. İnsan benzeri robotların donanım fiyatları tüketim elektroniği fiyat seviyelerine yaklaşıyor, ancak içerdikleri AI teknolojisi hâlâ demonstrasyon ürünlerinin gerisinde. Bu fark nihayetinde kapanacak ve o anda piyasa ölçeğindeki artış tüm sektör üzerinde önemli bir etki yaratacaktır.

Arıza modları garip görünüyor. LLM tabanlı robotlar arıza yaşadığında, geleneksel robotların yapamadığı şekillerde arıza veriyorlar. Örneğin, güvenle yanlış şeyler yapmak, bazı fonksiyonları "hallüsinasyon" gibi algılamak, kendi planlayıcılarıyla diyalog döngüsüne girmek. Geleneksel robotik dünyası bu duruma oldukça şüpheyle bakıyor ve bu şüphe haklı; öğrenme sistemlerinin güvenli bir şekilde izlenmesi ve davranış açısından kısıtlanması gerektiği savunuluyor. Şu anda en güvenilir olarak dağıtılmış robotlar hibrit tiptir: VLA beyni elle tasarlanmış bir güvenlik kafesinin içine yerleştirilmiştir.

“ChatGPT anı” hikayesi, kullanışlı ancak yanıltıcı bir metafördür: Hwang, robotların ChatGPT anının geldiğini herkese sürekli söylüyor. Bunun nedeni, NVIDIA'nın kürek ve kazma satmasıdır. Daha dürüst bir versiyon şudur: Şu anda fiziksel AI'nın GPT-2 dönemi civarındayız. Güçlü, sizi hayrete düşüren bir şey; ancak gözlemci olmadan dağıtılacak kadar güçlü değil. Hızlı bir şekilde geliştiriliyor, ancak viral bir patlama noktası değil, yavaş ama kararlı bir yükseliş eğrisi yaşıyoruz.

Sonuç

İnsan benzeri robot

Unitree dört ayaklı robotunun gelişim süreci (sağdan sola)

Yü Shu ofisinde yapılan gösteride, beş G1 insan benzeri robot, dikkatle kurgulanmış hareketlerle silah sanatlarını sergiledi ve gömülü VLA tarzı kontrolcüler ince ayar yapıldı, uzaktan operatörler ise tüm sürecin sorunsuz ilerlemesini sağladı. Temel olarak, bu tamamen özerk değil. Ancak süreç: algılama, planlama, hareket kontrolü, artık sinir ağları tarafından yerine getiriliyor. İki yıl sonra, aynı robotlar aynı hareketleri kurgulamadan yapabiliyor, çünkü tüm hareketi önceden tasarlamış ve en iyi versiyonu seçmiş durumda.

Burada anlatılan tüm gelişim süreci: el ile yazılan kontrolcülerden, makine öğrenimi algılamaya, LLM planlayıcılara, VLA'ya, ardından çift sistem mimarisine ve nihayetinde dünya modeline kadar, robotik akılın bulunduğu yerin yavaş bir dönüşümünü temsil eder. Bu süreç mühendislerin zihninden başlar, ardından el ile yazılan kodlara dönüşür, ardından algılama katmanına, planlayıcıya, strateji katmanına ilerler. Şimdi ise nihayetinde dünyanın kendisinin bir modelini öğrenmeye doğru ilerlemektedir.

Her dönüşüm, robotları daha çok genel, daha esnek ve daha kullanışlı hale getiriyor. Eğer dünya modeli dönüşümü başarıyla uygulanırsa, robotlara gerçekten güçlü bir yetenek kazandıracaktır: Sorunun artık “Robotlar ne yapabilir?” değil, “Onlara ne yapmalarını sağlamalıyız?” olacak kadar güçlü.

İlgili okumalar: 30'un üzerinde insan benzeri robot şirketini inceleyin: 2026'da kim kazanacak?