Makale, gövdeli zekânın dünya modelleri geliştirme yolunu tartışmaktadır. Şu anda iki yaklaşım mevcuttur: Silicon Valley'deki "ikameci" okul, WAM'ın VLA'yı tamamen yerine koymasını hedeflerken, yerel ana akım "entegrasyoncu" okul, dünya modellerini VLA'nın yetenek tamamlayıcısı olarak görür. Makale, dünya modellerinin üçlü bir balonla karşı karşıya olduğunu belirtir: tanımların genelleştirilmesi, yüksek hesaplama engeli ve uygulama zorluğu. Makale, gerçek dünya modellerinin yalnızca gerçekçi görüntüler üretmeye odaklanmak yerine, gerçek iş döngülerine entegre edilerek makinelerin fiziksel dünyada hareket etmesine yardımcı olmalıdır diyerek vurgu yapar.

Yazan: Önceden Deneyim Laboratuvarı

VLA'dan WAM'a, abartılmış bir devrim ve küçümsenmiş bir evrim.

Geçen altı ayda, gövdeli akıl alanında iki büyük kamuoyu şöleni yaşandı. Birincisi ekranlara aitti: Sora'dan çeşitli video üretme modellerine kadar sırayla kaslarını göstererek, bir bardak suyun dökülüp yayılması detayları ve sürekli uzayda insan hareketleri, "Yapay zekânın gerçekliği yeniden yaratması" anlatısını zirveye çıkardı ve "Dünya modeli geldi!" çığlıkları yükseldi. Diğerisi mezar taşlarına aitti: NVIDIA'nın baş araştırmacı bilim insanı Jim Fan, bir WAM (Dünya Eylem Modeli)'nin VLA (Görsel-Dil-Eylem Modeli) mezar taşının önünde durduğu bir meme görüntüsüyle "VLA öldü, dünya modeli yaşasın!" diyerek yol ayrımını açıkça öne çıkardı. (Bu makale yalnızca gövdeli akıl için dünya modellerini tartışmaktadır.)

İki eğlence de aynı ana kelimeyi paylaşır: Dünya Modeli.

Ancak tuhaf olan şey, gövdeli akıl alanında ne kadar çok kişi bunu konuşursa, tanımı o kadar bulanıklaşır; bazıları gerçekçi videolar üretmeyi dünya modeli olarak adlandırırken, bazıları robot hareketlerinin önceden simülasyonunu, bazıları ise otonom araç simülasyon ortamlarını dünya modeli olarak adlandırır. Aynı kavram altında, tamamen farklı teknik hedefler ve ticari talepler yer alır.

Şu anda dünya modellerinin en büyük tehdidi, "tanımsızlık" değil, herkesin bunun en kolay sergilenebilir ve en çok yayılabilir yönünü alarak bunun tamamının değerini tanımlamasıdır. "Dünya yaratma" gösterisi, "dünya kullanma" özünü bastırdığında, dünya modelleri en iyi hikâye anlatanlar tarafından gerçek fiziksel sahnelere, fiziksel AI'nın doğru gideceği yere doğru götürülüyor.

Dünya modelleri doğal olarak “dünya yaratma” yeteneğine sahip olmalıdır. Bu etkileyici üretim gösterileri olmasaydı, bu modeller bu kadar hızlı kamuoyu ve sermayenin dikkatini çekemezdi. Ancak Physical AI endüstrisi için, bir dünya yaratmak sorunun sadece başlangıcıdır. Dünya nihayetinde kontrol edilmeli, doğrulanmalı ve düzeltilmelidir; sonunda makinenin hareketinden önceki simülasyon alanı ve karar alma temeli haline gelmelidir. Video üretimi dünya modellerinin kapısını açabilir, ancak gerçek fiziksel dünyaya ulaşmak için onun yerine tam yolculuğu tamamlayamaz.

Yeni kavramlar ve yeni hikayelerden asla yoksun kalmayız; vücutlu akıl kendi genel yolunu çıkaracaktır. O zaman, bu yolun VLA olarak mı, WAM olarak mı, yoksa başka bir isimle mi adlandırılacağı, belki de tamamen önemsiz hale gelecektir.

Sonuçta, hayatımıza gömülmüş durumda.

Dünya modeli tamamen "görsel üretmek" ile eşdeğer değildir

Sora'yı hatırlıyor musunuz?

O yıl OpenAI, Sora'yı açıkladığında, raporun başlığı "Video üretme modelleri olarak dünya simülatörleri" idi ve video üretme modellerinin "fiziksel dünya genel simülatörüne" giden mümkün bir yol olabileceğini ilan etti. Sora'nın o dönemde gösterdiği uzun videolarda, kamera hareketleri, yerel 3B tutarlılığı ve nesne durumunu koruma yetenekleri, halka ilk kez AI'nın gerçekten "bir dünya oluşturmayı" öğrendiğini hissettirdi. Metin ve resimlere kıyasla, video insanın "dünya"ya yönelik sezgisel algısına daha doğrudan uygun — zaman, mekan, hareket ve sürekli değişim içerir ve bu da "modelin fizik yasalarını kavradığı" yanılsamasını kolayca yaratır.

Bu tür yetenekler, sunumlar için doğaldır ve sermaye ile medyanın dikkatini çekmek için en kolay yoldur. Zamanla, "video üretimi = dünya modeli" birçok kişi için varsayılan giriş noktası haline geldi.

Bu kesinlikle yanlış değil. Dijital doğurgan ortamlarda, video üretimi yolu, verimli bir çözümdür ve zaten çok sayıda unicorn şirket ortaya çıkmıştır. Bu ürünlerin oyun endüstrisindeki uygulamaları, gerçek zamanlı dinamik sahneler üretmek suretiyle sanat maliyetlerini düşürür ve oyuncu özgürlüğünü artırır; hava ve uzay, yüksek hataya dayanıklı üretim gibi yüksek deneme maliyetine sahip alanlarda ise test sınırlarını genişletir ve simülasyon senaryolarını zenginleştirir; bu da açık bir ticari değere sahiptir. Bu süreçte oluşturulan “dünya”, izleyicilere sunulan bir görüntü değil, etkileşimli ve deneme-yanılma imkanı sunan bir simülasyon ortamıdır.

Gerçek yanlış anlama, dünya modeli gövdeli akılla karşılaştığında ortaya çıkar; birçok kişi, modelin sürekli ve gerçekçi bir dijital dünya oluşturabildiğini varsayar, bu da modelin fiziksel dünyanın anlayışını, tahminini ve eylem yeteneğini elde ettiğini anlamına gelir.

Beijing Zhiyuan Yapay Zeka Enstitüsü Başkanı Wang Zhongyuan, bu konudaki değerlendirmesi çok net: Şu anda dünya modeli temsilcisi olarak yaygın olarak kabul edilen video üretme teknolojisi, temelde piksel düzeyinde bir dünya simülasyonudur. "Video üretme modelleri, eğitim verilerinde birçok bilim kurgu filmi içermesi nedeniyle bir sürü domuzun uçaklarla birlikte gökyüzünde uçmasını üretebilir; hedefleri asla gerçek fiziksel dünyanın kurallarını yeniden oluşturmak değildir."

Bir klasik vücutlu senaryo, bu farkı yeterince açıklayabilir: bardağı tutmak. Model, farklı bakış açılarından görünüşü tutarlı bir bardak oluşturabilir; bu, görsel tutarlılıktır ve video verilerinden öğrendiği bir şeydir. Ancak elini uzattığınızda sürtünme kuvveti ne kadardır? Malzeme, uygulanan tutma kuvvetini taşıyabilir mi? Bardak masanın üzerine düşerse, çünkü model “bardaklar genellikle masada olur” diye hatırlıyor mu, yoksa yerçekimi, destek kuvveti ve temas kısıtlamalarını gerçekten mi anlıyor? Karmaşık mekanik tepkiler, temas sonrası durum değişiklikleri ve gerçek fizik yasalarının neden-sonuç kısıtlamaları, yalnızca bir generatif video ile kapsanamaz. Yatay hareket eden bir araba üretildiğinde ve doğrulanmadan otonom sürüş eğitim zincirine dahil edildiğinde, gerçek fiziksel dünya mutlaka acı verici bir geri tepmeyle karşılık verecektir.

Yani, video üretimi, dünya modellerinin bir türüdür ve birçok senaryoda uygulanmıştır, ancak bu, gövdeli akıllılık için gereken dünya modeli değildir ve Physical AI bağlamında temel biçim değildir. “Dünya yaratma” görsel etkisiyle gövdeli akıllılığın dünya modelini tanımlamak, dijital dünyanın ölçüsünü fiziksel dünyadaki sorunları ölçmek için kullanmaktır.

VLA ölü mü? Dünya modeli devrim değil, tamamlayıcıdır

“VLA öldü, WAM devraldı” endüstri içinde en popüler hikâyedir.

Geçen iki yıl boyunca VLA, gövdeli akıllılığın ana akım yaklaşımı oldu. Büyük dil modellerinin ön-eğitim yaklaşımını takip ederek, milyonlarca uzaktan kumanda verisiyle “algılama - komut - eylem” eşlemesini kurdu ve robotların sert tekrarlayan hareketlerden doğal dil anlama ve karmaşık görevleri parçalama yönüne geçmesini sağladı. Endüstrideki tüm ana oyuncular, VLA’yı temel teknoloji tabanı olarak kullanmışlardır.

Ancak VLA'nın zayıf yönü de çok açık: Temelde taklit öğrenmesinden kaynaklanan bellek ve eşleme üzerine kuruludur ve fiziksel kurallara dair temel bir anlayışa sahip değildir; verilerde görülmemiş yeni senaryolar veya nesnelerle karşılaşıldığında genelleme yeteneği hızla kaybolur. Jim Fan'ın önerdiği WAM yolu tam olarak bu soruna odaklanır. Temel mantığı, "anlam anlayışı"ndan "fiziksel tahmin"e geçiş yapmaktır: Doğrudan eylem üretmek yerine, önce gelecekteki dünya durumunu tahmin eder, ardından eylem dizisini tersine çeker; bu, robotun harekete geçmeden önce zihninde sonuçları "önceden simüle etmesini" sağlar ve böylece yabancı senaryolara uyum yeteneğini artırır.

Bu nedenle “devrim teorisi” hızla yayıldı, VLA eskimiş bir paradigmadır ve dünya modelleri vücutlu yapay zekânın sonraki neslidir. Ancak gerçek endüstriyel uygulamalarda, durum “ya bu ya da bu” kadar basit değildir.

Sektör, farklı teknoloji felsefeleri ve ticari taleplerin arkasında iki net yol ayrımına doğru ayrılmaktadır:

Silicon Valley tarafından yönlendirilen bir alternatif akım. NVIDIA ve Google DeepMind öncülüğünde, yeterli hesaplama gücü ve veri yedekleriyle tam bir paradigmayı yeniden yapılandırmayı hedefliyor. NVIDIA, Cosmos 3'te dil, görüntü, video ve hareket dizilerini aynı Physical AI dünya modeli çerçevesine dahil ederek, üretimi, simülasyonu ve hareket tahminini ayrı modüller halinde değil, bütüncül bir sistemde birleştirmeyi amaçlıyor. Waymo ve Google DeepMind'in ortaklaşa sunduğu Waymo World Model, Genie 3 modelinin yeteneklerinden yararlanarak nadir hava koşulları veya hayvanların girişi gibi uzun kuyruk senaryolarını üretmekle kalmıyor, bu senaryoları sürüş hareketleri, yol düzenlemesi ve dil koşullarıyla kontrol ederek, otonom sürüş sistemlerinin counterfactual durumlardaki tepkilerini test etmeyi amaçlıyor.

Bu yol en ambisyonlu ve "devrimci hikâye"ye en uygun olsa da, engeli çok yüksek ve başta gelen devlerin oyunu.

Diğeri, ülkede daha yaygın olan "entegrasyon okulu". Çoğu oyuncu, tamamen yeniden başlatmak yerine, dünya modelini VLA'nın yetenek tamamlayıcısı olarak mevcut mimariye entegre etti. ZhiSquare, 2026 Mayıs'ta VLA gövdeli büyük model AlphaBrain'i yayınladı. Bu model, insan beyninin "beyin-küçük beyin-gövde" bölüşüm mekanizmasından ilham aldı ve "hızlı-yavaş sistemler"in birlikte çalışmasıyla dünya modelinin "önceden simülasyon" yeteneğini VLA mimarisine gömülü hale getirdi—yavaş sistem, çevre durum algısı ve üst düzey davranış planlamasını; hızlı sistem, ince duyusal veri ve hızlı geri bildirimi yönetir. ZhiSquare'in kurucusu Guo Yandong'un görüşü oldukça net: "Dünya modeli ve VLA tamamen çelişmiyor; aslında aynı teknoloji yolunun bir dalı. Daha uzun vadeli akıl yürütme görevleri yapmak istiyorsanız, dünya modeli + VLA gerekir ya da dünya modelini VLA ile birleştirmeniz gerekir."

Galaxy General de çok ileri gitti; bu yıl Nisan'da yayınladıkları LDA-1B modeli, tek bir çerçevede strateji öğrenimi, fiziksel tahmin ve görsel algıyı aynı anda gerçekleştirdi ve endüstriyel 1 milyar parametre ölçeğinde ilk kez dünya modeli ile eylem modelini birleştirdi. İlgili sonuçlar, robotik alanının en üst düzey konferansı RSS'e kabul edildi ve model ağırlıkları ile eğitim kodları açık kaynak hale getirildi. Onlar "VLA mı yoksa dünya modeli mi?" sorusuna takılmadan, tahmin ve yürütmenin aynı modeli paylaşmasını daha pratik bir şekilde sağlayarak, her birinin güçlü yanlarını kullanıyor ve zayıf yanlarını tamamlıyor.

Bize göre, "ikame" ile "entegrasyon" arasında kesin bir doğru veya yanlış yoktur; sadece farklı aşamalardaki farklı seçimlerdir. VLA gerçekten "ölmeyecek", dünya modelleri de her şeyi deviren bir devrim değil, VLA'nın en çok eksik olduğu fiziksel tahmin yeteneğini tamamlıyor. İkisinin nihai ilişkisi, birinin diğerini yok etmesi değil, katmanlı işbirliği olabilir. Gerçekten rotanın kazananını belirleyen, kavramın ne kadar modaya uygun olduğundan ziyade, veri, simülasyon ve gerçek cihaz dağıtımı zincirini kimin önce tamamlayıp robotları gerçek senaryolara taşıyabileceğidir.

Dünya modeli henüz hayata geçirilmedi, zaten kavramsal bir ısınma başladı

Kavramın sıcaklığı teknolojik uygulamadan öne çıktığında, balon neredeyse kaçınılmaz bir sonuçtur. Şu anki dünya modeli yarışmasında, en az üç tane dikkat edilmesi gereken balon ortaya çıkmıştır.

İlk olarak balonun tanımıdır. Günümüzdeki “dünya modeli” terimi, her şeyi içine koyabileceğiniz bir sepet haline gelmiştir. Yann LeCun, bunu soyut bir dünya durumu tahmini olarak tanımlarken, Li Feifei bunu etkileşimli bir 3D uzay temsili olarak tanımlamıştır; NVIDIA ise bunu fiziksel AI nesne üretici simülatör olarak konumlandırmıştır. Girişimciler arasında bazıları video üretimiyle sayısal bir doldurma yaparken, bazıları geleneksel simülasyon motorlarının adını değiştirip bunu dünya modeli olarak adlandırmıştır. Türkiye'de dünya modeli alanında faaliyet gösterdiğini iddia eden şirketlerin sayısı onlarca olmuştur, ancak bunlar muhtemelen aynı şeyi kastediyor olmayabilir. Bir teknoloji kavramı sonsuza dek yorumlanabiliyorsa, genellikle teknik bir ölçüt anlamını kaybeder. Tanımın genelleştirilmesinin arkasında, finansman ihtiyacı ve pazarlama hikayelerinin ortak desteği yatmaktadır; çünkü “dünya modeli” demek, “video üretimi aracı” veya “simülasyon optimizasyon çözümü” demekten daha değerlidir.

İkinci kabarcık, hesaplama gücü kabarcığıdır. Dünya modellerinin ana akım eğitim yolu, devasa video verileri ve aşırı büyük hesaplama gücü üzerine kuruludur; bu da tam olarak NVIDIA'nın sahasıdır. Jensen Huang, GTC konferansında, 2027 yılına kadar Blackwell ve Rubin çiplerinin ve vücutlu akıl modelleri gibi sistemler için tasarlanan eşlik eden sistemlerin NVIDIA'ya en az 1 trilyon dolar gelir sağlayacağını açıkça belirtti. Bir anlamda, Silicon Valley'nin öncü oyuncularının "tam modallı evrensel dünya modeli" yolunu desteklemesi, NVIDIA'nın "hesaplama altyapısı satışı" ticari mantığıyla tamamen uyumludur. Ancak bu yolun yatırım eşiği, çoğu şirket için sonsuz bir kuyruktur. Geçmişte VLA'ya yatırım yapan küçük ve orta ölçekli ekipler bile bu ölçekli batık maliyetleri karşılayamadı; daha doğrusu dünya modeli alanında sıfırdan başlamak imkânsızdır. Herkes aynı yüksek hesaplama gücü yolunu tartışırken, nadiren kimse girdi-çıktı oranını hesaplamıyor; bu, kabarcığın kendisi bir sinyalidir.

Üçüncü ve en ölümcülü, gerçek dünyaya geçiş balonudur. Tüm kavram öyküleri nihayetinde aynı soruyu cevaplamak zorundadır: Gerçek performansı gerçekten artırabilir mi? Gerçeklik şu ki, simülasyondan gerçek dünyaya geçiş boşluğu, model adının VLA'dan WAM'a değişmesiyle otomatik olarak kaybolmaz. Videoda görülen küçük bir nesne geçişi, yerçekimine aykırı hareket veya sınır belirsizliği, robot eğitimi sırasında yanlış fiziksel algılar haline sabitlenebilir; fizik kurallarına aykırı ama mantıklı görünen bir tahmin, model kullanmadan eğitmekten daha ciddi şekilde gerçek cihazı yanıltabilir.

Ants Lingbo'nun baş bilim insanı Shen Yujun, temel farkı şu şekilde belirtti: Dijital dünyadaki üretme modelleri yüksek çözünürlüklü ve gerçekçi olmaya odaklanabilir, biraz yavaş olmasında sorun yoktur; ancak fiziksel dünyadaki modellerin ilk gereksinimi hızlı, kararlı ve hassas olmaktır, gerçek zamanlı geri bildirim verip eylemleri desteklemelidir. Birçok ekip, senaryoları giderek daha gerçekçi hale getirmeye odaklanırken, gerçek fiziksel etkileşim verilerinin en kıymetli kaynak olduğunu unutuyor. Dünya modelleri simülasyon içinde güzel metrikler üretebilir, ancak henüz fabrika üretim hatlarında, lojistik depolarında veya açık yollarda gerçek değerini kanıtlayamadıkça, bunlar hala laboratuvar düzeyindeki teknik araştırmalardır, endüstriyel altyapı değildir.

Peki, fiziksel AI ya da gövdeli akıl için dünya modeli nasıl olmalı? Cevap, sunum videolarında değil, gerçek senaryoların ihtiyaçlarında yer alıyor. Temel değerlendirme kriteri, “oluşturulan dünya ne kadar gerçekçi” değil, “makinenin fiziksel dünyada daha iyi hareket etmesine yardımcı olabilir mi”, “deneme-yanılma maliyetini düşürebilir mi”, “genelleştirme yeteneğini artırabilir mi”, “gerçek iş döngülerine entegre edilebilir mi”.

Mevcut endüstri uygulamalarına göre, doğru yolda ilerleyen oyuncuların hepsi aynı şeyi yapıyor: Dünya modelini “gösterime dayalı”dan “göreve dayalı”ya dönüştürmek. Başka bir deyişle, dünya modelinin nihai hali, bağımsız bir “ürün” değil, çeşitli fiziksel sistemlere gömülmüş temel bir yetenektir. Otomatik sürüşün simülasyon arka planında, robotların hareket planlama modülünde ve fabrika üretim hatlarının öngörü sistemlerinde saklıdır ve öngörü, deneme-yanılma ve düzeltme işlerini sessizce gerçekleştirir. Çoğu zaman kullanıcılar bunun varlığını hissetmez.

O, dünya modelinin dönemi, elbette ki ona dünya modeli demek zorunda değil.

Gövdeli Zekâda Dünya Modelleri: Görsel Üretimin Ötesine Geçiş Yolu

Dünya modeli tamamen "görsel üretmek" ile eşdeğer değildir

VLA ölü mü? Dünya modeli devrim değil, tamamlayıcıdır

Dünya modeli henüz hayata geçirilmedi, zaten kavramsal bir ısınma başladı