Li Fei-Fei Takımı 'Dünya Modeli' Kavramını Açıklıyor, Sora Renderleyici Olarak Sınıflandırılıyor

3 Haziran 2026'da World Labs ekibi, Stanford Üniversitesi profesörü Li Fei-Fei ile birlikte, başlığı neredeyse hiçbir süslemeye sahip olmayan bir kavramsal analiz makalesi yayınladı: "Dünya Modellerinin Fonksiyonel Sınıflandırması". Makalenin ilk cümlesi, endüstrideki bir uzlaşmayı doğrudan ortaya koyuyor: "Dünya modelleri, günümüz yapay zeka alanında en önemli ve en çok kötüye kullanılan terimlerden biridir."

Bu cümle, AI sektörünü takip eden herkes için tanıdık bir içeriktedir.

Şubat 2024'te OpenAI, video üretme modeli Sora'yı yayınladı ve teknik raporun başlığı açıkça “Video Üretme Modeli olarak Dünya Simülatörü” idi. NVIDIA robotik direktörü Jim Fan, o dönemde LinkedIn'de daha sonra sıkça alıntılanan bir yorum bıraktı: Sora temelde “tek izin verilen eylemin hiçbir eylem olmamasını sağlayan bir dünya modelidir.” Öte yandan, açık kaynaklara göre, Tesla AI ekibi, tam otonom sürüş sisteminin içsel tahmin bileşenini defalarca “dünya modeli” veya “dünya simülatörü” olarak adlandırdı. Oyun motorları, 3D üretim araçları, gövdeli akıl modelleri gibi çeşitli ürünler ve teknolojiler aynı sepete atılıp aynı etiketle tanımlandı.

Bir video üretici, bir otonom sürüş tahmin ağı, bir robot kontrol modeli, bir fizik motoru; bunların ortak noktası neredeyse yoktur. Ancak hepsi “dünya modeli” olarak adlandırılır.

İki yıldan uzun süren bu kavram karışıklığına nihayet sistematik bir şekilde bir çözüm getirildi. Li Feifei ekibi bu sefer yeni bir model yayınlamadı, yeni bir referans belirlemedi, hiçbir ürün fonksiyonunu göstermedi. Daha temel bir şey yaptı: Kısmen gözlemlenebilir Markov karar süreçlerine teorik köklerine döndü ve piyasada "dünya modelleri" olarak adlandırılan tüm sistemleri, aynı bilişsel döngünün üç farklı fonksiyonel projeksiyonuna indirgedi.

Üç projeksiyon türü şunlardır: render, simülatör, planlayıcı. World Labs sınıflandırma çerçevesine göre, Sora ve benzeri video üretme modelleri render olarak sınıflandırılır.

Bir terim neden birbirine çelişen bu kadar çok anlamı barındırabiliyor?

Bu karmaşanın kökenini anlamak için önce daha temel bir soruyu sormak gerekir: Bir şirket “Dünya modeli yapıyoruz” dediğinde tam olarak ne demek istiyor?

OpenAI için Sora'nın hedefi, "fiziksel dünyayı anlamak ve videoda sunmak"tır. Teknik rapora göre, Sora, büyük miktarda video verisindeki istatistiksel kuralları öğrenerek görsel akla uygun sahneler oluşturabilir: bir bardak yere düştüğünde kırılır, bir kağıt uçağı elden çıktığında uçar, bir kişi yürüdüğünde bacakları alternatif olarak hareket eder. Bu sahneler "fizik anlayan" gibi görünür.

Tesla için "Dünya Modeli", FSD sisteminde yol katılımcılarının sonraki birkaç saniye içindeki hareket yörüngesini tahmin eden sinir ağıdır. Bu model, güvenli sürüş kararları hesaplamak için yol planlama modülüne kesin 3D konum, hız ve yön bilgilerini çıkartmalıdır. Bu model, pikselleri çıkartmak zorunda değildir; vektörler ve olasılık dağılımlarını çıkartır.

Robot şirketleri için "dünya modeli", robot kolu "Eğer bu bardağı 5 santimetre sola itersem, devrilecek mi?" sorusunu önceden tahmin edebilmesi için içsel simülasyon mekanizmasıdır. Bu, nesne özelliklerini, temas mekaniğini ve kararlılığı anlayabilmesini gerektirir ve çıktı olarak eylem uygunluğu değerlendirmesini üretir.

Üç tür şirketin hedefi tamamen farklıdır. Video üretimi şirketleri piksel sadakatini, otonom araç şirketleri fiziksel durum tahmininin doğruluğunu, robotik şirketleri ise eylemlerin sonuçlarının öngörülebilirliğini önemser. Hepsi “dünya modeli” yapıyor, ancak tamamen farklı şeyler yapıyorlar.

World Labs, makalesinde sorunun özünü doğrudan vurguluyor: Bu sistemlerin hepsinin aynı ismi taşımasının nedeni, gerçekten de "dünyayı anlama"nın bir yanını taşıyor olmalarıdır. Ancak her biri tam bir algı döngüsünün yalnızca bir aşamasını tamamlamıştır ve bunlar, pazarlama dili, medya haberleri ve sermaye hikayeleriyle tam bir dünya modeli olarak süslenmiştir.

Kavram karışıklığının başka bir itici gücü de terimin kendisindeki gerilimdir. "Dünya modeli" terimi, "video üretme modeli" veya "video tahmin modeli"den daha büyük bir anlatıya sahiptir ve daha fazla hayal gücü uyandırır, yüksek değerlemeler ve finansman hikayelerini destekler. Teknik yetenekler, kamu beklentilerini karşılayamadığında, kavramın bir tanıtım aracına dönüşmesi kaçınılmaz hale gelir.

1960'lara dönüldüğünde, tam bir "Dünya Modeli" ne olmalıydı

World Labs'in sınıflandırma çerçevesi, kısmen gözlemlenebilir Markov karar süreçleri adında görünen eski bir teoriye dayanmaktadır.

Bu çerçeve, bir ajanın çevreyle etkileşimde bulunduğu tam bir döngüyü tanımlar. Ajan, belirli bir çevre durumunda bulunur, bir eylem gerçekleştirir, bu eylem çevre durumunu değiştirir, ajan sensörler aracılığıyla kısmi bir gözlem alır, bu gözlem içsel durum güncellemesini tetikler ve güncellenmiş bilişsel durum, bir sonraki eylemi yönlendirir. Döngü bu şekilde devam eder.

Bu çerçevede, "dünya modeli" tam fonksiyonu üç aşamayı içermelidir: durumdan gözlem üretmek (insan gözünün gördüğü veya sensörlerin topladığı pikseller, nokta bulutları vb.), eylem ve mevcut durumdan bir sonraki durumu tahmin etmek (fiziksel değişimleri öngörmek), gözlem ve hedeften eylem üretmek (karar verme ve planlama).

Dil modelleri metin dizilerinin istatistiksel kurallarını öğrenir, dünya modelleri ise uzay ve zamanın istatistiksel özelliklerini öğrenir. Işık nasıl farklı yüzeylerde yansır, nesneler kütle çekimi altında nasıl hareket eder, katı cisimler çarpıştıktan sonra enerji nasıl aktarılır—bu, dünya modellerinin yakalamak zorunda olduğu kurallardır.

World Labs ekibi, mevcut pazarda tüm “dünya modelleri” olarak adlandırılan sistemlerin, aslında yukarıda bahsedilen tam döngünün yalnızca bir fonksiyonel aşamasının bir yansıması olduğunu belirtiyor. Bazı sistemler yalnızca “durumdan gözleme” dönüştürmeyi yapıyor, bazıları yalnızca “eylemden bir sonraki duruma” durum tahmini yapıyor, bazıları ise yalnızca “gözlemden eyleme” planlama yapıyor. Bunlar, döngünün ayrı ayrı bir yayını kesip, tam bir daireyi temsil eden etiketlerle işaretliyorlar.

Bu analiz çerçevesinin değeri, pazarlama dili ötesinde bir karşılaştırma koordinat sistemi sunmasıdır. Bir şirket ürününü nasıl pazarlarsa pazarlasın, onu POMDP döngüsüne geri getirip girişini, çıkışını ve eksik olan aşamalarını incelediğinizde, yetenek sınırları açıkça ortaya çıkar.

Renderleyici, simülatör, planlayıcı — üç projeksiyonun kapasite sınırları

World Labs sınıflandırmasında birinci kategori “renderleyiciler” olarak tanımlanır. Temel amacı, insan görsel algısına yönelik yüksek kaliteli piksel çıktıları üretmektir. Girdi, bir ortam durumunun temsili olabilir (metin açıklaması, 3D sahne parametreleri veya gizli kodlama), çıktı ise kare kare sürekli görüntülerdir.

Renderin hedefi, fiziksel doğruluk değil, görsel gerçekçiliktedir. World Labs makalesi, renderin oluşturduğu binaların “sallanır gibi” görünebileceğini açıkça belirtiyor, çünkü yapı mekaniği denklemlerini gerçekten çözmez; oluşturduğu sıvı püskürtmeler gerçekçi görünebilir, ancak sıvı hacmi, akış hızı ve etki kuvveti gerçek fiziksel değerlerle tamamen uyumsuz olabilir. Bu nedenle bu tür modeller, mimari tasarım, robot eğitimi veya fiziksel olarak doğru simülasyon gerektiren görevler için kullanılamaz.

Google'nin Genie 3, çeşitli metinden videoya modelleri ve neredeyse tüm AI video üretimi araçları bu kategoriye dahildir. Sora da bunların arasındadır.

İkinci tür "Simülatör"dür. Temel amacı, insanlar için görsel içerik üretmek değil, sonraki hesaplamalar için kullanılabilir hassas durumlar üretmektir. Girdi, mevcut çevre durumu ve dış kuvvetlerdir (veya eylemler), çıktı ise fiziksel ve geometrik olarak gerçek dünya yasalarına sadık bir sonraki durumdur. Simülatörün çıktısı, gerilme analizi, enerji tüketimi hesaplaması ve çarpışma tespiti için kullanılabilir; aynı zamanda görselleştirme görüntülerini üretmek için render aracına girdi olarak da verilebilir. Ancak temel değeri, durumun kendisinin hesaplanabilirliğindedir.

NVIDIA Omniverse, bu tür sistemlerin tipik bir örneğidir. Bu, AI-native bir model değil, geleneksel fizik motorları ve AI hızlandırılmış hesaplama birleştiren dijital ikiz bir platformdur. World Labs, makalesinde simülatörün renderlama ve planlama arasında köprü olduğunu belirtirken, yüksek kaliteli 3D fizik etiketleme verilerinin azlığına işaret eder. World Labs, makalesinde bu tür modellerin eğitimi için kullanılan verilerin, internetten elde edilebilen video verilerinden birkaç sıralık daha az olduğunu tahmin eder.

Üçüncü kategori "Planlayıcı"dır. Girdisi, gözlem verileri (kamera görüntüsü, lazer radar nokta bulutu, dokunsal sensör okumaları vb.) ve hedef komutudur; çıktısı ise bir sonraki gerçekleştirilecek eylemdir. VLA (Görsel-Dil-Eylem) modelleri ve World Action Modelleri bu kategoriye dahildir.

Üç ana kategori arasındaki fark, teknik yaklaşımların ince farklılıkları değil, temel işlevsel ayrılıklardır. Render, pikselleri insanlara gösterir, simülatör, durumları makinelere hesaplatır, planlayıcı ise eylemleri yürütücülere çalıştırmak için üretir. Bir sistem aynı anda birden fazla yeteneğe sahip olabilir, ancak çoğu “dünya modeli” olarak adlandırılan sistem aslında yalnızca render yaparken, “render”ı “dünyayı anlama” ile eşitlemek ciddi bir bilişsel uyumsuzluktur.

İki yıl süren bir tartışmaya: Sora gerçekten bir dünya modeli mi?

Şubat 2024'te OpenAI, Sora'yı yayınladı ve teknik raporun başlığı doğrudan "Video Üretim Modeli olarak Dünya Simülatörü" idi. Bu ifade, akademik çevrelerde ve geliştirici topluluğunda şiddetli bir tartışmaya neden oldu.

Destekçiler, Sora'nın ürettiği videoların 3D uzay tutarlığını, nesne kalıcılığını ve fiziksel etkileşimlere dair bir tür sezgisel anlayışı sergilediğini düşünüyor. Isırılmış bir hamburgerin diş izleri bırakması, bir köpeğin karlı bir yerde koşarken kar tanecikleri sıçratması gibi detaylar, modelin bazı fiziksel kuralları öğrendiğini gösteriyor gibi görünüyor.

İtirazcıların temel argümanı, dünya modelleri için takviyeli öğrenme alanındaki klasik tanımına dayanır: bir dünya modeli, eylemlere dayalı durum geçiş tahmini yapabilmelidir. Yani, mevcut durum ve bir eylem girdisi verildiğinde, model eylemden sonraki sonraki durumu çıkarmalıdır. Sora bunu yapamaz. Kullanıcılar, Sora’ya “sol taraftan kupayı it” diyemez ve kupanın devrilip devrilmeyeceğini, hangi yöne devrileceğini veya parçaların nereye fırladığını gözlemleyemez.

Jim Fan'ın yorumu bu çelişkiyi tam olarak vurguladı: “Sora本质上 bir dünya modelidir, ancak tek eylemi no-op (hiçbir şey yapmama) olarak izin verir.” Bu ifade, Sora'nın ortamın zamanla nasıl değiştiğini gerçekten tahmin ettiğini, ancak bu değişimin herhangi bir dış müdahaleye bağlı olmadığını, sadece video verilerindeki mevcut neden-sonuç zinciri boyunca ilerlediğini söylüyor. Sora etkileşimli bir çıkarım yapmıyor, pasif gözlem dizilerinin devamını yazıyor.

Reddit'in r/MachineLearning alt topluluğunda, birçok takviyeli öğrenme araştırmacısı daha sert eleştiriler ifade etti: eylemlere dayalı durum geçiş tahmini yapamayan sistemler, dünya modeli değil, video tahmini modeli olarak adlandırılmalıdır.

World Labs'in sınıflandırma çerçevesi, bu tartışmaya kesin bir yanıt sunar. POMDP döngüsünde eylemler, durum geçişlerini yönlendiren kritik girdilerdir; bu girdi eksikse, sistem yalnızca tam bilişsel döngünün "gözlem üretme" aşamasının bir izdüşümüdür. Sora, bir renderleyicidir, tam bir dünya modeli değil, daha da önemlisi bir dünya simülatörü değildir.

Ancak bu, Sora'nın değersiz olduğu anlamına gelmez. Render araçları, insan görsel beklentilerine uygun görüntüler üretme sorununu çözer. Bu sorun kendisi son derece zordur ve büyük ticari değere sahiptir. Sorun, render yeteneğini “dünyayı anlama” yeteneği olarak sunmanın, teknik karar vericileri ve yatırımcıları yanıltarak, bu modellerin fiziksel çıkarım veya gövde etkileşimi yeteneğine sahip olduğu yanılgısına yol açmasıdır.

Kavramsal Açıklamanın Endüstri Değeri

“Dünya modeli” tanımının sınırlarını netleştirmek, akademik bir kelime oyunu değildir. Bu, teknoloji seçimi, yatırım kararları ve kamuoyunun AI yetenekleri hakkındaki algı seviyesini doğrudan etkiler.

Bir robot eğitiminde bir “dünya modeli” kullanmayı değerlendiren bir imalat şirketi için, bu modelin bir renderleyici, simülatör mü yoksa planlayıcı mı olduğunu anlamak, milyonlarca dolarlık deneme-yanılma hatalarını önlemek için gerekli bir önkoşuldur. Sadece video görüntüler üretebilen bir model, ne kadar gerçekçi görünsün, nesnelerin kuvvetlere maruz kalması, hareket yörüngeleri ve çarpışma sonuçlarının hassas hesaplamalarını yerine getiremez.

Yatırım kurumları için üç tür projeksiyonu ayırt etmek, projenin teknoloji yığınındaki konumunu daha doğru bir şekilde tanımlamayı mümkün kılar. Ürünü temelde bir renderleyici olan, kendini “dünya modeli” olarak tanımlayan bir startup’ın rakipleri, dijital ikiz platformları veya robot kontrol modelleri değil, video üretimi şirketleridir. Bu, piyasa boyutu tahminini ve karşılaştırma şirketlerini seçme şeklini doğrudan belirler.

Akademik çevre için net bir sınıflandırma, karşılaştırılabilir bir referans oluşturmanın ön koşuludur. Eğer “dünya modeli” terimi yaygınlaştırılmaya devam ederse, araştırmacılar neyin iyileştirme, neyin devrim olduğunu tanımlamakta zorlanacak ve hakemli değerlendirme belirsizlikler üzerine kurulacaktır.

World Labs, makalesinde kavramsal netleştirme amaçlı çatışma yaratılmadığını da belirtiyor. Gelecek gelişmeler, üç tür projeksiyonun birleşmesi yönünde olacak. Bir bardağın fiziksel özelliklerini gerçekten anlayan bir model, onun görsel görünümünü oluşturmalı, düşürülmesi durumunda fiziksel sürecini simüle etmeli ve robottan nasıl stabil bir şekilde tutulacağını planlamalıdır. Ancak teknoloji bu aşamaya ulaşana kadar, birleşim üzerine spekülasyon yapmaktan daha gerçekçi olan,各自的 sınırlarını tanımlamaktır.

World Labs'ın makalesindeki tahminlere göre, NVIDIA Omniverse gibi simülatörler ve dijital ikiz teknolojileri, fabrika, depo ve tedarik zinciri alanlarında trilyon dolarlık potansiyel bir pazarı hedefliyor. Bu rakam, üreticilerin kendi değerlendirmelerine dayanıyor; pazarın bu boyuta ne zaman ulaşacağı, simülatörlerin yüksek kaliteli 3D fizik verilerinin kıtlığı sorununu aşabilip aşılamamasına bağlı.

Mevcut aşamadaki AI endüstrisi için en önemli anlayış belki de çok basit: gerçekçi videolar oluşturabilmek, fiziksel dünyayı anlamak anlamına gelmez; dünya modeli olarak adlandırılabilmesi, dünyayı gerçekten simüle etmek anlamına gelmez. Pazarlama dilini aşarak, bir sistemin POMDP döngüsünde hangi girdileri aldığını, hangi çıktıları ürettiğini ve hangi bileşenin eksik olduğunu incelemek, teknik yeteneklerin sınırlarını en dürüst şekilde değerlendirmenin yoludur.