HWM, Dünya Modellerinde Uzun Vadeli Planlamayı Geliştiriyor

Giriş

Dünya modeliyle ilgili son bir yıllık araştırmalar, temsil öğrenimi ve gelecek tahmini üzerine odaklanmıştı. Model, önce dünyayı anlar, ardından içsel olarak gelecek durumları çıkarırdı. Bu yol, temsili başarılarla sonuçlanmıştır. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — Meta'nın 2025'te yayınladığı bir video dünya modeli), 1 milyondan fazla saatlik internet videosuyla önceden eğitildikten sonra az sayıda robot etkileşim verisiyle birleştirilerek, dünya modellerinin anlama, tahmin etme ve sıfır örnek robot planlamada potansiyelini göstermiştir.

Ancak modelin tahmin etmesi, uzun görevleri işlemesi anlamına gelmez. Çok aşamalı kontrolle karşılaşıldığında sistem genellikle iki baskı ile karşılaşır. Birincisi, tahmin hataları uzun rollout (sürekli çok adımlı öngörü) boyunca birikir ve tüm yolun hedeften sapma olasılığı artar. İkincisi, eylem arama uzayı horizon (planlama görüş mesafesi) arttıkça hızla genişler ve planlama maliyeti sürekli yükselir. HWM, dünya modelinin temel öğrenme yolunu değiştirmiyor, aksine mevcut eylem koşullu dünya modelinin üzerine hiyerarşik planlama yapısı ekleyerek sistemin önce aşamalı yolları organize etmesini, ardından yerel eylemleri işlemesini sağlıyor.

Teknik olarak V-JEPA 2 (https://ai.meta.com/research/vjepa/) dünya temsili ve temel tahmine odaklanırken, HWM uzun vadeli planlamaya, WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) ise modelin kendi tahmin bozulmalarını tanımlama ve düzeltme yeteneğine odaklanmaktadır. Bu üç yol yavaş yavaş birleşmektedir. Dünya modelleri araştırmasının odak noktası, yalnızca geleceği tahmin etmekten, tahmin yeteneğini yürütülebilir, düzeltilbilir ve doğrulanabilir bir sistem becerisine dönüştürmeye doğru kaymaktadır.

Birinci: Neden uzun vadeli kontrol hala dünya modellerinin bir darboğazıdır

Uzun vadeli kontrolün zorlukları, robot görevlerine dahil edildiğinde daha net anlaşılabilir. Bir kolun bir bardağı kavrayıp çekmecenin içine koyması örneğini ele alalım; bu tek bir hareket değil, ardışık bir dizi adımdır. Sistem, nesneye yaklaşmalı, pozisyonunu ayarlamalı, kavramalı, hedef konuma taşımalı ve çekmeceyle etkileşim kurup yerleştirmelidir. Zincir uzadıkça iki sorun aynı anda ortaya çıkar: birincisi, tahmin hataları rollout boyunca birikir; ikincisi, hareket arama uzayı hızla genişler.

Sistemde eksik olan, genellikle yerel tahmin yeteneği değil, uzun vadeli hedefleri aşamalı yollar haline getirme yeteneğidir. Birçok eylem, yerel olarak hedeften sapmış gibi görünse de, aslında hedefe ulaşmak için gerekli ara adımlardır. Örneğin, tutmak için önce kolu yukarı kaldırmak, çekmeceyi açmak için önce biraz geri çekilmek ve ardından açıyı ayarlamak.

Görsel görevlerde dünya modeli tutarlı tahminler sunabiliyor. Ancak gerçek kontrol senaryolarına geçildiğinde performans düşmeye başlıyor ve sorunlar ortaya çıkıyor. Basınç, temsilden kaynaklanıyor değil, aynı zamanda planlama katmanının henüz olgunlaşmamış olmasından da kaynaklanıyor.

İkinci: HWM, planlama sürecini nasıl yeniden yapılandırır

HWM, önceki tek katmanlı planlama sürecini iki katmana ayırdı. Üst katman, daha uzun zaman ölçeklerindeki aşama yönünü yönetirken, alt katman daha kısa zaman ölçeklerindeki yerel yürütümü sorumlu tutar. Model, yalnızca bir tempo ile planlama yapmak yerine, iki farklı zaman temposuyla aynı anda planlama yapar.

Uzun görevler tek katmanlı yöntemle işlenirken, genellikle temel eylem uzayında tam bir eylem zinciri doğrudan aranır. Görev ne kadar uzunsa, arama maliyeti o kadar yüksektir ve tahmin hataları çok adımlı rollout boyunca daha kolay yayılır. HWM, süreci parçaladıktan sonra, üst katman yalnızca daha uzun zaman ölçeklerinde rota seçimiyle uğraşır, alt katman ise yalnızca şu anki eylem parçasını tamamlar; böylece uzun görev, daha kısa görevlere bölünür ve planlama karmaşıklığı azalır.

Burada önemli bir tasarım daha var: üst seviye eylemler, iki durum arasındaki farkı basitçe kaydetmek yerine, bir kodlayıcı kullanarak alt seviye eylemleri daha üst seviyeli bir eylem temsiline sıkıştırır. Uzun görevlerde, başlangıç ve bitiş arasındaki farkın ötesinde, ortadaki adımların nasıl organize edildiği kritiktir. Üst seviye yalnızca konum farkına bakarsa, bu eylem zincirindeki yol bilgisini kaybedebilir.

HWM, katmanlı bir görev organizasyonu yöntemini yansıtır. Çok aşamalı bir iş karşısında sistem, tüm eylemleri aynı anda açmaz; bunun yerine daha kaba aşama yolları oluşturur ve ardından her bir bölümü adım adım yürütür ve düzeltir. Bu katmanlı ilişki dünya modeline girdikten sonra, tahmin yeteneği, planlama yeteneğine daha kararlı bir şekilde dönüşmeye başlar.

Üç: %0'dan %70'e, deney sonuçları neyi gösteriyor

Kağıt ayarındaki gerçek dünya yakalama ve yerleştirme görevinde, sistem yalnızca nihai hedef koşulunu alır, aradaki hedefler insan tarafından ayrıştırılmış olarak verilmez. Bu koşullarda, HWM'nin başarı oranı %70 iken, tek katmanlı dünya modelinin başarı oranı %0'dır. Önceden neredeyse tamamen gerçekleştirilemeyen uzun görevler, katmanlı planlamayı eklemekle büyük olasılıkla gerçekleştirilebilir hale gelmiştir.

Makale, itiraz nesnesi manipülasyonu ve labirent navigasyonu gibi simülasyon görevlerini de test etti. Sonuçlar, hiyerarşik planlamanın başarı oranını artırmakla kalmadığını, aynı zamanda planlama aşamasındaki hesaplama maliyetini de azalttığını gösterdi. Bazı ortamlarda planlama aşamasındaki hesaplama maliyeti, başarı oranını daha yüksek veya eşdeğer seviyede tutarken, orijinal değerin yaklaşık dörtte birine kadar azaltılabilmiştir.

Dört: V-JEPA'dan HWM'ye ve ardından WAV'a

V-JEPA 2, dünya temsili yolunu temsil eder. V-JEPA 2, 1 milyondan fazla saatlik internet videosu ile önceden eğitilir ve daha sonra 62 saatten az robot videosu ile post-eğitim (önceden eğitimin ardından hedefe yönelik eğitim) uygulanarak, fiziksel dünyayı anlama, tahmin etme ve planlama için kullanılabilecek latent action-conditioned world model (soyut temsil uzayında eylem bilgisiyle tahmin yapan dünya modeli) elde edilir. Bu, modelin büyük ölçekli gözlemlerden dünya temsili elde edebileceğini ve bu temsili robot planlamaya aktarabileceğini gösterir.

HWM bir sonraki adımda. Model, dünya temsili ve temel tahmin yeteneklerine sahip olsa da, çok aşamalı kontrol içine girildiğinde hata birikimi ve arama uzayının genişlemesi sorunları patlar. HWM, temel temsil öğrenim yolunu değiştirmiyor, mevcut eylemlere koşullu dünya modeline çok zaman ölçekli planlama yapısı ekliyor. Ele aldığı soru, modelin uzun vadeli hedefleri bir dizi ara adım haline nasıl organize edip sırayla ilerleteceğidir.

WAV, doğrulama yeteneğine daha da odaklanır. Dünya modeli, strateji optimizasyonu ve dağıtım senaryolarına girmek için sadece tahmin yapabilmekle kalmaz, aynı zamanda nerede bozulmaya eğilimli olduğunu kendisi keşfedebilmeli ve buna göre düzeltmeler yapabilmelidir. Modelin kendini nasıl kontrol ettiğine odaklanır.

V-JEPA, dünya temsiline odaklanır; HWM, görev planlamaya; WAV, sonuç doğrulamaya. Üçü de farklı odak noktalarına sahip olsa da, genel yön aynıdır. Dünya modelinin bir sonraki aşaması artık yalnızca içsel tahmin değil, tahmin, planlama ve doğrulamanın yavaş yavaş bir sistem becerisi haline gelmesidir.

Beş: İçsel tahminden yürütülebilir sisteme

Geçmişte birçok dünya modeli çalışması, gelecek durum tahmininin sürekliliğini artırmaya veya dahili dünya temsillerinin kararlılığını iyileştirmeye daha çok odaklanmıştı. Ancak şu anki araştırma odak noktası değişmeye başlamıştır: sistem, çevreye ilişkin bir değerlendirme oluşturmalı, bu değerlendirmeyi eyleme dönüştürmeli ve sonucu ortaya çıktıktan sonra bir sonraki adımı düzeltmelidir. Gerçek dağıtım closer olmak için uzun vadeli görevlerde hata yayılımını kontrol etmek, arama alanını daraltmak ve çıkarım maliyetini azaltmak gerekmektedir.

Bu tür değişiklikler AI agent'larını da etkileyecektir. Birçok agent sistemi, araç çağırma, dosya okuma veya birkaç adımlı komut yürütme gibi kısa yol görevlerini zaten tamamlayabilmektedir. Ancak görev uzun yol, çok aşamalı hale gelip ara aşamalarda yeniden planlama gerektirdiğinde performansı düşer. Bu, robot kontrolündeki zorluklarla temelde aynıdır; hem yüksek seviyeli yol organizasyonu yetersizliği nedeniyle yerel yürütme ile genel hedef arasında boşluk oluşur.

HWM tarafından sunulan katmanlı yaklaşım, üst katmanlar yol ve aşama hedeflerini, alt katmanlar ise yerel eylemleri ve geri bildirim işleme sorumluluğunu üstlenir, ardından sonuç doğrulaması eklenir; bu tür katmanlı yapılar gelecekte daha fazla sistemde devam edecektir. Dünya modelinin bir sonraki aşamasında odak noktası artık sadece geleceği tahminmek değil, tahmin, yürütme ve düzeltmeyi çalıştırılabilir bir yol haline getirmektir.