Fiziksel AI, devraldı.
Yazı yazarı, kaynak: Görüşler Yeni Araştırma Topluluğu
2026 yılının başından itibaren AI dünyasında bir popüler terim ortaya çıktı—“Fiziksel AI”.
Huang Renxun, yılın başındaki CES fuarında birkaç kez, "bir sonraki AI dalgası, fiziksel dünyada çalışan AI olacak," dedi. Sun Yuchen de yakın zamanda açıkça, "Sanal AI fırsatları bitti, fiziksel AI, önümüzdeki üç yılın en büyük fırsatı," dedi.
Endüstride, ünlü şirket Figure AI, beş gün boyunca kesintisiz bir robot sıralama canlı yayınıyla tüm ağı patlattı; Çinli Zhiyuan Robotik, 10.000. genel amaçlı gövdeli robotunun üretimi tamamlandı dedi...
Büyüklerin açıklamaları ve gövdeli akılın gerçek değişimi, sektörün dikkatini sanal akıldan fiziksel yürütme üzerine geniş bir anlatıya yönlendirdi; ancak birçok insan hâlâ şunu soruyor: Bu “fiziksel AI” kavramı, teknolojik gelişmenin kaçınılmaz bir dönüm noktası mı, yoksa iyi bir şekilde paketlenmiş bir kavram değişimi mi?
2026 yılında AI dünyasında "Fiziksel AI" dalgası patlıyor; Jensen Huang, bir sonraki AI dalgasının fiziksel dünyada çalışan AI olacağını söylüyor. Figure AI, 5 günlük bir robot sıralama canlı yayınıyla teknolojisini laboratuvar演示 aşamasını aşarak gerçek dünyaya taşıdı; Zhiyuan Robotics, 10.000. genel gövdeli robotun üretimini tamamladı. Bu teknolojinin çekirdeği, AI'nın gerçek dünyada "algılama-mantık yürütme-aksiyon-geri bildirim" döngüsünü tamamlayabilme yeteneğidir. Arka planda büyük dil modelleri robotlara anlama yetisi kazandırıyor, dünya modelleri fiziksel dünyada eylem sorunlarını çözüyor ve VLA modelleri "görmeyi" "doğru yapmaya" dönüştüren son kilometreyi kapatıyor. Fiziksel AI, teknoloji doğrulamasından ticari uygulamaya geçiş yapıyor; 2026'dan beri yapılan yatırımlar 110 milyar yuandan fazla oldu ve rekabet, seri üretim ve teslimat aşamasına girdi.
Kaynak: Dòng Jiàn Xīn Yán Shè
01 Konuşmayı bilmekten iş yapmayı bilmeye
Yukarıdaki soruyu yanıtlamadan önce, bu biraz sert görünen profesyonel terimi parçalara ayıralım.
Fiziksel AI, kelimenin tam anlamıyla AI'nın fiziksel dünya ile derin bir şekilde entegre edilmesidir; ancak daha derin bir analizde, sanal AI "düşünme ve iletişim" sorumluluğunu taşırken, fiziksel AI "algılama ve eylem" görevini yerine getirmek zorundadır. Bu sayede, fiziksel AI ekran içindeki bir akıllı varlık değil, makinelerin gerçek fiziksel dünyada karmaşık işlemleri algılamasını, anlamasını ve gerçekleştirmesini sağlar.
Fiziksel AI, otonom makinelerin (robotlar, otomatik sürüş araçları vb.) gerçek fiziksel dünyada karmaşık işlemler algılamasını, anlamasını ve gerçekleştirmesini sağlayan bir teknolojidir. Çin Bilgisayar Topluluğu yürütme komitesi üyesi Wang Xiang, 3. Çin Uluslararası Zincir Lojistiği Fuarı'nda bu kavramı sistematik olarak açıkladı: "Fiziksel AI, AI sistemlerinin gerçek dünyada 'algılama—muhakeme—eylem—geri bildirim' döngüsünü gerçekleştirebilme kapasitesi anlamına gelir."
Dilerseniz, eski AI'lar “sohbet edebiliyordu”, şimdiyse fiziksel AI “iş yapabiliyor”; AI, ChatGPT konuşma penceresinden çıkıp gerçek dünyadaki fabrikalara, depolara ve evlere girdiğinde, fiziksel AI bu sorunları çözmektedir.
Bu fark, bu yıl iki ünlü robot şirketinin hareketlerinde özellikle belirgindir.
Amerika'daki Figure AI, "robotların gerçekten iş yapabileceğini" kanıtlamak için 5 gün boyunca canlı yayın yaptı; canlı yayın, 14 Mayıs'ta başladı ve 3 adet Figure 03 insan benzeri robotun, kargo paketlerini sıralamak için üretim hattında sırayla çalışmasını gösterdi; robotların görevi, barkodları tespit etmek, paketleri tutmak, yönlerini yeniden ayarlamak ve barkodları aşağıya doğru iletken bant üzerine koymaktı.
Canlı yayın sırasında bir robot, şirketin en yeni Helix 02 modelini kullanarak "tamamen bağımsız modda" 33 saatten fazla çalışmış ve 40.000'den fazla paket işlemi gerçekleştirmiştir, kurucu Brett Adcock dedi.
Figure AI'nin canlı yayınının anlamı, yalnızca teknolojik yeteneklerini sergilemekten ziyade, gerçek zamanlı görüntülerle dünyaya fiziksel AI teknolojisinin "laboratuvar演示" sınırını aştığını göstermektir. Bir şirketin üretim hattında robotların günlerce süreyle sorunsuz çalışmasını canlı olarak yayınlamak, kendiliğinden güçlü bir teknoloji ilanıdır.
Çinli Zhiyuan Robot, benzer bir canlı yayın gerçekleştirdi ve altındaki Zhiyuan精灵 G2'yi Nanchang Longqi Teknoloji Parkı'ndaki MMIT (Multimedya Entegrasyonu) plak üretim hattında insanlarla birlikte çalıştırarak, canlı test verileri, robotun 8 saatlik sürekli çalışma süresi boyunca ciddi bir hata yaşamadığını ve toplam çalışma başarı oranının %99,5'in üzerinde olduğunu gösterdi; tek bir işlem sadece 18-20 saniye sürdü, saatte 310 ürün tamamlandı, bir robot çift işlem yükünü üstlenebilir.
Figure AI ile daha da ileri giderek, Zhiyuan Robotics, Mart ayında küresel ilk genel gövdeli yapay zeka robotunun 10.000 birim üretimi ve teslimatını resmen duyurdu; 2025 Aralık'tan 2026 Mart'a kadar yalnızca üç ayın üzerinde bir sürede 5.000'den 10.000'e çıktı.
Teslim edilen miktarın dışında, Zhiyuan Robot, şirketin 2027 yılında 10 milyar gelir hedeflediğini açıkladı. Geçmişteki yenilenebilir enerji, otomatik sürüş veya çip gibi öncü endüstrilerin gelişim deneyimlerine bakılırsa, iki yıldan az bir sürede kurulan bir şirketin on binlerce birimde seri üretim ve teslimat gerçekleştirmesi ve on milyar gelir hedefi belirlemesi, sert teknoloji alanında olağanüstü bir durumdur.
Yukarıdaki iki şirket, fiziksel AI'nın artık uzaktan kumanda veya önceden tanımlanmış senaryolara bağlı kalmadan gerçek ortamlarda karmaşık görevleri bağımsız olarak tamamlayabileceğini somut veriler ve senaryolarla kanıtladı.
Daha da önemlisi, Zhiyuan ilk olarak 10.000 birim teslim eşiğini aştı ve üretim kapasitesini elindeki siparişlerle bağladı; bu dalda "teknik doğrulama"dan "ticari sonuçlanma"ya geçişin gerçekleştiğini gösterdi. Başka bir deyişle, fiziksel AI'nın "uygulanabilirliği" artık soru işareti değil, gerçek rekabet "kullanılabilirlik" ve "ekonomiklik" alanına girmiştir.
02 Fiziksel AI'nın patlamasını sağlayan teknik itici kuvvetler
Peki, şimdi soru şu: Fiziksel AI neden bu yıl ani olarak patladı? Şimdi geriye dönüp bakıldığında, gerçek ticari ihtiyaçların yanı sıra, ardışık teknik atılımlar en büyük itici güç oldu.
Öncelikle büyük dil modelleri (LLM), robotlara “anlama yeteneği” kazandırdı. Geleneksel robotlar, belirleyici kodlara ve kurallara dayalı programlama kullanır; bu, mühendislerin önceden bir “senaryo” yazması ve robotun her hareketini bu senaryonun önceden belirlenmiş gereksinimlerine tam olarak uygun şekilde gerçekleştirmesi anlamına gelir. Bu modelde büyük bir açığa sahiptir: robotun çalıştığı ortam biraz bile değişirse, kod yeniden yazılmalıdır ve dayanıklılık zayıftır, ticarileştirme eşiğini aşmak zordur.
Ancak Google, 2023 Ağustos'ta sırasıyla Google PaLM-E ve RT-2 gibi gövdeli çok modlu büyük modelleri tanıttıktan sonra, robotların doğal dil komutları aracılığıyla karmaşık görevleri otomatik olarak adımlara ayırıp gerçekleştirmesini mümkün kıldı ve büyük dil modelleri artık “diyalog anlama”dan “fiziksel yürütme”ye kapasite atlamasını tamamladı.
Huang Renxun, CES 2026'daki konuşmasında bu teknolojik evrimin özünü belirtti: Fiziksel AI, temel kontrolün bir devriyedir; fiziksel AI, teknolojik evrimin kritik noktasını geçtiğinde, kontrol, insanlar tarafından yazılan belirli kodlardan fizik yasalarını anlayan ve genelleme yeteneğine sahip sinir ağlarına geçer.
Bu noktada, robotlar artık yalnızca “kodu yürüten” araçlar değil, “talimatları anlayan ve eylemleri kendi kendine planlayan” hale gelmiştir.
Eğer büyük dil modelleri “anlamayı” çözdüyse, dünya modelleri “fiziksel dünyada eylemde bulunmayı” çözmüştür; dünya modelinin çekirdeği, AI'nın fiziksel dünyanın çalışma prensipleri hakkında bir içsel anlayış kazanmasını sağlamaktır.
NVIDIA, geçen yıl CES'te duyurduğu fiziksel AI dünya temel model platformu Cosmos'u, bir dönüm noktası haline getirdi; bu modelin temel yeteneği, metin veya görüntüden fiziksel kurallara uygun hareket verileri oluşturmaktır. Geliştiriciler, Cosmos'u kullanarak akıllı otomobiller, robotlar ve video analizi AI ajanlarının fiziksel AI geliştirme süreçlerini hızlandırabilir.
NVIDIA'ya göre, Cosmos, 20 milyondan fazla saat gerçek veriyle eğitildi ve simülasyon ile model eğitiminin zorluğunu büyük ölçüde azalttı. Dünya modeli sayesinde AI sistemleri, sanal ortamlarda yoğun simülasyonlar gerçekleştirebilir ve bunları gerçek fiziksel dünyaya aktarabilir.
Robotların nihai yeteneği “görmek” veya “anlamak” değil, “doğru şeyi yapmak”tır. Vision-Language-Action modelinin ortaya çıkışı, robotların görsel girdileri, dil anlayışını ve hareket kontrolünü aynı anda işlemesini sağlayarak “görüp hemen yapma” döngüsünü gerçekleştirmiştir.
DeepMind, geçen yıl Eylül'de yeni nesil çok modlu gövdeli akıllı büyük model olan Gemini Robotics 1.5'i yayınladı ve bunu dünyada ilk gövdeli akıl yürütme için optimize edilmiş bir düşünme modeli olarak tanıttı; NVIDIA ise insan benzeri robotlar için tasarlanmış açık kaynaklı Isaac GR00T N1.6 modelini sundu ve tam vücut kontrolünü etkinleştirdi.
Aynı zamanda, Pekin İnsan Benzeri Robot Yenilik Merkezi, XR-1 vücutsal biliş büyük modelini açık kaynak hale getirdi ve bu model, milyonlarca veriyle eğitilerek, alma-bırakma, itme-çekme, döndürme gibi karmaşık iki kollu operasyon görevlerini gerçekleştirebilen, ulusal vücutsal zeka standardına uygun ilk Çinli model oldu.
Bu noktada, fiziksel AI, uygulama için gerekli temel destek teknolojilerini bir araya getirdi: LLM, makinenin insan niyetini "anlamasını" sağlıyor; dünya modeli, makinenin fiziksel sonuçları "öngörmesini" sağlıyor; VLA ise "anlamak" ile "doğru şekilde yapmak" arasındaki son kilometreyi bağlıyor. Üçünün bir araya gelmesi, robotlara açık ortamlarda kendi kendine görev yürütme temel kapasitesini kazandırıyor.
El becerisi hâlâ sınırlamalarla karşı karşıya, kol ve ellerin ince kontrolü için hâlâ çözülmesi gereken birçok sorun var; başka bir deyişle, fiziksel AI, "fabrikada çalışmak" için giriş belgesini aldı, ancak "evde çay servisi yapmak" gibi gerçek bir dönüşüm için "kaba hareketlerden ince operasyonlara" geçişin kalıtsal engelini aşması gerekiyor.
03 Teknik vizyondan teslim kapasitesine
Fiziksel AI'nın geçmişini ve şimdiki durumunu anlamak önemlidir; şimdi vücutlu akıl sektörünün karşı karşıya kaldığı soru, sonraki rekabetin hangi temel boyutlar etrafında dönecektir.
Otomatik sürüşün gelişim sürecinden dersler çıkarıyoruz; veri mücadelesi otomatik sürüş için kaçınılmazdı ve otomatik sürüşle benzer bir mantığa sahip olan gövdeli akıl da bu mücadeleden kaçamaz. Genel olarak, daha kaliteli eğitim verilerine sahip olan, söz hakkına sahip olur.
Şu anda endüstride, NVIDIA, Cosmos kullanarak dünya modeli için bir engel oluşturdu ve 20 milyondan fazla saat gerçek veriyle eğitilen modeli hızlıca kopyalanamazken, Zhiyuan, 10.000 robotun üretimi ve dağıtımı tamamlandı, bu da gerçek, geri bildirim temelli veri toplama yeteneğine sahip olduğunu gösteriyor ve bu durum endüstride geniş ölçüde bir veri koruma duvarı olarak görülüyor.
Belirtilmesi gereken, fiziksel AI yarışması için gerekli verilerin sadece miktarın ne kadar büyük olduğuna değil, sentetik veri ile gerçek verinin iş birliğine dayandığıdır.
Sadece gerçek verilere dayanmak ölçek sorunları ve donanım aşınma maliyetleriyle karşılaşıyor; aşırı sentetik verilere bağımlı olmak ise sim2real geçiş boşluğunu doğuruyor. Pekin İnsansı Robot Yenilik Merkezi'nin "çoklu veri kaynağından öğrenme" çözümü, bu fikir doğrultusunda üretilmiş ve robotların milyonlarca insan videosundan eğitim almasını sağlayarak eğitim maliyetlerini büyük ölçüde azaltırken verimliliği artırmaktadır.
Bu şekilde çok daha iyi anlaşılabilir. Gelecekte, "sentetik veriyle eğitim - gerçek veriyle ince ayar - gerçek senaryo geri bildirimi" tam döngüsünü gerçekten kurabilen, bu yarışta üstünlük sağlayacaktır.
Veri sorunu çözüldükten sonra, fiziksel AI ile sanal AI'nın etkili bir şekilde nasıl entegre edileceği, fiziksel AI'nın daha da ilerlemesinin anahtarı oldu.
Şu anda fiziksel AI hakkında konuşurken sıklıkla gözden kaçırılan bir yön, fiziksel AI ile sanal AI'nın birbirine karşıt olmadığıdır; teknik mimari açısından, tam bir fiziksel AI sistemi yaklaşık olarak üç katmana ayrılabilir: alt katman algılama katmanıdır (sensörler, görsel tanıma), orta katman tanıma ve karar verme katmanıdır (AI çıkarımı), üst katman ise eylem yürütme katmanıdır (mekanik kontrol).
Sanal AI, orta katmanı yönetirken, fiziksel AI, algıdan yürütme kadar tam bir zinciri kurar.
NVIDIA'nın “çip + model + araç” tam çözümü bu fikrin bir yansımasıdır; Jetson Thor kenar hesaplama platformu işlem gücü sağlar, GR00T modeli akıllılık sağlar, Isaac platformu geliştirme araç zincirini sağlar. Bu çözümle karşılaştırıldığında, gelecekte yazılım ve donanımın derin entegrasyonunu başarıyla gerçekleştirebilenler, fiziksel AI'nın “beyin”den “kılavuzlara” kadar olan döngüsünü tamamlayabilecek ve kendi teknoloji koruma duvarını kurabilecektir.
Son olarak, fiziksel AI'nın ticarileştirme süreci; üç yıl önce sermaye, robot sektörüne yönelik hayalleri "teknik vizyon"dan alıyordu, şimdi ise sermaye piyasaları daha pratik bir değerlendirme kriterine, yani teslim kapasitesine sahiptir.
Medya verilerine göre, 2025 yılında Çin'de vücutsal zeka alanında toplam finansman tutarı 73,5 milyar yuan, 744 finansman olayı gerçekleşti. 2026 yılından bu yana ise 37 milyar yuan daha eklenerek toplam tutar 110 milyar yuanı aştı; ancak bu çiçekli görünümlerin altında sermayenin akışı gözle görülür bir yapısal değişim gösteriyor.
Mayıs 2026'da Tianji Intelligence, 1 milyar Yuan değerindeki B serisi finansmanını tamamladı; temel göstergesi, Q1'de eldeki siparişlerin 10.000 adedi aşması ve 45 robot şirketine hizmet vermesiydi.
Zhongke Beijì Qītóng, milyonlarca dolarlık bir A serisi finansmanı aldı ve yurt dışı milyonlarca dolarlık siparişler kazandığını açıkladı.
Vitadong ve Lu Ming Robot'un finansman aşamasında, SAIC Shangqi Capital, Mitsubishi Electric gibi endüstriyel yatırımcılar sırayla girmeye başlamıştır; amaç, üretim hattı kapasitesini robot teslim kapasitesiyle bağlamaktır.
Karşılaştırıldığında, teknik bir vizyona sahip olsa da sipariş desteği olmayan Amerikalı insan benzeri robot startup şirketi Cartwheel Robotics, 2026 Mart'ta iflas etti.
Olumlu ve olumsuz örnekler, sermayenin şık demolar için değil, gerçek üretim ve teslim kapasitesi için ödeme yapacağını göstermektedir.
04 Sonuç
Fiziksel AI'nın ani görünmesi, aslında doğal bir gelişmedir.
Aynı zamanda bazı sektör içi uzmanlar, "fiziksel AI"nın daha çok finansal piyasalar tarafından yaratılmış yeni bir kavram ambalajı olduğunu, temelde gövdeli akıl ve robotik teknolojilerin doğal bir gelişimi olduğunu düşünüyor; ancak fiziksel AI'nın yükselişi, AI endüstrisinin "sanal akıl"dan "fiziksel yürütme"ye doğru ilerlediğini açıkça gösteriyor ve bu, geri dönüşü olmayan bir tarihsel süreçtir.
En son rekabet turunda, Figure AI, canlı yayınla dünyaya gücünü gösterdi; Zhiyuan Robot, serbest üretim ve teslimatla endüstriyel bir engel oluşturdu; NVIDIA, Cosmos ve GR00T ile bir platform ekosistemi kurdu... Şimdi soru şu: Fiziksel AI alanında kim OpenAI olacak? Hangi uygulama alanı ilk olarak "ChatGPT anını" yaşayacak?
