Bài viết thảo luận về lộ trình phát triển mô hình thế giới trong lĩnh vực trí tuệ hình thể. Hiện nay tồn tại hai hướng tiếp cận: “phái thay thế” của Thung lũng Silicon theo đuổi việc thay thế hoàn toàn VLA bằng WAM, trong khi “phái kết hợp” phổ biến ở trong nước coi mô hình thế giới là bộ bổ sung năng lực cho VLA. Bài viết chỉ ra rằng mô hình thế giới đang đối mặt với ba bong bóng — định nghĩa quá rộng, rào cản về năng lực tính toán cao và khó áp dụng thực tế. Bài viết cho rằng mô hình thế giới thực sự nên được tích hợp vào chu trình kinh doanh thực tế, giúp máy móc hành động trong thế giới vật lý, thay vì chỉ theo đuổi độ chân thực của hình ảnh tạo ra.

Tác giả bài viết, nguồn: Tiên nghiệm Lab

Từ VLA đến WAM, một cuộc cách mạng bị thổi phồng và một sự tiến hóa bị đánh giá thấp.

Trong sáu tháng qua, lĩnh vực trí tuệ thân thể đã chứng kiến hai làn sóng tranh luận sôi nổi nhất. Một là trên màn hình: từ Sora đến các mô hình tạo video liên tiếp phô diễn sức mạnh, những chi tiết như nước tràn ra, chuyển động của nhân vật trong không gian liên tục, đã đưa câu chuyện “AI tái tạo hiện thực” lên đỉnh cao, với những lời thán phục “Đã đến thời của mô hình thế giới” vang dội. Một là trên bia mộ: nhà khoa học nghiên cứu hàng đầu của NVIDIA, Jim Fan, đã dùng một meme hình WAM (World Action Model) đứng trước bia mộ của VLA (Visual-Language-Action Model) để tuyên bố “VLA đã chết, mô hình thế giới muôn năm”, trực tiếp đưa cuộc tranh luận về định hướng phát triển lên hàng đầu. (Bài viết này chỉ thảo luận về mô hình thế giới trong trí tuệ thân thể)

Hai sự kiện sôi động chia sẻ cùng một từ khóa cốt lõi: mô hình thế giới.

Nhưng điều kỳ lạ là, càng có nhiều người bàn luận về lĩnh vực trí tuệ hình thể, thì bản chất của nó càng trở nên mờ nhạt: có người gọi việc tạo video chân thực là mô hình thế giới, có người gọi việc mô phỏng chuyển động của robot là mô hình thế giới, và cũng có người gọi môi trường mô phỏng xe tự hành là mô hình thế giới. Dưới cùng một khái niệm, lại chứa đựng những mục tiêu công nghệ và yêu cầu kinh doanh hoàn toàn khác nhau.

Nguy hiểm lớn nhất hiện nay đối với các mô hình thế giới không phải là “định nghĩa không rõ ràng”, mà là tất cả mọi người đều dùng mặt dễ thể hiện nhất, dễ tạo ra điểm bùng nổ truyền thông của nó để định nghĩa toàn bộ giá trị của nó. Khi những màn trình diễn “tạo thế giới” lấn át bản chất “sử dụng thế giới”, các mô hình thế giới đang bị những người kể chuyện giỏi nhất đưa ra khỏi nơi mà chúng thực sự nên đến: các bối cảnh vật lý thực tế của Physical AI.

Mô hình thế giới tất nhiên cần khả năng “tạo ra thế giới”. Nếu không có những màn trình diễn sinh tạo ấn tượng, nó sẽ không nhanh chóng bước vào tầm nhìn của công chúng và vốn đầu tư. Nhưng đối với ngành công nghiệp Physical AI, việc tạo ra một thế giới luôn chỉ là khởi đầu của vấn đề. Thế giới cuối cùng phải được kiểm soát, xác minh và điều chỉnh, trở thành không gian mô phỏng trước hành động của máy móc và cơ sở ra quyết định. Sinh tạo video có thể mở ra cánh cửa của mô hình thế giới, nhưng không thể thay nó đi hết con đường dẫn đến thế giới vật lý thực tế.

Chúng ta chưa bao giờ thiếu những khái niệm mới và câu chuyện mới; trí tuệ nhúng chắc chắn sẽ tìm ra con đường phổ quát riêng của mình. Khi đó, việc con đường đó được gọi là VLA, WAM, hay bất kỳ cái tên nào khác, có lẽ sẽ hoàn toàn không còn quan trọng.

After all, it has been embedded in our lives.

Mô hình thế giới không hoàn toàn tương đương với “tạo hình ảnh”

Bạn còn nhớ Sora không?

Khi OpenAI phát hành Sora, tiêu đề báo cáo là “Video generation models as world simulators”, tuyên bố rằng các mô hình tạo video hứa hẹn trở thành con đường khả thi hướng tới “bộ mô phỏng phổ quát cho thế giới vật lý”. Những khả năng mà Sora thể hiện lúc đó trong các video dài — như chuyển động镜头, tính nhất quán 3D cục bộ và duy trì trạng thái đối tượng — đã giúp công chúng lần đầu tiên cảm nhận trực quan rằng: AI dường như thực sự đang học cách “xây dựng một thế giới”. So với văn bản và hình ảnh, video tự nhiên phù hợp với cảm nhận trực giác của con người về “thế giới” — có thời gian, không gian, chuyển động và thay đổi liên tục, dễ khiến người ta có ảo giác rằng “mô hình đã nắm bắt được các quy luật vật lý”.

Loại khả năng này tự nhiên rất phù hợp để trình diễn tại sự kiện ra mắt và dễ dàng thu hút sự chú ý của vốn đầu tư và truyền thông. Dần dần, “sinh video = mô hình thế giới” trở thành lối vào nhận thức mặc định của nhiều người.

Đây chắc chắn không phải là sai lầm. Trong các bối cảnh bản sinh số, hướng tiếp cận tạo video vốn là giải pháp hiệu quả và đã xuất hiện rất nhiều công ty kỳ lân. Sản phẩm của chúng có thể được sử dụng trong ngành game để tạo cảnh động theo thời gian thực, vừa giảm chi phí nghệ thuật, vừa tăng độ tự do cho người chơi; trong các lĩnh vực có chi phí thử nghiệm cao như hàng không vũ trụ và sản xuất cao cấp, chúng giúp mở rộng ranh giới thử nghiệm và làm phong phú các cảnh mô phỏng, mang lại giá trị thương mại rõ ràng. Lúc này, “thế giới” được tạo ra không phải là hình ảnh dành cho khán giả xem, mà là môi trường mô phỏng có thể tương tác và thử nghiệm.

Sự hiểu lầm thực sự xảy ra khi vượt ranh giới, khi các mô hình thế giới gặp gỡ trí tuệ nhúng, nhiều người mặc định rằng nếu mô hình có thể tạo ra một thế giới số liên tục và chân thực, thì nó đồng nghĩa với việc đã nắm được khả năng hiểu, dự đoán và hành động trong thế giới vật lý.

Chủ tịch Viện Nghiên cứu Trí tuệ Nhân tạo Bắc Kinh, Vương Trung Viễn, đưa ra nhận định sắc sảo về vấn đề này: Công nghệ sinh video hiện đang được coi là đại diện cho mô hình thế giới, về bản chất chỉ là mô phỏng thế giới ở cấp độ pixel. “Các mô hình sinh video có thể tạo ra một đàn lợn bay cùng máy bay trên trời, vì dữ liệu huấn luyện của nó chứa rất nhiều nội dung phim khoa học viễn tưởng, và mục tiêu của nó chưa bao giờ là tái hiện các quy luật của thế giới vật lý thực tế.”

Một tình huống cụ thể kinh điển đủ để minh họa khoảng cách này: cầm cốc. Mô hình có thể tạo ra những chiếc cốc có ngoại hình nhất quán từ nhiều góc nhìn — đây là tính nhất quán thị giác, điều mà nó học được từ dữ liệu video; nhưng khi với tay chạm vào, lực ma sát sẽ là bao nhiêu? Vật liệu có chịu được lực nắm tương ứng không? Khi chiếc cốc rơi xuống bàn, là do mô hình ghi nhớ “cốc thường nằm trên bàn”, hay thực sự hiểu được trọng lực, lực phản lực và các ràng buộc tiếp xúc? Những phản ứng cơ học phức tạp, sự thay đổi trạng thái sau khi tiếp xúc, và các ràng buộc nhân quả của các định luật vật lý thực tế — tất cả những điều này đều không thể được bao quát bởi một đoạn video được tạo ra. Khi một chiếc xe đang di chuyển ngang được tạo ra và đưa ngay vào chuỗi đào tạo của hệ thống lái tự động mà chưa được kiểm tra, thế giới vật lý thực tế cuối cùng sẽ trả giá đắt.

Nói cách khác, sinh video là một hình thức biểu hiện của mô hình thế giới, đã được triển khai trong nhiều bối cảnh, nhưng hoàn toàn không phải là mô hình thế giới mà trí tuệ nhúng cần, cũng không phải là hình thái cốt lõi trong ngữ cảnh Physical AI. Việc định nghĩa mô hình thế giới của trí tuệ nhúng thông qua hiệu ứng hình ảnh “tạo ra thế giới” về bản chất là dùng thước đo của thế giới số để đo lường các vấn đề của thế giới vật lý.

VLA đã chết? Mô hình toàn cầu không phải là cuộc cách mạng, mà là sự bổ sung

“VLA đã chết, WAM kế nhiệm” là câu chuyện được phổ biến nhất trong ngành.

Trong hai năm qua, VLA đã là con đường chính trong lĩnh vực trí tuệ hình thể. Nó kế thừa tư tưởng tiền huấn luyện của các mô hình ngôn ngữ lớn, xây dựng ánh xạ “nhận thức - mệnh lệnh - hành động” thông qua dữ liệu điều khiển từ xa khổng lồ, giúp robot chuyển từ những hành động lặp lại cứng nhắc sang việc hiểu ngôn ngữ tự nhiên và phân tách các nhiệm vụ phức tạp. Tất cả các nhà phát triển hàng đầu trong ngành đều từng lấy VLA làm nền tảng công nghệ cốt lõi.

Tuy nhiên, điểm yếu của VLA cũng rất rõ ràng: bản chất là sự ghi nhớ và ánh xạ đến từ học theo mô phỏng, thiếu hiểu biết sâu về các quy luật vật lý; khi đối mặt với các tình huống hoặc vật thể mới chưa từng xuất hiện trong dữ liệu, khả năng khái quát hóa sẽ nhanh chóng suy giảm. Con đường WAM do Jim Fan đề xuất chính xác nhắm vào điểm nghẽn này. Logic cốt lõi của nó là chuyển từ “hiểu ngữ nghĩa” sang “dự đoán vật lý”: thay vì trực tiếp đầu ra hành động, nó trước tiên dự đoán trạng thái tương lai của thế giới, sau đó suy ngược lại chuỗi hành động, tương đương với việc để robot “luyện tập” trước trong đầu những hệ quả có thể xảy ra trước khi hành động, từ đó nâng cao khả năng thích nghi với các tình huống mới lạ.

Do đó, luận điểm “đảo ngược” nhanh chóng lan rộng, VLA là mô hình cũ đã lỗi thời, trong khi mô hình thế giới mới là câu trả lời tiếp theo cho trí tuệ nhúng. Nhưng trong thực tiễn công nghiệp thực tế, vấn đề không đơn giản đến mức “hoặc sống hoặc chết”.

Ngành công nghiệp đang phân hóa thành hai hướng rõ ràng, đằng sau là những triết lý công nghệ và nhu cầu kinh doanh khác nhau:

Một hướng là “phái thay thế” do Thung lũng Silicon dẫn dắt, đại diện bởi NVIDIA và Google DeepMind, dựa trên nguồn lực tính toán và dữ liệu dồi dào để theo đuổi sự tái cấu trúc toàn diện về mô hình. NVIDIA trong Cosmos 3 đã đưa ngôn ngữ, hình ảnh, video và chuỗi hành động vào cùng một khung mô hình thế giới Physical AI, nỗ lực khiến việc tạo ra, mô phỏng và dự đoán hành động không còn là các mô-đun tách biệt; Waymo World Model do Waymo và Google DeepMind hợp tác ra mắt, với khả năng của mô hình Genie 3, không chỉ dùng để tạo ra các kịch bản dài đuôi như thời tiết hiếm gặp hay động vật xông vào đường, mà trọng tâm là để những kịch bản này bị kiểm soát bởi hành động lái xe, bố cục đường và điều kiện ngôn ngữ, nhằm kiểm tra phản ứng của hệ thống tự lái trong các tình huống phản thực tế.

Con đường này đầy tham vọng nhất và cũng phù hợp nhất với "câu chuyện cách mạng", nhưng rào cản rất cao, là trò chơi của những gã khổng lồ hàng đầu.

Một hướng khác là “phái kết hợp” phổ biến hơn ở trong nước. Hầu hết người chơi không chọn xây dựng lại từ đầu, mà thay vào đó tích hợp mô hình thế giới như một bộ bổ sung năng lực cho VLA, nhúng vào kiến trúc hiện có. Zhi Square đã ra mắt mô hình lớn VLA mang tính hiện thân AlphaBrain vào tháng 5 năm 2026. Nó học hỏi cơ chế phân công “não bộ - tiểu não - thân thể” của não người, thông qua sự phối hợp giữa “hệ nhanh và hệ chậm”, nhúng khả năng “mô phỏng” của mô hình thế giới vào bên trong kiến trúc VLA—hệ chậm phụ trách nhận thức tình huống môi trường và lập kế hoạch hành vi cấp cao, hệ nhanh phụ trách cảm biến tinh vi và phản hồi nhanh. Giai Diện Đông, người sáng lập Zhi Square, có nhận định trực tiếp: “Mô hình thế giới và VLA hoàn toàn không mâu thuẫn, mà vốn là một nhánh của cùng một tuyến công nghệ. Nếu muốn thực hiện các nhiệm vụ suy luận dài hạn hơn, cần kết hợp mô hình thế giới với VLA, hoặc hợp nhất mô hình thế giới với VLA.”

Galaxy General cũng đã đi rất xa; mô hình LDA-1B mà họ công bố vào tháng 4 năm nay đồng thời thực hiện học chiến lược, dự đoán vật lý và nhận thức thị giác trong một khung thống nhất, lần đầu tiên đạt được sự thống nhất giữa mô hình thế giới và mô hình hành động ở quy mô 1 tỷ tham số cấp công nghiệp. Kết quả liên quan đã được lựa chọn vào hội nghị robot hàng đầu RSS, và trọng số mô hình cùng mã huấn luyện đã được mở nguồn. Họ không bận tâm đến việc “chọn VLA hay mô hình thế giới”, mà thay vào đó một cách thực tế hơn là để dự đoán và thực thi chia sẻ cùng một mô hình, tận dụng ưu điểm của từng phương pháp và bù đắp điểm yếu của nhau.

Theo chúng tôi, “thay thế” và “hợp nhất” không có đúng hay sai tuyệt đối, mà chỉ là những lựa chọn khác nhau ở các giai đoạn khác nhau. VLA sẽ không thực sự “chết”, mô hình thế giới cũng không phải là cuộc cách mạng lật đổ tất cả; nó bổ sung khả năng dự đoán vật lý mà VLA thiếu nhất. Mối quan hệ cuối cùng giữa hai bên nhiều khả năng sẽ là sự hợp tác phân tầng, chứ không phải sống còn lẫn nhau. Điều thực sự quyết định thắng thua của con đường không phải là khái niệm có mới mẻ hay không, mà là ai có thể chạy thông suốt chuỗi dữ liệu, mô phỏng và triển khai thực tế, để robot thực sự bước vào các bối cảnh thực tế.

Mô hình thế giới chưa được triển khai, nhưng đã bắt đầu thổi bùng lửa huyễn tưởng về khái niệm

Khi nhiệt độ khái niệm vượt trước sự triển khai công nghệ, bong bóng gần như là sản phẩm tất yếu. Trong lĩnh vực mô hình thế giới hiện tại, ít nhất đã xuất hiện ba bong bóng đáng cảnh báo.

Lớp đầu tiên là định nghĩa bong bóng. Mô hình thế giới ngày nay đã trở thành một cái giỏ có thể nhét vào bất cứ thứ gì. Yann LeCun cho rằng đó là dự đoán trạng thái thế giới ở cấp độ trừu tượng, Li Feifei định nghĩa nó là biểu diễn không gian 3D có thể tương tác, NVIDIA định vị nó là bộ mô phỏng sinh tạo AI vật lý, các công ty khởi nghiệp thì có người dùng video generation để lấp đầy, có người chỉ đổi tên công cụ mô phỏng truyền thống thành mô hình thế giới. Tại Trung Quốc, đã có hàng chục công ty tuyên bố đang triển khai mô hình thế giới, nhưng có thể họ hoàn toàn không nói về cùng một thứ. Khi một khái niệm công nghệ có thể được giải thích vô hạn, nó thường mất đi ý nghĩa như một thước đo kỹ thuật. Sự khái quát hóa định nghĩa đằng sau là sự thúc đẩy chung từ nhu cầu huy động vốn và câu chuyện tiếp thị, bởi vì gọi là “mô hình thế giới” rõ ràng có giá trị hơn nhiều so với gọi là “công cụ sinh tạo video” hay “giải pháp tối ưu mô phỏng”.

Lớp thứ hai là bong bóng tính toán. Con đường huấn luyện phổ biến cho các mô hình thế giới dựa trên dữ liệu video khổng lồ và năng lực tính toán cực lớn—đây chính là thế mạnh của NVIDIA. Huang Renxun tại hội nghị GTC đã thẳng thắn tuyên bố rằng đến năm 2027, các chip Blackwell và Rubin, cùng các hệ thống đi kèm được thiết kế cho các mô hình trí tuệ thể chất, sẽ mang lại cho NVIDIA ít nhất 1 nghìn tỷ USD doanh thu. Về một mặt nào đó, việc các công ty hàng đầu ở Thung lũng Silicon thúc đẩy con đường “mô hình thế giới đa modal tổng quát” hoàn toàn phù hợp với logic kinh doanh của NVIDIA là “bán hạ tầng tính toán”. Tuy nhiên, rào cản đầu tư theo con đường này đối với đa số công ty là vô tận: ngay cả các đội ngũ nhỏ từng đầu tư vào VLA cũng khó gánh nổi chi phí chìm ở quy mô này, chưa nói đến việc bắt đầu từ con số không để bước vào lĩnh vực mô hình thế giới. Khi tất cả đều đang thảo luận về cùng một con đường đòi hỏi năng lực tính toán cao, nhưng rất ít người tính được tỷ lệ đầu tư - lợi nhuận, đây chính là tín hiệu của một bong bóng.

Lớp thứ ba, cũng là nguy hiểm nhất, là bong bóng khi đưa vào thực tế. Tất cả các câu chuyện khái niệm cuối cùng đều phải trả lời cùng một câu hỏi: liệu nó có thực sự cải thiện hiệu suất thực tế không? Nhưng thực tế là, khoảng cách chuyển đổi từ mô phỏng sang thực tế sẽ không tự động biến mất chỉ vì tên mô hình thay đổi từ VLA sang WAM. Một chi tiết nhỏ về lỗi xuyên vật thể, phản trọng lực hoặc ranh giới mờ trong video sẽ trở thành nhận thức vật lý sai lệch khi áp dụng vào huấn luyện robot; một dự đoán trông có vẻ hợp lý nhưng vi phạm các quy luật vật lý có thể gây hiểu lầm nghiêm trọng hơn cho robot thực tế so với việc không sử dụng mô hình để huấn luyện.

Nhà khoa học trưởng của Ant Lingbo, Shen Yujun, từng chỉ ra sự khác biệt cốt lõi: các mô hình sinh trong thế giới số có thể theo đuổi độ sắc nét và chân thực, chậm một chút cũng không sao; nhưng các mô hình trong thế giới vật lý, yêu cầu hàng đầu là nhanh, ổn định và chính xác, phải có khả năng phản hồi thời gian thực và hỗ trợ hành động. Nhiều đội ngũ tập trung vào việc làm cho cảnh trong thế giới số ngày càng chân thực hơn, nhưng lại bỏ qua dữ liệu tương tác vật lý thực tế mới là nguồn tài nguyên khan hiếm nhất. Mô hình thế giới có thể đạt được các chỉ số đẹp trong mô phỏng, nhưng nếu chưa được xác minh giá trị thực tế trên dây chuyền sản xuất nhà máy, kho vận chuyển hoặc đường phố mở, thì nó vẫn chỉ là một cuộc khám phá công nghệ trong phòng thí nghiệm, chứ chưa phải là cơ sở hạ tầng cấp công nghiệp.

Vậy thì, mô hình thế giới dành cho Physical AI hoặc trí tuệ hình thể nên có hình dạng như thế nào? Câu trả lời không bao giờ nằm trong các video trình diễn tại sự kiện, mà nằm trong nhu cầu của các tình huống thực tế. Tiêu chí đánh giá cốt lõi của nó không phải là “thế giới tạo ra có đủ chân thực không”, mà là “có giúp máy móc hành động hiệu quả hơn trong thế giới vật lý không”, có giảm chi phí thử nghiệm và sai sót không, có nâng cao khả năng khái quát hóa không, và có thể tích hợp vào chuỗi giá trị kinh doanh thực tế không.

Từ thực tiễn ngành hiện tại, những người chơi thực sự đi đúng hướng đều đang làm một việc giống nhau: chuyển đổi mô hình thế giới từ “hướng trình bày” sang “hướng nhiệm vụ”. Nói cách khác, hình thái cuối cùng của mô hình thế giới không phải là một “sản phẩm” độc lập, mà là một năng lực cơ bản được nhúng sâu vào các hệ thống vật lý khác nhau. Nó ẩn mình trong nền tảng mô phỏng của xe tự lái, trong module lập kế hoạch hành động của robot, trong hệ thống dự đoán của dây chuyền sản xuất nhà máy, âm thầm thực hiện các công việc dự đoán, thử nghiệm và điều chỉnh. Hầu hết thời gian, người dùng thậm chí không nhận ra sự tồn tại của nó.

Đó mới là thời đại của các mô hình thế giới, dù nó cũng có thể không được gọi là mô hình thế giới.

Các mô hình toàn cầu trong trí tuệ thể chất: Một hướng đi phía trước vượt ra ngoài sinh học hình ảnh

Mô hình thế giới không hoàn toàn tương đương với “tạo hình ảnh”

VLA đã chết? Mô hình toàn cầu không phải là cuộc cách mạng, mà là sự bổ sung

Mô hình thế giới chưa được triển khai, nhưng đã bắt đầu thổi bùng lửa huyễn tưởng về khái niệm