Đội ngũ Lý Phi Phi làm rõ khái niệm 'Mô hình thế giới', Sora được phân loại là trình tạo hình ảnh

Vào ngày 3 tháng 6 năm 2026, nhóm World Labs cùng giáo sư Li Fei-Fei từ Đại học Stanford đã công bố một bài phân tích khái niệm với tiêu đề trực tiếp đến mức gần như không có sự tu chỉnh: “Phân loại chức năng của các mô hình thế giới.” Câu đầu tiên của bài viết đã phá vỡ một sự đồng thuận trong ngành: “Mô hình thế giới là một trong những thuật ngữ quan trọng nhất và cũng bị lạm dụng nhiều nhất trong lĩnh vực trí tuệ nhân tạo hiện nay.”

Bối cảnh của câu này, bất kỳ ai quan tâm đến ngành AI đều không xa lạ.

Tháng 2 năm 2024, OpenAI công bố mô hình tạo video Sora, với tiêu đề báo cáo kỹ thuật ghi rõ: “Mô hình tạo video như một bộ mô phỏng thế giới”. Lúc đó, Jim Fan, Giám đốc Robot của NVIDIA, đã để lại một bình luận trên LinkedIn sau này được trích dẫn lặp đi lặp lại: Sora về bản chất là một “mô hình thế giới chỉ cho phép hành động không làm gì cả như hành động duy nhất”. Ở phía bên kia, theo các báo cáo công khai, nhóm AI của Tesla đã nhiều lần gọi thành phần dự đoán bên trong hệ thống tự lái toàn phần là “mô hình thế giới” hoặc “bộ mô phỏng thế giới”. Các sản phẩm và công nghệ khác nhau như động cơ trò chơi, công cụ tạo 3D, mô hình trí tuệ thể chất đều bị nhét vào cùng một chiếc hộp và dán lên cùng một nhãn hiệu.

Một bộ tạo video, một mạng dự đoán tự lái, một mô hình điều khiển robot, một động cơ vật lý—chúng có điểm chung gì? Hầu như không có. Nhưng tất cả đều được gọi là “mô hình thế giới”.

Sau hơn hai năm hỗn loạn khái niệm, cuối cùng cũng đã có người cố gắng hệ thống hóa rõ ràng. Đội ngũ của Lý Phi Phi lần này không công bố mô hình mới, không công bố tiêu chuẩn mới, cũng không trình diễn bất kỳ tính năng sản phẩm nào. Họ đã làm một việc cơ bản hơn: quay trở lại nguồn lý thuyết là quá trình ra quyết định Markov quan sát một phần, và quy tất cả các hệ thống trên thị trường được gọi là “mô hình thế giới” về ba phép chiếu chức năng khác nhau của cùng một chu trình nhận thức.

Ba loại dự đoán lần lượt là: bộ tạo hình, bộ mô phỏng, bộ lập kế hoạch. Trong khung phân loại của World Labs, Sora và các mô hình tạo video tương tự thuộc về bộ tạo hình.

Tại sao một thuật ngữ lại có thể chứa đựng nhiều ý nghĩa mâu thuẫn nhau như vậy?

Để hiểu được nguồn gốc của sự hỗn loạn này, cần phải đặt ra một câu hỏi cơ bản hơn: Khi một công ty nói “chúng tôi đang phát triển mô hình thế giới”, họ thực sự đang nói gì?

Đối với OpenAI, mục tiêu của Sora là “hiểu và tái hiện thế giới vật lý trong video”. Theo báo cáo kỹ thuật, Sora có thể tạo ra những cảnh quan tuân theo trực quan thị giác bằng cách học các quy luật thống kê từ lượng lớn dữ liệu video — ví dụ như cốc rơi xuống đất sẽ vỡ, máy bay giấy buông ra sẽ bay, và người đi bộ sẽ chuyển động luân phiên hai chân. Những cảnh này trông như “hiểu vật lý”.

Đối với Tesla, "mô hình thế giới" là mạng nơ-ron trong hệ thống FSD dùng để dự đoán quỹ đạo chuyển động của các đối tượng trên đường trong vài giây tới. Nó cần đầu ra vị trí 3D, vận tốc và hướng chính xác để mô-đun lập kế hoạch đường đi tính toán các quyết định lái xe an toàn. Mô hình này không cần đầu ra pixel; nó đầu ra là các vectơ và phân bố xác suất.

Đối với các công ty robot, "mô hình thế giới" là cơ chế mô phỏng nội bộ giúp cánh tay cơ khí dự đoán được "Nếu tôi đẩy cốc này sang trái 5 cm, nó sẽ đổ không?". Nó cần hiểu các thuộc tính của vật thể, lực học tiếp xúc và độ ổn định, và đầu ra là đánh giá tính khả thi của hành động.

Mục tiêu của ba loại công ty này hoàn toàn khác nhau. Các công ty tạo video quan tâm đến độ trung thực của pixel, các công ty ô tô tự lái quan tâm đến độ chính xác của dự đoán trạng thái vật lý, còn các công ty robot quan tâm đến tính có thể suy diễn được của hậu quả hành động. Chúng đều đang phát triển “mô hình thế giới”, nhưng thực chất không phải đang làm cùng một việc.

World Labs trong bài viết đã trực tiếp chỉ ra cốt lõi vấn đề: những hệ thống này đều được đặt cùng một cái tên vì chúng thực sự đều phản ánh một khía cạnh nào đó của việc "hiểu thế giới". Nhưng mỗi hệ thống chỉ hoàn thành một khâu trong chu trình nhận thức đầy đủ, lại được bao bọc bởi ngôn ngữ tiếp thị, báo chí và câu chuyện vốn hóa như thể là những mô hình thế giới hoàn chỉnh.

Một yếu tố khác thúc đẩy sự nhầm lẫn khái niệm là sự căng thẳng trong chính thuật ngữ. Cụm từ “mô hình thế giới” mang tính chất của một câu chuyện vĩ đại, nghe có vẻ giàu tính tưởng tượng hơn so với “mô hình sinh video” hay “mô hình dự đoán video”, và dễ dàng hỗ trợ các câu chuyện định giá cao và huy động vốn. Khi năng lực kỹ thuật không thể đáp ứng kỳ vọng của công chúng, việc biến khái niệm thành công cụ truyền thông trở nên tất yếu.

Trở lại những năm 1960, một “mô hình thế giới” hoàn chỉnh nên là gì

Khung phân loại của World Labs được xây dựng dựa trên một lý thuyết dường như đã cũ: quá trình ra quyết định Markov quan sát một phần.

Khung này mô tả chu trình tương tác đầy đủ giữa tác nhân và môi trường. Tác nhân ở trong một trạng thái môi trường nhất định, thực hiện một hành động, hành động này thay đổi trạng thái môi trường, tác nhân nhận được quan sát một phần thông qua cảm biến, quan sát này kích hoạt cập nhật trạng thái nội bộ, và nhận thức đã được cập nhật sẽ điều khiển hành động tiếp theo. Chu trình lặp lại liên tục.

Trong khuôn khổ này, chức năng đầy đủ của “mô hình thế giới” nên bao gồm ba giai đoạn: sinh quan sát từ trạng thái (pixel, điểm đám mây mà con người nhìn thấy hoặc cảm biến thu thập), suy diễn trạng thái tiếp theo từ hành động và trạng thái hiện tại (dự đoán thay đổi vật lý), và sinh hành động từ quan sát và mục tiêu (quyết định và lập kế hoạch).

Mô hình ngôn ngữ học các quy luật thống kê của chuỗi văn bản, trong khi mô hình thế giới học các đặc tính thống kê về không gian và thời gian. Cách ánh sáng phản xạ trên các bề mặt khác nhau, cách vật thể di chuyển dưới tác động của trọng lực, cách năng lượng được truyền sau va chạm giữa các vật rắn — những quy luật này mới là những gì mô hình thế giới cần nắm bắt.

Đội ngũ World Labs chỉ ra trong bài viết rằng, tất cả các hệ thống hiện nay được gọi là “mô hình thế giới” thực chất chỉ là hình chiếu của một giai đoạn trong chu trình đầy đủ nêu trên. Một số hệ thống chỉ thực hiện việc “từ trạng thái đến quan sát”, một số khác chỉ thực hiện “từ hành động đến trạng thái tiếp theo”, và một số chỉ thực hiện “từ quan sát đến hành động”. Mỗi hệ thống đều cắt lấy một đoạn cung của chu trình, nhưng lại dán lên đó nhãn hiệu đại diện cho cả vòng tròn hoàn chỉnh.

Giá trị của khung phân tích này nằm ở chỗ nó cung cấp một hệ tọa độ so sánh vượt qua những lời quảng cáo tiếp thị. Dù một công ty có bao bọc sản phẩm của mình như thế nào, chỉ cần đặt nó trở lại chu trình POMDP, xem nó đầu vào gì, đầu ra gì và thiếu khâu nào, ranh giới năng lực của nó sẽ bộc lộ rõ ràng.

Giới hạn năng lực của ba loại dự đoán: bộ render, bộ mô phỏng và bộ lập kế hoạch

Trong phân loại của World Labs, loại đầu tiên được định nghĩa là “bộ tạo hình”. Mục tiêu cốt lõi của nó là tạo ra đầu ra pixel độ phân giải cao, phù hợp với nhận thức thị giác của con người. Đầu vào là biểu diễn của trạng thái môi trường (có thể là mô tả văn bản, tham số cảnh 3D hoặc mã hóa ẩn), đầu ra là chuỗi hình ảnh liên tục từng khung hình.

Hướng tối ưu hóa trình render là độ chân thực về thị giác, chứ không phải độ chính xác về vật lý. Bài viết của World Labs đã chỉ rõ rằng các tòa nhà do trình render tạo ra có thể “lắc lư” vì nó không thực sự giải các phương trình cơ học cấu trúc; các vệt chất lỏng mà nó tạo ra có thể trông rất chân thực, nhưng thể tích chất lỏng, tốc độ dòng chảy và lực va chạm có thể hoàn toàn không tương ứng với các đại lượng vật lý thực tế. Do đó, các mô hình loại này không thể được sử dụng cho thiết kế kiến trúc, không thể dùng để huấn luyện robot, và không thể dùng cho các nhiệm vụ yêu cầu mô phỏng chính xác về mặt vật lý.

Genie 3 của Google, các mô hình chuyển văn bản thành video khác nhau, cũng như hầu hết các công cụ tạo video AI, đều thuộc danh mục này. Sora đương nhiên cũng nằm trong số đó.

Loại thứ hai là “bộ mô phỏng”. Mục tiêu cốt lõi của nó không phải là tạo ra hình ảnh để con người xem, mà là tạo ra các trạng thái chính xác có thể sử dụng cho các phép tính tiếp theo. Đầu vào là trạng thái môi trường hiện tại và các lực bên ngoài (hoặc hành động), đầu ra là trạng thái tiếp theo tuân thủ trung thành các quy luật vật lý và hình học của thế giới thực. Trạng thái do bộ mô phỏng đầu ra có thể được sử dụng để phân tích ứng suất, tính toán tiêu thụ năng lượng, phát hiện va chạm, hoặc làm đầu vào cho bộ trình chiếu để tạo ra hình ảnh trực quan, nhưng giá trị cốt lõi của nó nằm ở khả năng tính toán của chính trạng thái đó.

NVIDIA Omniverse là đại diện tiêu biểu cho các hệ thống loại này. Nó không phải là mô hình gốc AI, mà là một nền tảng song sinh số tích hợp động lực học truyền thống và tính toán được tăng tốc bởi AI. World Labs đánh giá trong bài viết rằng, mô phỏng là cầu nối giữa hiển thị và lập kế hoạch, nhưng sự khan hiếm dữ liệu ghi chú vật lý 3D chất lượng cao là rào cản chính. Theo ước tính của World Labs trong bài viết, dữ liệu dùng để huấn luyện các mô hình này ít hơn vài cấp độ so với dữ liệu video có sẵn trên internet.

Loại thứ ba là “bộ lập kế hoạch”. Đầu vào của nó là dữ liệu quan sát (hình ảnh camera, đám mây điểm lidar, dữ liệu cảm biến xúc giác, v.v.) và lệnh mục tiêu, đầu ra là hành động tiếp theo cần thực hiện. Các mô hình VLA (thị giác - ngôn ngữ - hành động) và World Action Models đều thuộc loại này.

Sự khác biệt giữa ba danh mục này không phải là những khác biệt nhỏ về tuyến đường công nghệ, mà là sự phân hóa chức năng căn bản. Bộ render đầu ra pixel để con người xem, bộ mô phỏng đầu ra trạng thái để máy tính xử lý, bộ lập kế hoạch đầu ra hành động để bộ thực thi thực hiện. Một hệ thống có thể đồng thời sở hữu nhiều khả năng, nhưng khi hầu hết các hệ thống được gọi là “mô hình thế giới” thực chất chỉ thực hiện việc render, thì việc đồng nhất “render” với “hiểu thế giới” là một sự sai lệch nhận thức nghiêm trọng.

Một cuộc tranh luận kéo dài hai năm: Sora có phải là mô hình thế giới hay không

Tháng 2 năm 2024, OpenAI phát hành Sora, tiêu đề báo cáo kỹ thuật trực tiếp ghi “Mô hình tạo video như một trình mô phỏng thế giới”. Cách dùng từ này ngay lập tức gây ra tranh luận sôi nổi trong cộng đồng học thuật và nhà phát triển.

Các nhà ủng hộ cho rằng video do Sora tạo ra thể hiện tính nhất quán không gian 3D, tính bền vững của đối tượng và một sự hiểu biết trực quan nào đó về các tương tác vật lý. Một chiếc bánh hamburger bị cắn sẽ để lại dấu răng, một con chó chạy trên tuyết sẽ làm bắn tung tóe những bông tuyết—những chi tiết này dường như cho thấy mô hình đã học được một số quy luật vật lý.

Lập luận cốt lõi của những người phản đối xuất phát từ định nghĩa cổ điển về mô hình thế giới trong lĩnh vực học tăng cường: một mô hình thế giới phải có khả năng dự đoán chuyển đổi trạng thái dựa trên hành động. Nói cách khác, với trạng thái hiện tại và một đầu vào hành động, mô hình phải đầu ra trạng thái tiếp theo sau hành động đó. Sora không làm được điều này. Người dùng không thể nói với Sora “đẩy cái cốc đó sang bên trái”, rồi quan sát xem cốc có đổ hay không, đổ về hướng nào, và các mảnh vỡ bay đến đâu.

Bình luận của Jim Fan đã nắm bắt chính xác mâu thuẫn này: “Sora về bản chất là một mô hình thế giới, chỉ là nó chỉ cho phép hành động không thực hiện (no-op) như hành động duy nhất.” Câu này có nghĩa là Sora thực sự đang dự đoán sự thay đổi của môi trường theo thời gian, nhưng quá trình thay đổi này không chịu bất kỳ sự can thiệp bên ngoài nào, mà chỉ có thể phát triển theo chuỗi nhân quả vốn có trong dữ liệu video. Nó không thực hiện suy luận tương tác, mà chỉ đang tiếp nối chuỗi quan sát thụ động.

Trên diễn đàn r/MachineLearning của Reddit, nhiều nhà nghiên cứu học tăng cường đã đưa ra những lời phê bình sắc nét hơn: các hệ thống không thể dự đoán chuyển đổi trạng thái dựa trên hành động không thể được gọi là mô hình thế giới, mà chỉ là mô hình dự đoán video.

Khung phân loại của World Labs cung cấp một câu trả lời quyết định cho cuộc tranh luận này. Trong chu kỳ POMDP, hành động là đầu vào then chốt thúc đẩy sự chuyển đổi trạng thái; một hệ thống thiếu đầu vào này chỉ là hình chiếu của giai đoạn “tạo quan sát” trong chu trình nhận thức đầy đủ. Sora là một trình tạo hình, không phải là mô hình thế giới đầy đủ, càng không phải là bộ mô phỏng thế giới.

Nhưng điều này không có nghĩa là Sora không có giá trị. Bộ tạo hình giải quyết một vấn đề khác: làm thế nào để tạo ra các hình ảnh đáp ứng kỳ vọng thị giác của con người. Vấn đề này bản thân nó cực kỳ khó khăn và mang lại giá trị thương mại khổng lồ. Vấn đề nằm ở chỗ, việc đóng gói khả năng tạo hình như một khả năng “hiểu thế giới” sẽ gây hiểu lầm cho các nhà ra quyết định công nghệ và nhà đầu tư, khiến họ lầm tưởng rằng các mô hình này đã sở hữu khả năng suy luận vật lý hoặc tương tác thể chất.

Giá trị công nghiệp của việc làm rõ khái niệm

Làm rõ ranh giới định nghĩa của “mô hình thế giới” không phải là một cuộc tranh luận học thuật về chữ nghĩa. Nó ảnh hưởng trực tiếp đến việc lựa chọn công nghệ, đánh giá đầu tư và mức độ nhận thức của công chúng về khả năng của AI.

Đối với một doanh nghiệp sản xuất đang đánh giá liệu có nên sử dụng một “mô hình thế giới” nào đó để huấn luyện robot hay không, việc xác định rõ mô hình đó là trình render, trình mô phỏng hay trình lập kế hoạch là điều kiện tiên quyết để tránh những sai sót tốn hàng triệu đô la. Một mô hình chỉ có thể tạo ra hình ảnh video, dù có chân thực đến đâu, cũng không thể thay thế được việc tính toán chính xác các lực tác động, quỹ đạo chuyển động và hậu quả va chạm của vật thể.

Đối với các tổ chức đầu tư, việc phân biệt ba loại dự báo giúp xác định chính xác vị trí của dự án trong nền tảng công nghệ. Một công ty khởi nghiệp tự xưng là “mô hình thế giới” nhưng sản phẩm thực chất chỉ là một trình hiển thị thì đối thủ cạnh tranh của nó là các công ty tạo video, chứ không phải các nền tảng số song sinh hay mô hình điều khiển robot. Điều này trực tiếp quyết định cách ước tính quy mô thị trường và lựa chọn các công ty so sánh.

Đối với cộng đồng học thuật, việc phân loại rõ ràng là điều kiện tiên quyết để xây dựng các tiêu chuẩn so sánh. Nếu thuật ngữ “mô hình thế giới” tiếp tục được sử dụng một cách quá rộng rãi, các nhà nghiên cứu sẽ khó xác định điều gì cấu thành sự cải tiến hay đột phá, và quá trình bình duyệt đồng nghiệp sẽ dựa trên sự mơ hồ.

World Labs cũng chỉ ra trong bài viết rằng việc làm rõ khái niệm không nhằm tạo ra sự đối lập. Hướng phát triển trong tương lai sẽ là sự hội tụ của ba loại mô hình. Một mô hình thực sự hiểu các thuộc tính vật lý của cái cốc nên có thể đồng thời tạo ra giao diện thị giác của nó, mô phỏng quá trình vật lý khi nó bị đổ, và lập kế hoạch cho tay máy cách nắm lấy nó một cách ổn định. Nhưng trước khi công nghệ đạt đến bước đó, việc nhận thức rõ ranh giới của từng loại có ý nghĩa thực tế hơn là chỉ mơ về sự hội tụ.

Theo ước tính của World Labs trong bài viết, các công cụ mô phỏng và công nghệ song sinh số, đại diện bởi NVIDIA Omniverse, nhắm đến thị trường tiềm năng vượt quá 1 nghìn tỷ USD trong các lĩnh vực như nhà máy, kho bãi và chuỗi cung ứng. Con số này xuất phát từ đánh giá của chính các nhà sản xuất; thời điểm thị trường thực sự đạt đến quy mô này phụ thuộc vào khả năng của các công cụ mô phỏng trong việc vượt qua rào cản về sự khan hiếm dữ liệu vật lý 3D chất lượng cao.

Đối với ngành AI ở giai đoạn hiện tại, nhận thức quan trọng nhất có lẽ rất đơn giản: có thể tạo ra video chân thực không đồng nghĩa với việc hiểu thế giới vật lý; được gọi là mô hình thế giới không đồng nghĩa với việc thực sự mô phỏng thế giới. Đặt ra ngoài ngôn ngữ tiếp thị, việc xem xét một hệ thống nhận đầu vào gì, đầu ra gì và thiếu khâu nào trong chu kỳ POMDP là cách đánh giá trung thực nhất về ranh giới năng lực kỹ thuật.