Năm 2026, ngành công nghiệp AI chứng kiến sự trỗi dậy của 'AI vật lý' với những bước đột phá lớn

Physical AI, đã tiếp quản.

Tác giả bài viết, nguồn: Dongjian Xin Yan She

Từ đầu năm 2026, cộng đồng AI đã xuất hiện một thuật ngữ nóng – “Physical AI”.

Huang Renxun đã nhiều lần nhắc đến tại triển lãm CES đầu năm rằng: “Sóng AI tiếp theo sẽ là AI vận hành trong thế giới vật lý,” còn Sun Yuchen gần đây cũng công khai tuyên bố: “Lợi nhuận từ AI ảo đã hết, AI vật lý mới là cơ hội lớn nhất trong ba năm tới.”

Ở khía cạnh công nghiệp, công ty nổi bật Figure AI đã gây bùng nổ trên toàn mạng với buổi phát trực tiếp liên tục năm ngày về robot phân loại, trong khi công ty Trí Nguyên của Trung Quốc thông báo đã sản xuất xong chiếc robot thể chất phổ thông thứ 10.000...

Những phát biểu của các chuyên gia hàng đầu và những thay đổi thực tế trong trí tuệ gắn liền với cơ thể đã thu hút sự chú ý của toàn ngành vào câu chuyện lớn lao này, khi trí tuệ ảo bước sang thực thi vật lý. Tuy nhiên, nhiều người vẫn còn nghi ngờ: liệu “AI vật lý” này thực sự là điểm ngoặt tất yếu trong phát triển công nghệ, hay chỉ là một khái niệm được bao bọc một cách tinh vi để thay thế tên gọi?

Năm 2026, cộng đồng AI bùng nổ làn sóng "AI vật lý", Huang Renxun cho rằng làn sóng AI tiếp theo sẽ là AI hoạt động trong thế giới vật lý. Figure AI đã chứng minh công nghệ vượt qua ngưỡng chuyển tiếp từ trình diễn phòng thí nghiệm thông qua buổi livestream robot phân loại trong 5 ngày, trong khi Zhìyuán Robotics đã hoàn thành sản xuất chiếc robot thể chất phổ thông thứ 10.000. Lõi của công nghệ này là trang bị cho AI khả năng tạo thành vòng lặp khép kín "nhận thức - suy luận - hành động - phản hồi" trong thế giới thực. Những động lực đằng sau bao gồm mô hình ngôn ngữ lớn trao cho robot khả năng hiểu biết, mô hình thế giới giải quyết các vấn đề hành động trong thế giới vật lý, và mô hình VLA kết nối bước cuối cùng từ việc hiểu sang thực hiện chính xác. AI vật lý đang chuyển từ giai đoạn xác minh công nghệ sang hiện thực hóa thương mại, kể từ năm 2026, vốn huy động đã vượt quá 110 tỷ nhân dân tệ, và cuộc cạnh tranh đang bước vào giai đoạn sản xuất hàng loạt và giao hàng.

Nguồn bài viết: Động Kiến Tân Nghiên Xã

01 Từ “biết nói chuyện” đến “biết làm việc”

Trước khi trả lời câu hỏi trên, hãy cùng phân tích thuật ngữ chuyên môn hơi cứng nhắc này.

AI vật lý, về mặt chữ nghĩa, là công nghệ trí tuệ nhân tạo tích hợp sâu sắc giữa AI và thế giới vật lý, nhưng khi đi sâu vào bản chất, AI ảo chịu trách nhiệm “suy nghĩ và giao tiếp”, trong khi AI vật lý buộc phải “cảm nhận và hành động”, nhờ đó, nó không còn là một thực thể thông minh trên màn hình, mà phải giúp máy móc cảm nhận, hiểu và thực hiện các thao tác phức tạp trong thế giới vật lý thực tế.

Physical AI là một công nghệ “giúp các thiết bị tự chủ (như robot, xe tự hành, v.v.) cảm nhận, hiểu và thực hiện các thao tác phức tạp trong thế giới vật lý thực tế.” Ủy viên Ban Chấp hành Hội Máy tính Trung Quốc, Vương Tường, đã trình bày hệ thống khái niệm này tại Triển lãm Chuỗi Cung ứng Quốc tế Trung Quốc lần thứ ba: “Physical AI có nghĩa là các hệ thống AI có khả năng tạo thành vòng lặp khép kín ‘cảm nhận – suy luận – hành động – phản hồi’ trong thế giới thực.”

Nói một cách đơn giản, AI trước đây là “biết trò chuyện”, còn AI vật lý hiện nay là “biết làm việc”. Khi AI bước ra khỏi khung hội thoại của ChatGPT và bước vào thực tế của các nhà máy, kho bãi và gia đình, đó chính là vấn đề mà AI vật lý cần giải quyết.

Sự khác biệt này được thể hiện rõ ràng trong các động thái của hai công ty robot nổi bật năm nay.

Một trong số đó là Figure AI của Mỹ, đã sử dụng năm ngày liên tiếp phát trực tiếp để chứng minh “robot thực sự có thể làm việc”, buổi phát trực tiếp bắt đầu từ ngày 14 tháng 5, nội dung là ba robot hình người Figure 03 luân phiên sắp xếp bưu kiện trên dây chuyền sản xuất, nhiệm vụ của robot là quét mã vạch, cầm lấy bưu kiện, điều chỉnh lại hướng và đặt mã vạch hướng xuống dưới băng chuyền.

Trong suốt buổi phát trực tiếp, một robot đã hoạt động liên tục hơn 33 giờ, xử lý hơn 40.000 gói hàng. Người sáng lập Brett Adcock cho biết robot này sử dụng mô hình Helix 02 mới nhất của công ty và vận hành ở chế độ “hoàn toàn tự chủ”.

Ý nghĩa của buổi phát trực tiếp Figure AI không chỉ nằm ở việc trưng bày năng lực công nghệ của mình, mà còn ở việc sử dụng hình ảnh thời gian thực để thông báo với cả thế giới rằng công nghệ AI vật lý đã vượt qua ngưỡng tới hạn của “bản trình diễn phòng thí nghiệm”. Việc một công ty phát trực tiếp thực tế robot hoạt động liên tục trong vài ngày mà không gặp sự cố nghiêm trọng chính là một tuyên bố công nghệ mạnh mẽ.

Công ty robot Trí Nguyên của Trung Quốc cũng tổ chức một buổi phát trực tiếp tương tự, đặt robot Trí Nguyêninh G2 vào dây chuyền sản xuất bảng mạch tại Khu công nghiệp công nghệ Long Kỳ, Nam Xương để làm việc cùng con người. Dữ liệu thực tế từ buổi phát trực tiếp cho thấy, robot hoạt động liên tục 8 giờ mà không có sự cố nghiêm trọng nào, tỷ lệ thành công tổng thể đạt hơn 99,5%; mỗi công đoạn chỉ mất 18-20 giây, mỗi giờ có thể hoàn thành 310 sản phẩm, một robot có thể đảm nhận khối lượng công việc của hai công đoạn.

Tiến xa hơn nữa so với Figure AI, Agi Robotics còn chính thức công bố vào tháng 3 rằng robot thông minh thể chất tổng quát đầu tiên trên toàn cầu đã đạt mốc 10.000 đơn vị được giao hàng, chỉ trong hơn ba tháng, từ tháng 12 năm 2025 đến tháng 3 năm 2026, đã đạt được bước nhảy từ 5.000 lên 10.000 đơn vị.

Ngoài số lượng giao hàng, Zhiyuan Robotics tiết lộ rằng công ty đặt mục tiêu doanh thu 10 tỷ vào năm 2027. Nếu dựa trên kinh nghiệm phát triển của các ngành công nghiệp tiên tiến như năng lượng mới, lái tự động hoặc chip, một công ty mới thành lập chưa đầy hai năm có thể đạt sản lượng và giao hàng ở quy mô vạn đơn vị, đồng thời đặt mục tiêu doanh thu hàng tỷ, điều này có thể được coi là hiện tượng trong lĩnh vực công nghệ cứng.

Hai công ty trên đã chứng minh bằng dữ liệu và tình huống thực tế rằng AI vật lý không còn cần dựa vào điều khiển từ xa hoặc kịch bản được lập trình sẵn để “biểu diễn”, mà đã có khả năng tự chủ thực hiện các nhiệm vụ phức tạp trong môi trường thực tế.

Quan trọng hơn, Zhiyuan đã率先 vượt qua ngưỡng giao hàng 10.000 đơn vị, liên kết năng lực sản xuất hàng loạt với đơn hàng đang có, cho thấy lĩnh vực này đã bước sang giai đoạn chuyển đổi từ “xác minh công nghệ” sang “hiện thực hóa thương mại”. Nói cách khác, “tính khả thi” của AI vật lý không còn là câu hỏi, cuộc cạnh tranh thực sự đã bước vào vùng nước sâu của “tính khả dụng” và “tính kinh tế”.

02 Các yếu tố công nghệ thúc đẩy sự bùng nổ của AI vật lý

Vậy thì, vấn đề bây giờ là tại sao AI vật lý lại bùng nổ đột ngột trong năm nay? Khi xem lại, ngoài nhu cầu thương mại thực tế, chuỗi các bước đột phá công nghệ phía sau mới là động lực lớn nhất.

Trước hết, mô hình ngôn ngữ lớn (LLM) đã mang lại cho robot “khả năng hiểu biết”. Các robot truyền thống dựa vào mã và quy tắc lập trình xác định, tương đương với việc kỹ sư预先 viết sẵn “kịch bản”, mọi hành động của robot đều tuân thủ nghiêm ngặt các yêu cầu đã được thiết lập trong “kịch bản”. Mô hình này tồn tại một lỗ hổng lớn: chỉ cần môi trường làm việc của robot thay đổi chút ít, mã nguồn phải được viết lại, độ bền kém và khó vượt qua ngưỡng thương mại hóa.

Tuy nhiên, sau khi Google nỗ lực kết hợp LLM với thực thi vật lý của robot và lần lượt ra mắt các mô hình lớn đa mô hình có thể hành động như Google PaLM-E và RT-2 vào tháng 8 năm 2023, các mô hình ngôn ngữ lớn đã có thể giúp robot tự động phân tách các nhiệm vụ phức tạp thành các bước cụ thể và thực thi chúng thông qua lệnh ngôn ngữ tự nhiên, từ đó hoàn thành bước nhảy vọt về khả năng từ “hiểu hội thoại” sang “thực thi vật lý”.

Trong bài phát biểu tại CES 2026, Huang Renxun đã chỉ ra bản chất của sự tiến hóa công nghệ này: AI vật lý thực chất là một cuộc chuyển giao quyền kiểm soát nền tảng, khi AI vật lý vượt qua điểm tới hạn của sự tiến hóa công nghệ, quyền kiểm soát sẽ được chuyển từ các mã xác định do con người viết sang các mạng nơ-ron có khả năng khái quát và hiểu các quy luật vật lý.

Lúc này, robot không còn chỉ là “thực thi mã” mà còn có khả năng “hiểu lệnh và tự lập kế hoạch hành động”.

Nếu các mô hình ngôn ngữ lớn giải quyết vấn đề “hiểu được”, thì mô hình thế giới lại giải quyết vấn đề “hành động trong thế giới vật lý”, cốt lõi của mô hình thế giới là giúp AI học được một hệ thống hiểu biết nội tại về các quy luật vận hành của thế giới vật lý.

Nền tảng mô hình cơ sở AI vật lý Cosmos, được NVIDIA công bố tại CES năm ngoái, đã trở thành sự kiện mang tính biểu tượng; khả năng cốt lõi của mô hình này là tạo ra dữ liệu hành động tuân theo các quy luật vật lý từ văn bản hoặc hình ảnh, giúp các nhà phát triển sử dụng Cosmos để đẩy nhanh quá trình phát triển AI vật lý cho xe thông minh, robot và các tác nhân AI phân tích video.

Theo NVIDIA, Cosmos được huấn luyện dựa trên hơn 20 triệu giờ dữ liệu thực tế, giúp giảm đáng kể độ khó trong mô phỏng và huấn luyện mô hình. Với mô hình thế giới, các hệ thống AI có thể thực hiện hàng loạt mô phỏng trong môi trường ảo, sau đó chuyển đổi sang thế giới vật lý thực tế.

Khả năng tối thượng của robot không phải là “hiểu nhìn” hay “hiểu nghe”, mà là “làm đúng”. Sự xuất hiện của mô hình Vision-Language-Action cho phép robot đồng thời xử lý đầu vào thị giác, hiểu ngôn ngữ và kiểm soát hành động, từ đó tạo thành vòng lặp khép kín “thấy là làm”.

DeepMind đã phát hành mô hình lớn đa mô态 thể chất thông minh thế hệ mới Gemini Robotics 1.5 vào tháng 9 năm ngoái, tuyên bố đây là mô hình suy luận đầu tiên trên thế giới được tối ưu hóa riêng cho thể chất; NVIDIA đã ra mắt mô hình mã nguồn mở Isaac GR00T N1.6 được thiết kế đặc biệt cho robot hình người, có thể mở khóa kiểm soát toàn thân.

Đồng thời, Trung tâm Sáng tạo Robot hình người Bắc Kinh đã mở nguồn mô hình đại não thể chất XR-1, trở thành mô hình đầu tiên tại Trung Quốc đáp ứng tiêu chuẩn quốc gia về trí tuệ thể chất, được huấn luyện trên hơn một triệu dữ liệu, có thể thực hiện các nhiệm vụ thao tác hai tay phức tạp như lấy đặt, đẩy kéo, xoay.

Tới nay, AI vật lý đã "tập hợp" đầy đủ các năng lực nền tảng cần thiết để triển khai thực tế: LLM giúp máy móc "hiểu" ý định của con người, mô hình thế giới giúp máy móc "dự đoán" hậu quả vật lý, còn VLA đã kết nối bước cuối cùng từ "hiểu" sang "làm đúng". Sự kết hợp của ba yếu tố này giúp robot lần đầu tiên sở hữu khả năng cơ bản để tự chủ thực hiện nhiệm vụ trong môi trường mở.

Tất nhiên, các thao tác linh hoạt hiện vẫn còn những giới hạn; việc kiểm soát tinh tế của tay và cánh tay vẫn còn nhiều vấn đề cần giải quyết. Nói cách khác, AI vật lý đã nhận được vé vào nhà máy để làm việc, nhưng để thực sự "đi vào gia đình và pha trà rót nước", cần vượt qua bước chuyển biến chất từ các hành động "thô sơ" sang "thao tác tinh vi".

03 Từ tầm nhìn kỹ thuật đến khả năng giao hàng

Việc hiểu rõ quá khứ và hiện tại của AI vật lý là rất quan trọng, và hiện tại, ngành công nghiệp trí tuệ nhúng cần đối mặt với câu hỏi: Cuộc cạnh tranh tiếp theo sẽ xoay quanh những chiều cạnh cốt lõi nào?

Chúng ta rút ra bài học từ sự phát triển của công nghệ lái tự động: cuộc chiến dữ liệu là điều không thể tránh khỏi với lái tự động, và trí tuệ nhúng – có logic tương tự – cũng không thể tránh khỏi. Nói chung, ai sở hữu dữ liệu huấn luyện chất lượng cao hơn sẽ nắm giữ quyền phát ngôn.

Hiện nay trong ngành, NVIDIA đã率先 sử dụng Cosmos để xây dựng rào cản cho mô hình thế giới, với mô hình được huấn luyện dựa trên hơn 20 triệu giờ dữ liệu thực tế khó có thể sao chép nhanh chóng, trong khi Zhiyuan đã hoàn thành việc triển khai hàng loạt 10.000 robot, điều này có nghĩa là nó sở hữu khả năng thu thập dữ liệu thực tế, được thúc đẩy bởi phản hồi, và điều này cũng được coi rộng rãi trong ngành là một hàng rào dữ liệu.

Cần lưu ý rằng, dữ liệu cần thiết cho cuộc cạnh tranh của AI vật lý không đơn thuần là so sánh ai có nhiều dữ liệu hơn, mà đòi hỏi sự phối hợp giữa dữ liệu tổng hợp và dữ liệu thực tế.

Việc chỉ dựa vào dữ liệu thực tế sẽ gặp phải các vấn đề về quy mô và chi phí hao mòn phần cứng, trong khi phụ thuộc quá mức vào dữ liệu tổng hợp lại tạo ra khoảng cách chuyển đổi từ mô phỏng sang thực tế (sim2real). Giải pháp “học đa nguồn dữ liệu” của Trung tâm Sáng tạo Robot Người của Bắc Kinh là sản phẩm được phát triển theo tư tưởng này, giúp robot có thể sử dụng lượng lớn video con người để huấn luyện, giảm đáng kể chi phí huấn luyện đồng thời nâng cao hiệu quả huấn luyện.

Như vậy là rất dễ hiểu, ai có thể thực sự kết nối hoàn chỉnh chu trình “đào tạo bằng dữ liệu tổng hợp - tinh chỉnh bằng dữ liệu thực tế - phản hồi từ tình huống thực tế” trong tương lai, người đó sẽ chiếm được lợi thế vượt trội trong cuộc cạnh tranh này.

Sau khi giải quyết vấn đề dữ liệu, việc tích hợp hiệu quả AI vật lý với AI ảo trở thành chìa khóa để AI vật lý tiến xa hơn.

Hiện nay, khi nói đến AI vật lý, một hướng thường bị bỏ qua là AI vật lý và AI ảo không đối lập nhau; về mặt kiến trúc kỹ thuật, một hệ thống AI vật lý hoàn chỉnh có thể chia thành ba lớp: lớp dưới cùng là lớp cảm biến (cảm biến, nhận diện hình ảnh), lớp giữa là lớp nhận thức và ra quyết định (suy luận AI), lớp trên cùng là lớp thực thi hành động (điều khiển cơ khí).

AI ảo chủ yếu phụ trách lớp trung gian, trong khi AI vật lý cần kết nối toàn bộ chuỗi từ cảm biến đến thực thi.

Giải pháp toàn diện “chip + mô hình + công cụ” của NVIDIA chính là minh chứng cho tư tưởng này: nền tảng tính toán biên Jetson Thor cung cấp sức mạnh tính toán, mô hình GR00T cung cấp trí tuệ, và nền tảng Isaac cung cấp chuỗi công cụ phát triển. So sánh với giải pháp này, trong tương lai, ai có thể thực hiện tốt sự tích hợp sâu giữa phần mềm và phần cứng, không chỉ hoàn thành vòng khép kín của AI vật lý từ “bộ não” đến “chi thể”, mà còn xây dựng được hàng rào công nghệ riêng cho mình.

Điểm cuối cùng là tiến trình thương mại hóa của AI vật lý. Ba năm trước, không gian tưởng tượng của vốn đầu tư đối với lĩnh vực robot đến từ “tầm nhìn công nghệ”, nhưng hiện tại, thị trường vốn đã có tiêu chí đánh giá thực tế hơn, đó là khả năng giao hàng.

The media has compiled that the total funding in China's embodied intelligence sector reached RMB 73.5 billion across 744 investment events in 2025, and since 2026, an additional RMB 37 billion has been added, bringing the cumulative total beyond RMB 110 billion. However, beneath this flourishing surface, capital flows have undergone a visible structural shift.

Tháng 5 năm 2026, Tianji Intelligence hoàn thành vòng gọi vốn B trị giá 1 tỷ nhân dân tệ, với lợi thế cốt lõi là đơn hàng đang xử lý trong quý 1 vượt quá 10.000 đơn vị, khách hàng bao phủ 45 doanh nghiệp robot.

Zhongke Wudi Ji cùng giai đoạn nhận vốn vòng A trị giá hàng trăm triệu nhân dân tệ, đồng thời công bố đã giành được các đơn hàng nước ngoài trị giá hàng trăm triệu nhân dân tệ.

Trong đợt huy động vốn của Weitai Power và Lu Ming Robotics, các nhà đầu tư công nghiệp như SAIC Shangqi Capital và Mitsubishi Electric đã lần lượt tham gia, với mục tiêu liên kết năng lực sản xuất và khả năng giao hàng robot.

Ngược lại, công ty khởi nghiệp robot hình người của Mỹ Cartwheel Robotics, dù có tầm nhìn công nghệ nhưng không có đơn hàng hỗ trợ, đã tuyên bố phá sản vào tháng 3 năm 2026.

Các ví dụ tích cực và tiêu cực cho thấy vốn đã không còn trả tiền cho các bản demo ấn tượng, mà chỉ trả tiền cho khả năng sản xuất hàng loạt thực tế.

04 Kết luận

Sự bùng nổ của AI vật lý trông có vẻ đột ngột, nhưng thực ra là điều tất yếu.

Tất nhiên, cũng có những chuyên gia trong ngành cho rằng “AI vật lý” chủ yếu là một khái niệm mới được tạo ra bởi thị trường vốn, bản chất vẫn là sự phát triển tự nhiên của trí tuệ nhúng và công nghệ robot, nhưng không thể phủ nhận rằng sự nổi lên của AI vật lý rõ ràng đánh dấu sự chuyển dịch của ngành AI từ “trí tuệ ảo” sang “thực thi thực thể”, đây chính là một quá trình lịch sử không thể đảo ngược.

Trong vòng cạnh tranh mới nhất, Figure AI đã phô diễn sức mạnh thông qua livestream, Agi Robotics xây dựng rào cản ngành bằng việc sản xuất hàng loạt và giao hàng, NVIDIA sử dụng Cosmos và GR00T để xây dựng hệ sinh thái nền tảng... Và câu hỏi tiếp theo là: Công ty nào sẽ trở thành OpenAI trong lĩnh vực vật lý AI? Ứng dụng nào sẽ sớm đón nhận "thời điểm ChatGPT"?