Từ mã nguồn đến nhận thức: Khám phá sâu về sự tiến hóa của bộ não robot

Tác giả: Matt White, Trưởng kỹ thuật toàn cầu về AI, Linux Foundation

Biên dịch: Felix, PANews

Người máy hình người

Wang Xingxing (CEO của Unitree Technology) và Matt White

Vài tuần trước khi ở Thượng Hải, một người bạn đồng hành trong chuyến đi (một người thông minh, thường xuyên xem tin tức và quan sát sự việc, nhưng không hiểu nhiều về công nghệ robot) đã hỏi câu hỏi mà tôi đã mong đợi suốt chuyến đi trong bữa tối.

Những con chó máy chạy khắp nơi, những robot hình người biểu diễn võ thuật trên sân khấu trình diễn tại văn phòng Unitree, và những cánh tay cơ khí gấp quần áo mà chúng ta đã thấy—chúng hoạt động như thế nào? Chúng có được điều khiển bởi các mô hình ngôn ngữ lớn (LLM) không? Cụ thể thì cơ chế hoạt động ra sao? Liệu có một mô hình ngôn ngữ nào đó đang kiểm soát các chuyển động của chúng không?

Đây là một câu hỏi hay, và nói thật: về mặt nào đó thì đúng, nhưng câu chuyện thực tế còn thú vị hơn nhiều. Những robot bạn thấy trên mạng xã hội không phải là ChatGPT mặc áo kim loại. Chúng vận hành một hệ thống công nghệ (nhiều lớp AI làm việc cùng nhau). Hệ thống công nghệ này đã thay đổi nhiều hơn trong ba năm qua so với ba mươi năm trước. Mô hình ngôn ngữ chỉ là một phần trong đó. Các mô hình thị giác, mô hình hành động, cây hành vi, vòng điều khiển cổ điển, cùng một họ hệ thống mới nổi gọi là “mô hình thế giới”, cũng đều là những thành phần quan trọng. Và “mô hình thế giới” có lẽ là phát triển quan trọng nhất trong số tất cả các phát triển hiện nay.

Đây là một bài viết dài, sẽ bắt đầu từ đầu và dần dần kể lại từng cuộc cách mạng lớn, cuối cùng đến giai đoạn hiện tại: robot không chỉ có thể phản ứng với thế giới mà còn có thể tưởng tượng thế giới.

Một: Thời kỳ trước LLM: Khi robot vẫn chỉ là phần mềm

Trong nhiều thập kỷ, việc chế tạo robot có nghĩa là viết rất nhiều mã code, và hầu hết những mã code này đều không cần phải học.

Các robot công nghiệp cổ điển là cấu trúc dạng tháp được tạo thành từ các mô-đun được thiết kế tinh vi. Ví dụ như cánh tay máy màu cam dùng để hàn khung xe Toyota vào những năm 90 của thế kỷ trước, hoặc BigDog của Boston Dynamics vào đầu những năm 2000.

Phát hiện: Lọc hình ảnh từ camera, thực hiện phát hiện cạnh, sử dụng khớp hình học để xác định vị trí chi tiết.
Ước tính trạng thái: Kết hợp bộ mã hóa bánh xe, con quay hồi chuyển và gia tốc kế (hợp nhất cảm biến) để xác định vị trí và tốc độ di chuyển của robot.
Lập kế hoạch: Dựa trên tư thế mục tiêu, sử dụng các thuật toán như A* hoặc RRT để tính toán một lộ trình không va chạm trên bản đồ đã biết.
Control: At the lowest level, the PID controller adjusts motor torque hundreds or thousands of times per second to follow the path.

Các cấp độ này thường được viết bởi các nhân viên khác nhau trong các phòng thí nghiệm khác nhau và được ghép nối một cách cực kỳ tỉ mỉ. Hành vi (ví dụ: “nếu cốc màu đỏ thì nhặt lên, nếu không thì chờ”) được mã hóa dưới dạng máy trạng thái hoặc cây hành vi: tức là sơ đồ luồng mà robot thực hiện từng bước.

Người máy hình người

Lợi ích của phương pháp này là rõ ràng. Nó có tính dự đoán được và tuân thủ các tiêu chuẩn an toàn. Đó là lý do tại sao xe hơi của bạn được trang bị hệ thống phanh ABS hiệu quả.

Nhược điểm cũng rõ ràng không kém. Robot này chỉ có thể phát huy mức độ thông minh của mình trong các tình huống mà kỹ sư đã dự đoán trước. Khi đặt nó vào nhà máy mới, điều kiện ánh sáng mới hoặc màu cốc mới, nó sẽ sụp đổ. Khả năng khái quát hóa của nó gần như bằng không.

Hai: Máy học âm thầm can thiệp

Trong những năm 2010, học sâu bắt đầu giải quyết các vấn đề ở lớp cảm biến. Những mạng thần kinh tích chập (CNN) từng đánh bại con người trong nhiệm vụ phân loại hình ảnh ImageNet có thể được huấn luyện lại để phát hiện điểm nắm trên vật thể, phân đoạn đồ đạc trong phòng, hoặc nhận diện tư thế con người. Đột nhiên, lớp “cảm biến” ở đỉnh của nền tảng công nghệ không còn cần thiết phải được thiết kế thủ công — bạn có thể trực tiếp huấn luyện nó.

Sau đó, cơ chế học tập đã lan rộng đến lớp “kiểm soát”. Các nhà nghiên cứu từ Đại học Berkeley, DeepMind và OpenAI đã chứng minh rằng học tăng cường (cho các tác nhân robot thử hàng triệu lần trong môi trường mô phỏng và củng cố các hành vi hiệu quả) có thể tạo ra các bước đi tinh娴, thao tác vật thể bằng tay (OpenAI giải khối Rubik bằng một tay vào năm 2019 là một cột mốc), cũng như các chiến lược di chuyển thích nghi với các địa hình khác nhau.

Một hướng nghiên cứu song song khác là học theo dõi, thường được gọi là sao chép hành vi: ghi lại hàng trăm lần cố gắng của con người điều khiển từ xa robot để hoàn thành một nhiệm vụ, sau đó huấn luyện mạng nơ-ron để dự đoán hành động mà con người sẽ thực hiện dựa trên những gì robot quan sát được.

Chìa khóa của tất cả những điều này là: mỗi chiến lược học được đều quá hẹp. Huấn luyện một mạng lưới để nhặt một khối xây màu đỏ, nó sẽ không biết cách xử lý một chiếc cốc màu vàng. Huấn luyện nó đi trên bãi cỏ, nhưng nó lại ngã trên sàn gạch. Khả năng khái quát hóa vẫn là một thách thức cần giải quyết.

Đáng chú ý là trong giai đoạn này đã xuất hiện một kiến trúc hạ tầng vẫn đang hỗ trợ hầu hết mọi thứ cho đến ngày nay: ROS, Hệ điều hành robot (được phát hành lần đầu vào tháng 11 năm 2007). ROS không phải là hệ điều hành theo nghĩa Windows hay Linux, mà là một khung middleware, một hệ thống ống dẫn robot phổ quát. Nó cho phép các “nút camera”, “nút điều hướng”, “nút điều khiển tay máy” và hàng chục nút khác đăng tải và đăng ký tin nhắn thông qua một bus chung.

Phiên bản hiện tại của ROS2 đang chạy trên nền tảng của phần lớn robot nghiên cứu và thương mại trên toàn cầu, từ các phòng thí nghiệm tại Đại học Stanford đến các công ty khởi nghiệp robot người máy tại Trung Quốc, không ngoại lệ. Khi mọi người nói đến “hệ điều hành” của robot, họ gần như luôn ám chỉ ROS2 cùng với các gói phần mềm nhận thức, lập kế hoạch và điều khiển chạy trên đó.

Người máy hình người

ROS2: Nó không phải là hệ điều hành, mà là đường ống chung cho phép các phần mềm robot độc lập giao tiếp với nhau

Ba: Ứng dụng của LLM trong lĩnh vực robot

Sau đó, ChatGPT ra đời.

Đột nhiên xuất hiện một thứ như vậy: LLM. Nó có thể đọc các lệnh tiếng Anh đơn giản, thực hiện suy luận đa bước, viết mã và gọi hàm. Các chuyên gia robot gần như ngay lập tức nhận ra đây chính là mảnh ghép còn thiếu mà họ đã nỗ lực giải quyết trong nhiều năm qua. Để robot thực hiện một số nhiệm vụ hữu ích trong gia đình hoặc văn phòng, phần khó nhất thường không phải là điều khiển động cơ, mà là tương tác giữa người và robot: con người làm thế nào để chỉ dẫn robot thực hiện việc gì, và robot làm thế nào để phân tách mục tiêu đó thành các hành động nguyên tử mà nó đã biết cách thực hiện?

Đợt đầu tiên áp dụng LLM vào robot là coi mô hình ngôn ngữ như một trình biên dịch ngôn ngữ tự nhiên nằm trên ROS. Mô hình như sau:

Người dùng nói bằng tiếng Anh: “Hãy mang cốc cà phê trên quầy bếp đến và đặt lên bàn của tôi.”
LLM tạo kế hoạch dựa trên danh sách các kỹ năng nguyên tử mà robot có thể sử dụng: có thể là chuỗi gọi hàm, máy trạng thái hoặc cây hành vi được viết bằng XML.
Các nút ROS2 sẽ thực hiện kế hoạch từng bước. Nếu một bước nào đó thất bại, thông tin thất bại sẽ được báo cáo cho LLM để LLM lập kế hoạch lại.

Dự án SayCan của Google năm 2022 là một phiên bản rất súc tích của ý tưởng này: LLM đề xuất các kỹ năng, một mô hình “khả năng thực hiện” độc lập đánh giá khả năng thành công hiện tại của từng kỹ năng, và robot chọn tổ hợp các kỹ năng có điểm tổng hợp cao nhất. Các khung mở như ROS-LLM, ROSGPT và ROSA do Phòng thí nghiệm Nghiên cứu Huawei dẫn dắt đã thúc đẩy mô hình này.

Đây thực sự là một bước nhảy vọt ý nghĩa. Đột nhiên, bạn có thể nói với robot: “Dọn bàn và cho đồ tái chế vào thùng rác màu xanh”, và nó sẽ cố gắng thực hiện một số hành động hợp lý. Nhưng hãy lưu ý rằng vẫn còn một số vấn đề: mô hình ngôn ngữ vẫn đang ở cấp độ lập kế hoạch. Các lệnh hành động thực tế vẫn do những bộ điều khiển dưới tầng thấp, được thiết kế cẩn thận hoặc đào tạo chuyên biệt, tạo ra. Mô hình ngôn ngữ chỉ là một bộ điều phối thông minh, không chịu trách nhiệm điều khiển trực tiếp.

Người máy hình người

Bốn: Mô hình thị giác - ngôn ngữ - hành động (VLA), khi não bộ bắt đầu điều khiển robot

Người máy hình người

Robot Keenon XMAN-R1 đang lấy thuốc từ kệ tại phòng thuốc tự động của công ty Galbot tại Bắc Kinh. Chỉ với 100.000 USD

Sự tiến bộ tiếp theo sẽ khó khăn hơn và quan trọng hơn. Các nhà nghiên cứu đã đặt ra một câu hỏi đầy tham vọng hơn: nếu mô hình không chỉ có thể lập kế hoạch mà còn có thể trực tiếp tạo ra các lệnh hành động thì sao? Nếu đưa hình ảnh từ camera và lệnh ngôn ngữ trực tiếp vào một mạng nơ-ron, sau đó có thể nhận được chuyển động khớp cho mili giây tiếp theo thì sao?

Đây là mô hình thị giác-ngôn ngữ-hành động (VLA). Hiện nay, nó là mô hình phổ biến trong lĩnh vực robot hình người và robot bốn chân.

Robot thị giác - ngôn ngữ đầu tiên được biết đến rộng rãi là RT-2, do Google DeepMind ra mắt vào năm 2023. Điểm tinh vi của nó nằm ở việc sử dụng một mô hình ngôn ngữ - thị giác quy mô lớn (đã được huấn luyện để mô tả hình ảnh và trả lời câu hỏi), sau đó tiếp tục huấn luyện mô hình này với dữ liệu biểu diễn robot, nhưng coi các hành động robot như một loại nhãn khác cần được dự đoán. Cùng một mạng thần kinh trước đây có thể đầu ra “mèo ngồi trên tấm thảm”, giờ đây có thể đầu ra một chuỗi các nhãn mã hóa “di chuyển chân phải về phía trước 3 cm, khép lại các ngón tay, nâng lên 5 cm”. Suy luận và hành động đều được thực hiện trong cùng một mô hình.

Sau đó, vào giữa năm 2024, một nhóm do Đại học Stanford dẫn đầu đã công bố OpenVLA, một mô hình VLA mã nguồn mở với 7 tỷ tham số, được huấn luyện trên bộ dữ liệu Open X-Embodiment. Bộ dữ liệu này tổng hợp hơn một triệu đoạn huấn luyện từ 21 phòng thí nghiệm nghiên cứu khác nhau, bao gồm 22 loại cơ thể robot khác nhau. Đây là lần đầu tiên những người ngoài Google có thể tải xuống mô hình robot tổng quát và bắt đầu điều chỉnh nó. Nó đã thay đổi toàn bộ lĩnh vực chỉ trong một đêm.

Hiện nay, các VLA hàng đầu, dù số lượng không nhiều, nhưng đang phát triển nhanh chóng:

π0 và π0.5 từ Physical Intelligence: Khả năng thích nghi nhiệm vụ xuất sắc.
NVIDIA Isaac GR00T N1.7: Trọng số mở, giấy phép thương mại, được thiết kế riêng cho robot hình người, là mô hình mà hầu hết các công ty phần cứng Trung Quốc hiện đang sử dụng dữ liệu của riêng họ để huấn luyện sau.
Helix và Helix-02 được cập nhật của Figure AI: công nghệ độc quyền, nhưng rất quan trọng về mặt kiến trúc.
Genie Envisioner của AgiBot: Nền tảng dựa trên mô hình thế giới Trung Quốc.
SmolVLA, NORA, ACoT-VLA, CogACT: Ngày càng nhiều VLA xuất hiện trong giới học thuật, khám phá các hướng thiết kế khác nhau.

VLA hoạt động như thế nào (không bao gồm công thức toán học)

Bạn có thể hình dung VLA như việc kết hợp ba tín hiệu đầu vào thành một tín hiệu đầu ra.

Dữ liệu đầu tiên là dữ liệu thị giác. Camera RGB (đôi khi là cảm biến độ sâu hoặc lidar), đôi khi là cảm biến xúc giác trên đầu ngón tay, được xử lý bởi bộ mã hóa thị giác (thường là mô hình Transformer như DINOv2 hoặc SigLIP), bộ mã hóa này nén mỗi hình ảnh thành vài trăm “token thị giác”, tóm tắt những gì robot nhìn thấy.

Dòng dữ liệu thứ hai là ngôn ngữ. Lệnh của bạn (“Hãy đưa cho tôi tua vít”) được chuyển đổi thành token giống như trong ChatGPT.

Hai luồng dữ liệu này được kết nối và đưa vào một “xương sống” Transformer (thường là một mô hình ngôn ngữ mã nguồn mở nhỏ như Qwen3 hoặc Llama). Xương sống này chịu trách nhiệm suy luận, kết hợp thông tin nó nhìn thấy với thông tin mà nó được hỏi.

Dòng dữ liệu thứ ba: Hành động, chảy ra từ đầu bên kia. Đây là nơi các thiết kế kiến trúc khác nhau phân kỳ:

Token hành động rời rạc: Mô hình trực tiếp tạo ra các token có thể giải mã thành góc khớp hoặc vị trí đầu cuối, giống như cách ChatGPT tạo từ. Cách này đơn giản nhưng có thể gây giật khi chạy với tần suất cao.
Hành động phân tán hoặc khớp luồng (flow-matching): Một mạng vi mô độc lập nhận đầu ra từ phần chính và khử nhiễu để tạo ra một quỹ đạo vị trí khớp mượt mà, giống như mô hình khuếch tán hình ảnh, nhưng thay vì tạo hình ảnh thì tạo chuyển động. Đây là cách π0 thực hiện, tạo ra hành động mượt mà và tự nhiên hơn.
Action chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

Người máy hình người

Trong mô hình VLA: hai luồng đầu vào, đầu ra là lệnh chuyển động, suy luận và hành động được tích hợp trong một mạng lưới.

Đây là sự thay đổi kiến trúc then chốt: suy luận và hành động không còn tách rời. Việc dạy mạng thần kinh nhận diện cốc cũng đồng thời dạy nó cách nắm lấy cốc. Chính sự kết hợp này khiến VLA có khả năng khái quát hóa, trong khi các tiền nhiệm của chúng không thể làm được.

Năm: Chiến lược hai não, LLM và VLA hoạt động cùng nhau như thế nào

Có một chi tiết hiếm khi được giải thích rõ ràng trong tiếp thị. Hiện nay, những robot hình người hiệu suất tốt nhất không chạy một hệ thống VLA duy nhất, mà chạy hai mô hình với tốc độ khác nhau, giao tiếp với nhau. Điều này đôi khi được gọi là kiến trúc hệ thống kép hoặc hệ thống 1 / hệ thống 2, lấy cảm hứng từ khung tâm lý học của Daniel Kahneman, cho rằng con người sở hữu một bộ não trực giác nhanh chóng và một bộ não suy nghĩ chậm rãi, cẩn trọng.

Helix của Figure AI đã biến thiết kế này thành một tiêu chuẩn, và hiện nay nó (cùng các biến thể của nó) gần như được sao chép ở khắp nơi. Đặc biệt quan trọng là NVIDIA GR00T N1.7 đã áp dụng thiết kế này, và hầu hết các robot hình người Trung Quốc cũng sử dụng thiết kế này. Cấu trúc của nó như sau:

Hệ thống 2 (S2): Bộ não suy nghĩ chậm. Một mô hình thị giác - ngôn ngữ với 7 tỷ tham số, hoạt động với tần suất khoảng 7–9 Hz (tức là 7 đến 9 lần mỗi giây). Nhiệm vụ của nó là quan sát cảnh vật, phân tích chỉ lệnh, thực hiện suy luận đa bước (ví dụ: “bát ở sau hộp ngũ cốc; tôi cần di chuyển hộp trước”), và đưa ra ý định cấp cao — thường là một tập hợp các vector nội bộ súc tích, chứ không phải chính văn bản.
Hệ thống 1 (S1): Bộ não phản ứng nhanh. Một mô hình chiến lược thị giác - vận động nhỏ hơn nhiều (khoảng 80 triệu tham số), chạy với tần số 200 Hz. Nó nhận vector ý định từ S2 cộng với dữ liệu cảm biến mới nhất, đầu ra là các lệnh khớp liên tục. Nó không có bất kỳ sự “suy nghĩ” thực sự nào, chỉ đơn thuần phản ứng.

Gần đây, công ty Figure đã bổ sung System 0 vào Helix-02. Nó nằm dưới hệ thống hai não, là một lớp phản xạ, chứ không phải lớp nhận thức thứ ba. Đây là một mạng lưới có 10 triệu tham số, hoạt động ở tần số 1 kHz, chịu trách nhiệm xử lý sự cân bằng cơ bản và phối hợp toàn thân, thay thế hơn 100.000 dòng mã C++ điều khiển chuyển động được viết thủ công. Bạn có thể hình dung S0 như một tủy sống được học hỏi sau này: nó không suy luận hay lập kế hoạch, mà chỉ duy trì tư thế đứng thẳng và phối hợp, trong khi việc suy nghĩ được thực hiện bởi hệ thống hai não ở trên.

Người máy hình người

Kiến trúc hai não của robot hình người hiện đại: Hệ thống 2 suy nghĩ chậm, hệ thống 1 phản ứng nhanh—dưới đó còn có lớp phản xạ hệ thống 0 để duy trì cân bằng, tiếp xúc cảm giác và phối hợp toàn thân

Sự phân chia này xuất phát từ giới hạn vật lý. Nếu chỉ gửi lệnh chuyển động mỗi 200 miligiây (tốc độ vận hành của một VLA lớn), hành động của robot sẽ chậm chạp như đang di chuyển dưới nước. Tốc độ cập nhật lệnh chuyển động phải nhanh hơn tần số dao động tự nhiên của các khớp mà nó điều khiển, nghĩa là cần hàng trăm đến hàng nghìn lần cập nhật mỗi giây. Không có mô hình Transformer nào với 7 tỷ tham số có thể chạy nhanh như vậy trên một robot chạy bằng pin.

Do đó, các nhiệm vụ nhận thức được phân công: mô hình lớn và chậm hơn phụ trách suy nghĩ; mô hình nhỏ và nhanh hơn phụ trách hành động. Chúng không giao tiếp bằng tiếng Anh, mà thông qua các vector tiềm ẩn đã học được: mô hình chậm gửi ra các mục tiêu trừu tượng, trong khi mô hình nhanh biết cách diễn giải chúng.

Sáu: Vấn đề đặt đám mây, tính toán biên và “bộ não”

Tất cả những tính toán này được thực hiện ở đâu?

Hiện nay, giữa các đội robot gần như đã hình thành một sự đồng thuận mạnh mẽ, gần như mang tính ý thức hệ, rằng các vòng điều khiển cốt lõi liên quan đến an toàn phải được chạy tại chỗ. Có hai lý do:

Độ trễ. Thời gian truyền vòng khứ hồi của WiFi hoặc mạng di động ít nhất cũng là 30-80 miligiây. Trong khi đó, lệnh hành động cần được cập nhật mỗi 1-5 miligiây. Chu kỳ mạng như vậy hoàn toàn không thể hoạt động bình thường.

Độ tin cậy. Robot hoạt động trong các địa điểm như nhà máy, kho bãi, nhà bếp, bệnh viện, v.v. Mạng có thể bị ngắt bất kỳ lúc nào. Nếu robot ngừng hoạt động ngay khi mất Wi-Fi, nó sẽ trở thành một mối nguy hiểm về an toàn.

Vì vậy, sự phân chia hiện đại大致如下：

Được tích hợp sẵn (local), chạy trên các thiết bị tương tự mô-đun NVIDIA Jetson Thor hoặc AGX Thor (khoảng 2.000 TFLOPS, 128 GB bộ nhớ, công suất 40–130 W):

Tất cả các chức năng của S0/S1: cân bằng, vận động, kiểm soát động tác tinh tế.
VLA bản thân (hệ thống 2), để thích ứng với giới hạn phần cứng, ngày càng được lượng tử hóa sang định dạng FP8 hoặc FP4. Hiện nay, các mô hình trong phạm vi 2 tỷ đến 7 tỷ tham số có thể chạy trên thiết bị.
Perception, sensor fusion, and security monitoring procedures that can cover any other operations.

Máy chủ đám mây hoặc máy chủ từ xa (nếu có):

Giao diện hội thoại (“Này, robot, tối nay tôi nên ăn gì?”): Những giao diện này có thể chấp nhận độ trễ.
Cluster learning: Thousands of robots send remote operation data back to the server to be aggregated into the next version of the model.
Cần thực hiện quy hoạch dài hạn quy mô lớn, có thể áp dụng các mô hình quy mô tiên tiến.
Bảng điều khiển và giám sát người vận hành.

Ngoài ra, còn có một lớp trung gian ngày càng phát triển: các máy chủ biên địa phương đặt tại nhà máy hoặc kho bãi, kết nối với cụm robot thông qua mạng cục bộ với độ trễ chỉ ở mức vài miligiây. Các LLM lớn hơn có thể được triển khai ở cấp độ này để thực hiện các nhiệm vụ lập lịch nâng cao mà từng robot không cần tự quản lý.

Sóng robot hình người tại Trung Quốc được xây dựng dựa trên giả định này: Unitree, AgiBot, Xiaopeng IRON, Fourier, EngineAI. Các robot của chúng được trang bị khả năng tính toán trên bo mạch (thường là Jetson, đôi khi sử dụng các chip trong nước như Huawei Ascend), trong khi đám mây được sử dụng cho học tập theo cụm và giao diện hội thoại, chứ không phải cho vòng điều khiển.

Người máy hình người

Vị trí thực tế chạy bộ não robot: các vòng lặp quan trọng về an toàn chạy tại chỗ, đám mây dùng để xử lý những việc có thể chờ đợi

Bảy: Tại sao các mô hình mã nguồn mở lại dần trở thành tâm điểm

Nếu chỉ xem bản trình diễn, bạn có thể nghĩ rằng lĩnh vực này do một vài công ty Mỹ có nguồn vốn dồi dào chi phối. Nhưng thực tế phức tạp hơn nhiều. Tốc độ phát triển của AI vật lý phần lớn được xác định bởi các mô hình trọng số nguồn mở mà bất kỳ ai cũng có thể tải về và tinh chỉnh.

Các mô hình được liệt kê dưới đây tuy không nhiều nhưng mang ý nghĩa quan trọng:

OpenVLA (Stanford University): Mô hình robot phổ quát 7B đầu tiên mở nguồn.
NVIDIA Isaac GR00T (N1, N1.5, N1.7): Các trọng số mã nguồn mở sắp được ra mắt, cùng với giấy phép thương mại cũng sẽ sớm có mặt; mô hình này được huấn luyện dựa trên hàng chục nghìn giờ video trung tâm con người. GR00T N1.7 sẽ được phát hành vào tháng 3 năm 2026, khi đó bất kỳ người dùng nào sở hữu robot hình người đều có thể sử dụng miễn phí kiến trúc hệ thống kép của nó.
Physical Intelligence's π0: Phát hành trọng số dành cho nghiên cứu.
NVIDIA Cosmos: Mô hình nền tảng thế giới mở.
AgiBot World: Bộ dữ liệu mã nguồn mở quy mô lớn từ công ty khởi nghiệp Thượng Hải, bao gồm các bản trình diễn điều khiển từ xa robot hình người.
LeRobot của Hugging Face: một thư viện mở đã trở thành điểm hội tụ của tất cả các nền tảng trên.
mimic robotics's mimic-video: một mô hình video-hành động mã nguồn mở, hiệu quả mẫu cao hơn 10 lần so với VLA truyền thống.

Có hai lý do khiến điều này quan trọng. Trước hết, các công ty khởi nghiệp robot không còn phải chi hàng chục triệu đô la để tiền huấn luyện một mô hình cơ sở: họ có thể lấy GR00T hoặc π0, sau đó tinh chỉnh lại bằng dữ liệu từ robot của chính mình. Unitree, ZhiJi Power, Booster, Galbot và hàng chục công ty Trung Quốc nhỏ hơn đang làm chính xác điều này. Đó là lý do tại sao một công ty chỉ có vài trăm nhân viên cũng có thể tạo ra những robot hình người có thể đi lại, nói chuyện và gấp quần áo: họ đang đứng trên vai những nền tảng mã nguồn mở.

Thứ hai, mô hình mã nguồn mở là cách tiếp cận thực tế duy nhất để giải quyết các vấn đề về bảo mật. Nếu một mô hình hoàn toàn đóng nguồn đang chạy bên trong robot trong nhà máy, và bên ngoài không có khả năng hiểu rõ logic suy luận của nó, đây chắc chắn là cơn ác mộng đối với cơ quan quản lý. Các mô hình mở cho phép các chuyên gia kiểm toán, nhà nghiên cứu và nhân viên vận hành thực sự kiểm tra xem robot đã được huấn luyện những gì.

Tám: Những vấn đề nào vẫn chưa được giải quyết

Nếu bạn đã xem đủ nhiều video trình diễn robot, bạn cũng đã xem rất nhiều video về sự cố của robot. Các robot thế hệ hiện tại với LLM+VLA thực sự ấn tượng, nhưng cũng rõ ràng có những hạn chế đáng kể. Dưới đây là những vấn đề mà nó gặp phải:

Khôi phục nhiệm vụ giữa chừng. Khả năng xử lý các thay đổi bất ngờ của VLA mạnh hơn bất kỳ công nghệ nào trước đây. Nhưng khi sự việc thực sự xảy ra sai lệch (ví dụ: lỗi lấy mẫu, vật thể lăn đi, có người xâm nhập vào khu vực làm việc), việc quay lại đúng hướng vẫn là điểm yếu. Robot sẽ lặp lại vô thức các hành động thất bại.
Hiệu quả mẫu. Để huấn luyện một VLA từ đầu cần hàng vạn giờ dữ liệu thao tác từ xa, trong khi con người chỉ cần vài phút để học cách sử dụng một công cụ mới. Sự chênh lệch hiệu quả này là rất lớn.
Generalization across entities. A model trained on a Franka robotic arm in a Stanford lab cannot be perfectly transferred to a Unitree humanoid robot in a Shenzhen warehouse, as their physical forms differ.
Nhiệm vụ dài hạn. Bất kỳ nhiệm vụ nào yêu cầu hành vi liên tục vượt quá 30-60 giây và bao gồm nhiều mục tiêu con đều dễ bị lệch hướng. Các nhiệm vụ như “hãy làm bữa sáng cho tôi” luôn ở xa tầm với.
Kiến thức vật lý cơ bản. VLA được huấn luyện bằng cách mô phỏng, chứ không phải bằng cách hiểu. Nó không thực sự hiểu nguyên lý tại sao nước sẽ trào ra khi làm đổ một cốc nước. Nó chỉ từng thấy một số ví dụ và dự đoán điều sẽ xảy ra tiếp theo dựa trên việc khớp mẫu.
Khả năng suy luận không gian. Mặc dù là đa mô-đun, nhưng chúng lại yếu một cách bất ngờ trong các nhiệm vụ như “đi vòng qua chướng ngại vật thay vì đi xuyên qua” hoặc “xếp những thứ này chồng lên nhau mà không đổ”.

Sự yếu kém cuối cùng trong chuỗi này đã thúc đẩy lĩnh vực này bắt đầu đặt cược vào một mô hình hoàn toàn khác.

Chín: Mô hình thế giới

Hãy tưởng tượng xem: nếu không huấn luyện robot để dự đoán hành động, mà thay vào đó huấn luyện nó dự đoán hậu quả của hành động, thì kết quả sẽ như thế nào?

World Model là một mạng nơ-ron dự đoán hình dạng tiếp theo của thế giới dựa trên trạng thái hiện tại của thế giới (thường là một đoạn video hoặc chuỗi khung hình) và các hành động được thiết lập trước. Nói cách đơn giản, bạn có thể tưởng tượng nó như một bộ dự đoán video có học hỏi với vô lăng. Bạn cho nó xem hình ảnh từ camera trong giây cuối cùng và nói rằng “robot sẽ di chuyển cánh tay về phía trước 10 cm”, nó sẽ tạo ra một đoạn video chân thực dự đoán khung hình ở giây tiếp theo.

Tại sao điều này lại quan trọng?

Vì một khi có mô hình thế giới, robot có thể suy nghĩ trước khi hành động. Nó có thể hình dung trước ba đến bốn hành động khả dĩ khác nhau, dự đoán kết quả của từng hành động, đánh giá và chọn phương án tối ưu. Tất cả những điều này đều được thực hiện trước khi các động cơ bắt đầu chuyển động. Đây chính là cách hoạt động của các chương trình chơi cờ vua: chúng không ghi nhớ các nước đi, mà mô phỏng tương lai. Trước đây, lĩnh vực robot vật lý chưa từng sở hữu khả năng này, vì chưa từng có mô hình đủ chính xác để mô phỏng thế giới thực phức tạp.

Người máy hình người

Các mô hình thế giới cho phép robot mô phỏng nhiều kịch bản tương lai có thể xảy ra, đánh giá chúng và chọn phương án tối ưu trước khi bất kỳ động cơ nào được khởi động

Mô hình thế giới năm 2026 sẽ trông như thế nào?

Hiện nay có nhiều loại mô hình thế giới tiên tiến nhất, nhưng chúng đang phát triển nhanh chóng. Dưới đây là một số mô hình:

NVIDIA Cosmos: Một loạt các mô hình nền tảng thế giới mở, bao gồm Cosmos Predict 2.5 (mô hình sinh), Cosmos Transfer 2.5 (mô hình mô phỏng có thể điều khiển), Cosmos Reason 2 (bộ suy luận thị giác-ngôn ngữ cho robot) và Cosmos Policy mới nhất. Cosmos Policy tiến一步, bằng cách tinh chỉnh sau mô hình thế giới, trực tiếp đầu ra hành động để điều khiển. Cosmos được huấn luyện bằng dữ liệu video hàng chục nghìn giờ GPU (Cosmos Predict 2.5 là mô hình thế giới trong chuỗi này).
DeepMind Genie 3: Một mô hình thế giới tương tác có thể tạo ra môi trường hoàn toàn có thể điều hướng dựa trên lời nhắc văn bản, với tốc độ khung hình 24 khung hình mỗi giây và hoạt động ổn định liên tục trong vài phút. Ban đầu được thiết kế cho môi trường trò chơi.
Meta V-JEPA 2: Đã sử dụng hơn một triệu giờ video trực tuyến để pre-training, sau đó chỉ dùng 62 giờ video robot để huấn luyện có điều kiện hành động. Trên các cánh tay robot thực tế tại các phòng thí nghiệm khác nhau, không cần bất kỳ huấn luyện nhiệm vụ cụ thể nào, đạt được tỷ lệ thành công 80% trong nhiệm vụ nhặt-đặt zero-shot. Phương pháp “JEPA” khác biệt hoàn toàn về kiến trúc so với các phương pháp khác.
DeepMind Dreamer 4: Chỉ sử dụng dữ liệu ngoại tuyến, không cần bất kỳ tương tác nào với môi trường, đã học được cách thu thập kim cương trong Minecraft (một nhiệm vụ 20.000 bước). Điều này chứng minh rằng việc thực hiện học tăng cường thực sự trong thế giới ảo là khả thi.
AgiBot’s Genie Envisioner: Một nền tảng mô hình thế giới thống nhất đến từ Trung Quốc, được huấn luyện bằng hơn 3000 giờ video thao tác robot hình người thực tế. Nó có thể tạo ra cả quỹ đạo triển khai dự đoán lẫn quỹ đạo hành động có thể thực thi. AgiBot sử dụng NVIDIA Cosmos Predict 2 làm mạng xương sống và thực hiện hậu huấn luyện bằng dữ liệu tự có. Đây chính là mô hình “nguồn mở + dữ liệu tự có” đã được mô tả trước đó.
Toyota Research Institute's world model based on Cosmos: for remote operation data augmentation and navigation.

Người máy hình người

Sáu mô hình thế giới quan trọng nhất năm 2025-2026, mỗi mô hình đưa ra những giả định khác nhau về cách máy móc nên học vật lý.

Mười: Kiến trúc thay thế, vì lĩnh vực này vẫn chưa có kết luận

Việc xây dựng mô hình thế giới không có tiêu chuẩn thống nhất. Cuộc tranh luận về kiến trúc là một trong những cuộc tranh luận thú vị nhất hiện nay trong lĩnh vực AI, và nó直接影响 đến những gì robot có thể làm trong tương lai. Ba phe sau đây đáng chú ý:

Phân tán video ở cấp độ pixel (trường phái Cosmos/Sora): Sử dụng mô hình phân tán để dự đoán các pixel thực tế của khung hình tiếp theo. Ưu điểm là có thể hoạt động như trình tạo dữ liệu tổng hợp, có thể tạo ra các màn trình diễn robot hoàn toàn mới chưa từng xảy ra. Nhược điểm là chi phí cao, đôi khi vi phạm các quy luật vật lý, và việc dự đoán các pixel mà sẽ không bao giờ được thấy là một sự lãng phí.

Kiến trúc dự đoán nhúng kết hợp, viết tắt là JEPA (trường phái LeCun): không dự đoán pixel, mà dự đoán biểu diễn trừu tượng của khung hình tiếp theo. Bỏ qua các chi tiết kết cấu, chỉ giữ lại bản chất ngữ nghĩa của các vật thể trong cảnh. Ưu điểm là hiệu quả, tập trung vào các yếu tố thiết yếu cho hành động. Nhược điểm là khó sử dụng. Các mô hình V-JEPA, V-JEPA 2 và JEPA-VLA lai tạo mới đang được khám phá trong lĩnh vực này.

Mô hình thế giới hành động tiềm ẩn (dòng Genie/Dreamer): Học cách nén toàn bộ video thành một “ngôn ngữ hành động” tiềm ẩn có thể nắm bắt cấu trúc hành vi, sau đó huấn luyện mô hình thế giới để dự đoán trạng thái tiềm ẩn tiếp theo dựa trên hành động tiềm ẩn tiếp theo. Ưu điểm là cho phép bạn huấn luyện bằng các video mạng không có hành động, sau đó bổ sung một lượng nhỏ dữ liệu robot thực tế. Nhược điểm là hành động tiềm ẩn không thể được con người hiểu được, khiến phân tích an toàn trở nên phức tạp.

Người máy hình người

Pixel diffusion, JEPA và tiềm ẩn hành động: cùng một mục tiêu, nhưng cách xây dựng mô hình thế giới hoàn toàn khác biệt

Eleven: Ứng dụng thực tế của robot dựa trên mô hình thế giới

Nếu tua nhanh vài năm, kiến trúc của robot hình người tiên tiến có thể trông như thế này:

VLA được trang bị một mô hình thế giới. Khi robot gặp tình huống mới, nó sẽ thực hiện các thao tác tương tự như sau:

VLA đã đề xuất một số phương án hành động tiếp theo (đây vẫn là chiến lược).
Mô hình toàn cầu sẽ lấy từng hành động ứng cử và mô phỏng video giả định trong 1-3 giây.
Người đánh giá giá trị sẽ chấm điểm dựa trên kết quả được tưởng tượng: Cốc đã được nhấc lên chưa? Có vật gì rơi xuống không? Có ai bị va chạm không?
Robot sẽ chọn hành động có điểm cao nhất và chỉ thực hiện phần đầu tiên của nó.
Real sensor data feedback; looping repetition.

Đây là điều khiển dự đoán theo mô hình, một kỹ thuật đã được sử dụng nhiều năm để ổn định tên lửa và máy bay trực thăng bốn cánh, nhưng nó thay thế các phương trình vật lý do con người suy ra bằng các mô hình thế giới được học. Tính mở rộng của nó nằm ở chỗ, mô hình thế giới được tiền huấn luyện dựa trên hàng triệu giờ video, chứ không phải vì có người đã viết phương trình Navier-Stokes cho môi trường nhà bếp.

Lợi ích của nó được nâng cao từng bước:

Tình hình phục hồi đã được cải thiện. Nếu hành động thu thập xảy ra sai sót, mô hình thế giới có thể hình dung nhiều đường điều chỉnh khác nhau và chọn con đường đầy hứa hẹn nhất.
Khả năng tổng quát được cải thiện. Mô hình thế giới được huấn luyện dựa trên video trực tuyến đã trải qua nhiều cấp độ hiện tượng vật lý so với bất kỳ bộ dữ liệu điều khiển robot từ xa nào.
Kế hoạch dài hạn trở nên kiểm soát được. Lập kế hoạch trong tưởng tượng, chứ không phải trong thực tế.
Khoảng cách giữa mô phỏng và thực tế đang thu hẹp. Trước đây, cần sử dụng bộ mô phỏng tự xây dựng (ví dụ: Isaac Sim, Newton Physics Engine) để huấn luyện, sau đó hy vọng kết quả huấn luyện có thể chuyển giao sang ứng dụng thực tế; hiện tại, có thể sử dụng các bộ mô phỏng đã được huấn luyện để phù hợp với video thực tế. Do đó, khoảng cách nhỏ hơn.
Dữ liệu tổng hợp đang tăng trưởng bùng nổ. Một mô hình thế giới gần như có thể tạo miễn phí hàng triệu quỹ đạo robot khác nhau, bao gồm các điều kiện ánh sáng, chất liệu và cấu hình vật thể khác nhau. Điều này giải quyết một trong những điểm nghẽn lớn nhất của lĩnh vực này.

Ngoài ra, nó còn có một lợi thế bảo mật quan trọng. Các robot có thể mô phỏng hậu quả của hành động có thể từ chối thực hiện các thao tác nguy hiểm: không phải do giới hạn của các quy tắc đã định sẵn, mà vì chúng đã dự đoán được rằng trong tương lai có thể có người bị thương.

Người máy hình người

Hai cách di chuyển: VLA phản ứng theo những gì nó thấy; robot mô hình thế giới suy nghĩ trước khi di chuyển

十二：還應該知道的事

Vấn đề dữ liệu mới là vấn đề cốt lõi thực sự: nếu không thể cung cấp dữ liệu cho mô hình, mọi sự đổi mới về kiến trúc trên thế giới đều vô ích. Hiện tại, thao tác từ xa (con người đeo thiết bị VR để điều khiển robot từ xa như con rối) là rào cản công nghệ chính. Lợi thế cạnh tranh của một công ty robot ngày càng phụ thuộc vào đường ống thu thập dữ liệu của họ, chứ không phải bản thân mô hình. Agi Robotics đã xây dựng các kho chứa đầy nhân viên vận hành. Định luật mở rộng độ khéo léo của NVIDIA GR00T N1.7 cho thấy rằng, việc có nhiều video góc nhìn thứ nhất của con người hơn sẽ trực tiếp và có thể dự đoán được nâng cao độ khéo léo của robot. Đây cũng là một trong những lý do khiến Trung Quốc có lợi thế cấu trúc: chi phí lao động thu thập dữ liệu thấp hơn, môi trường triển khai rộng rãi hơn, và chính phủ đang tích cực phối hợp chuỗi cung ứng.

Mô phỏng là một vũ trụ song song. Isaac Sim của NVIDIA, động cơ vật lý Newton mới hoàn toàn (phiên bản 1.0 sẽ chính thức ra mắt vào tháng 4 năm 2026) và nền tảng Omniverse cho phép các doanh nghiệp huấn luyện robot trong hàng triệu môi trường mô phỏng song song mà không cần triển khai chúng vào thế giới thực. Hầu hết các chức năng dường như “trí thông minh robot” thực chất được nuôi dưỡng trong môi trường mô phỏng, sau đó chuyển sang phần cứng.

Lợi ích kinh tế bắt đầu thể hiện rõ. Unitree đã giao khoảng 5.500 robot hình người vào năm 2025 và dự kiến đạt 10.000 đến 20.000 đơn vị vào năm 2026. Giá trung bình đã giảm từ 85.000 USD xuống còn 25.000 USD trong hai năm. Robot R1 của Unitree có giá 5.900 USD. Giá niêm yết của Noetix Bumi là 1.400 USD. Giá phần cứng của robot hình người đang tiến gần mức giá của các sản phẩm điện tử tiêu dùng, trong khi công nghệ AI bên trong vẫn còn tụt hậu so với các sản phẩm trình diễn. Khoảng cách này cuối cùng sẽ thu hẹp, và khi đó, sự gia tăng quy mô thị trường sẽ có tác động đáng kể đến toàn bộ ngành công nghiệp.

Chế độ lỗi trông rất kỳ lạ. Khi các robot dựa trên LLM gặp sự cố, cách chúng hỏng thường là điều mà các robot truyền thống không thể làm được. Ví dụ: tự tin thực hiện sai, “ảo giác” cảm nhận các chức năng nhất định, rơi vào vòng lặp đối thoại với bộ lập kế hoạch của chính chúng. Cộng đồng robot truyền thống có mức độ hoài nghi đáng kể đối với điều này, và sự hoài nghi đó là có cơ sở, vì họ kiên trì cho rằng các hệ thống học máy phải được giám sát an toàn và ràng buộc hành vi. Hiện tại, các robot được triển khai đáng tin cậy nhất là loại lai: bộ não VLA được đặt trong một lồng an toàn được thiết kế thủ công.

Câu chuyện về “thời điểm ChatGPT” là một ẩn dụ hữu ích nhưng gây hiểu lầm: Huang Renxun đã liên tục nói với mọi người rằng thời điểm ChatGPT của robot đã đến. Ông nói vậy vì NVIDIA đang bán cuốc và xẻng. Phiên bản trung thực hơn là: hiện tại khoảng đang ở giai đoạn GPT-2 của AI vật lý. Nó rất mạnh mẽ, khiến bạn cảm thấy ấn tượng; nhưng chưa đủ mạnh để triển khai mà không cần giám sát. Nó đang được cải tiến nhanh chóng, nhưng chưa đạt đến điểm bùng nổ lan truyền, mà là một xu hướng tăng trưởng chậm nhưng vững chắc.

Kết luận

Người máy hình người

Quá trình phát triển của robot bốn chân Unitree (từ phải sang trái)

Trong buổi trình diễn tại văn phòng Unitree, năm robot hình người G1 biểu diễn võ thuật với các động tác được sắp xếp cẩn thận, bộ điều khiển kiểu VLA tích hợp được tinh chỉnh, và nhân viên điều khiển từ xa đảm bảo mọi thứ diễn ra suôn sẻ. Về cơ bản, nó không hoàn toàn tự chủ. Nhưng toàn bộ quy trình: nhận thức, lập kế hoạch, điều khiển chuyển động — đều đang được thay thế bởi các mạng thần kinh. Hai năm sau, cùng những robot đó có thể thực hiện các động tác tương tự mà không cần sắp xếp, vì chúng đã hình dung trước toàn bộ hành động và chọn ra phiên bản tối ưu nhất.

Toàn bộ quá trình phát triển được mô tả trong bài viết này: từ bộ điều khiển được viết thủ công, đến nhận thức học máy, rồi đến trình lập kế hoạch LLM, đến VLA, rồi đến kiến trúc hai hệ thống, cuối cùng là mô hình thế giới, thực chất là sự chuyển dịch chậm rãi của trí tuệ robot. Nó bắt đầu từ trí óc của các kỹ sư, sau đó phát triển thành mã được viết thủ công, rồi tiến vào lớp nhận thức, vào trình lập kế hoạch, vào lớp chiến lược. Và hiện tại, nó cuối cùng đang hướng tới việc học các mô hình của chính thế giới.

Mỗi sự chuyển đổi đều làm cho robot trở nên phổ quát hơn, linh hoạt hơn và hữu ích hơn. Nếu sự chuyển đổi của mô hình thế giới thành công, nó sẽ thực sự trao cho robot những khả năng mạnh mẽ: mạnh đến mức vấn đề không còn là “Robot có thể làm gì?”, mà là “Chúng ta nên để chúng làm gì?”

Đọc thêm: Tổng hợp hơn 30 công ty robot hình người: Ai sẽ chiến thắng vào năm 2026?