Các chuyên gia thảo luận về tác động của OpenClaw đối với các tác nhân AI và các thách thức về tính toán

Tác giả: Trần Tuấn Đạt

Zhi Dong Xi ngày 27 tháng 3 đưa tin, hôm nay, tại Diễn đàn Trungguanxun, CEO của Zhipu là Zhang Peng, CEO của Moonshot AI là Yang Zhilin (đóng vai trò điều phối), Luo Fuli - người phụ trách mô hình lớn MiMo của Xiaomi, Xia Lixue - CEO của Wuwen Xinqiong và Giáo sư trợ lý Hoàng Siêu từ Đại học Hồng Kông đã cùng xuất hiện hiếm có trong một cuộc đối thoại sâu sắc về tương lai của các mô hình lớn mã nguồn mở và tác nhân thông minh.

Cuộc hội thoại này bắt đầu với OpenClaw – dự án đang hot nhất hiện nay, các khách mời đều đồng ý rằng các tác nhân đã giúp các mô hình lớn thực sự bắt đầu “làm việc”. OpenClaw mở rộng ranh giới khả năng của mô hình lớn, nhưng đồng thời cũng đặt ra những yêu cầu cao hơn cho mô hình; Zhipu đang nghiên cứu các khả năng như lập kế hoạch dài hạn và tự điều chỉnh, trong khi nhóm của Luo Fuli lại tập trung vào việc giảm chi phí và tăng tốc độ thông qua đổi mới kiến trúc, thậm chí đạt được sự tự tiến hóa của mô hình.

Cơ sở hạ tầng cũng phải theo kịp nhịp độ của các tác nhân. Hạ Lập Tuyết cho rằng hệ thống tính toán và kiến trúc phần mềm hiện tại vẫn được thiết kế cho con người, chứ không phải cho các tác nhân, thực chất là đang giới hạn không gian phát huy của Agent bằng khả năng thao tác của con người. Do đó, chúng ta cần xây dựng Agentic Infra.

Theo quan điểm của nhiều khách mời, mã nguồn mở là một trong những động lực cốt lõi thúc đẩy sự phát triển của các mô hình lớn và tác nhân thông minh. Giáo sư trợ lý Hoàng Siêu tại Đại học Hồng Kông cho rằng, sự thịnh vượng của hệ sinh thái mã nguồn mở là chìa khóa để các tác nhân thông minh chuyển từ việc “chơi đùa” sang trở thành “người lao động thực sự”; chỉ thông qua sự共建 cộng đồng, phần mềm, dữ liệu và công nghệ mới có thể chuyển đổi toàn diện sang hình thái bản địa của tác nhân thông minh, từ đó hình thành một hệ sinh thái AI toàn cầu bền vững.

Ngoài ra, một số khách mời còn thảo luận về các chủ đề như việc tăng giá mô hình lớn, sự bùng nổ lượng token được sử dụng, các từ khóa chính trong 12 tháng tới của AI. Dưới đây là những quan điểm cốt lõi của buổi tọa đàm:

1. Trương Bằng: Sau khi mô hình trở nên lớn hơn, chi phí suy luận cũng tăng theo; chiến lược tăng giá gần đây của Zhizhang thực chất là trở về với giá trị thương mại bình thường, cạnh tranh giá thấp trong dài hạn không có lợi cho sự phát triển của ngành.

2. Trương Bằng: Sự bùng nổ của các công nghệ mới như tác nhân thông minh đã làm tăng nhu cầu về token lên 10 lần, nhưng nhu cầu thực tế có thể tăng lên 100 lần, vẫn còn rất nhiều nhu cầu chưa được đáp ứng, do đó năng lực tính toán vẫn là vấn đề then chốt trong 12 tháng tới.

3. Luo Fuli: Từ góc nhìn của các nhà cung cấp mô hình nền tảng lớn, OpenClaw đảm bảo ngưỡng dưới của mô hình nền tảng lớn và nâng cao ngưỡng trên. Tỷ lệ hoàn thành nhiệm vụ của các mô hình nguồn mở trong nước kết hợp với OpenClaw đã rất gần với Claude.

4. Luo Fuli: DeepSeek đã mang lại sự can đảm và niềm tin cho các nhà phát triển mô hình lớn trong nước. Một số sáng tạo về kiến trúc mô hình, vốn dường như là sự hy sinh vì hiệu quả, đã gây ra những thay đổi thực sự, giúp ngành công nghiệp đạt được mức độ thông minh cao nhất có thể trong điều kiện năng lực tính toán cố định.

5. Luo Fuli: Điều quan trọng nhất trong hành trình AGI trong năm tới là “tự tiến hóa”. Tự tiến hóa cho phép các mô hình lớn khám phá như các nhà khoa học hàng đầu, và là nơi duy nhất có thể “tạo ra những điều mới”. Xiaomi đã tăng hiệu quả nghiên cứu lên 10 lần nhờ sử dụng Claude Code và các mô hình hàng đầu.

6. Hạ Lập Tuyết: Khi thời đại AGI đến, cơ sở hạ tầng bản thân nên là các tác nhân, tự quản lý toàn bộ cơ sở hạ tầng, liên tục cải tiến cơ sở hạ tầng dựa trên nhu cầu của khách hàng AI, đạt được tự tiến hóa và tự lặp lại.

7. Hạ Lập Tuyết: OpenClaw đã kích hoạt sự gia tăng sử dụng token. Tốc độ tiêu thụ token hiện nay giống như cảm giác khi mới bắt đầu thời kỳ 3G, mỗi tháng chỉ có 100M dung lượng dữ liệu điện thoại.

8. Hoàng Siêu: Trong tương lai, nhiều phần mềm sẽ không hướng đến con người; phần mềm, dữ liệu và công nghệ sẽ phát triển dưới dạng Agent-Native, và con người có thể chỉ cần sử dụng những giao diện GUI “giúp mình cảm thấy vui vẻ”.

Đây là bản ghi đầy đủ của buổi tọa đàm:

01. OpenClaw chính là “giàn giáo”, việc tiêu tốn token của mô hình lớn vẫn đang ở thời kỳ 3G

Yang Zhilin: Rất vinh dự khi hôm nay được mời các vị khách mời quan trọng, những vị khách này đến từ các lớp mô hình, lớp tính toán đến lớp agent. Từ khóa chính hôm nay là mã nguồn mở, sau đó là agent.

Câu hỏi đầu tiên, hãy nói về OpenClaw hiện đang phổ biến nhất. Mọi người khi sử dụng OpenClaw hoặc các sản phẩm tương tự hàng ngày, điểm nào khiến bạn cảm thấy sáng tạo nhất hoặc ấn tượng nhất? Về mặt kỹ thuật, bạn đánh giá như thế nào về sự phát triển của OpenClaw và các Agent liên quan ngày nay?

Trương Bằng: Tôi đã bắt đầu tự chơi OpenClaw từ rất sớm, lúc đó nó còn được gọi là Clawbot. Tôi tự tay thử nghiệm, bởi vì tôi cũng xuất thân là lập trình viên, nên có một số trải nghiệm riêng khi chơi những thứ này.

Tôi cho rằng điểm đột phá lớn nhất, hay sự mới mẻ mà OpenClaw mang lại cho mọi người là nó không còn là độc quyền của các lập trình viên hay những người đam mê công nghệ. Người bình thường cũng có thể dễ dàng sử dụng khả năng của các mô hình hàng đầu, đặc biệt là trong lĩnh vực lập trình và tác nhân thông minh.

Vì vậy, cho đến nay, trong quá trình trao đổi với mọi người, tôi thích gọi OpenClaw là “giàn giáo”. Nó cung cấp một khả năng, xây dựng một giàn giáo vững chắc, tiện lợi nhưng linh hoạt dựa trên nền tảng mô hình. Mọi người có thể sử dụng các tính năng mới lạ do các mô hình nền tảng cung cấp theo ý muốn của mình.

Trước đây, ý tưởng của bản thân có thể bị hạn chế do không biết lập trình hoặc chưa nắm được các kỹ năng liên quan khác, nhưng hôm nay có OpenClaw, cuối cùng tôi có thể hoàn thành nó chỉ bằng cách giao tiếp đơn giản.

OpenClaw đã mang đến cho tôi một cú sốc lớn, hoặc nói cách khác, giúp tôi nhận thức lại điều này.

Xia Lixue: Thực ra, lúc đầu tôi dùng OpenClaw, tôi đã không quen, vì tôi quen với cách giao tiếp với các mô hình lớn; sau khi sử dụng, tôi cảm thấy OpenClaw phản hồi khá chậm.

Nhưng sau đó tôi nhận ra một vấn đề, đó là nó có sự khác biệt lớn so với các chatbot trước đây, về bản chất là một “người” có thể giúp tôi hoàn thành các nhiệm vụ lớn. Tôi bắt đầu gửi cho nó những nhiệm vụ phức tạp hơn và phát hiện ra rằng thực ra nó có thể làm rất tốt.

Việc này mang lại cho tôi nhiều cảm xúc sâu sắc. Từ việc mô hình ban đầu chỉ trò chuyện dựa trên token, đến nay đã có thể trở thành một tác nhân, trở thành một con tôm hùm, giúp bạn hoàn thành các nhiệm vụ. Điều này đã mở rộng đáng kể không gian tưởng tượng tổng thể của AI.

Đồng thời, nó cũng yêu cầu rất cao về khả năng của toàn bộ hệ thống. Đó cũng là lý do tại sao ngay từ đầu khi sử dụng OpenClaw, tôi cảm thấy nó hơi giật. Với tư cách là nhà cung cấp lớp hạ tầng, tôi thấy OpenClaw đã mang đến nhiều cơ hội và thách thức hơn cho hệ thống và hệ sinh thái lớn phía sau AI.

Tất cả các nguồn lực chúng ta hiện có đều không đủ để hỗ trợ cho một thời đại tăng trưởng nhanh như vậy. Ví dụ như công ty chúng tôi, kể từ cuối tháng Một, lượng token sử dụng gần như doubling mỗi hai tuần, đến nay đã tăng khoảng 10 lần.

Lần cuối tôi thấy tốc độ này là khi dùng điện thoại 3G tiêu tốn dữ liệu. Tôi có cảm giác rằng lượng token hiện tại giống như thời kỳ trước đây, mỗi tháng chỉ có 100MB dữ liệu điện thoại.

Trong trường hợp này, tất cả các nguồn lực của chúng tôi đều cần được tối ưu hóa và tích hợp tốt hơn, để mỗi người, không chỉ trong lĩnh vực AI mà còn trong toàn bộ xã hội, đều có thể sử dụng được khả năng AI của OpenClaw.

Là một người tham gia vào lĩnh vực cơ sở hạ tầng, tôi cảm thấy rất hào hứng và sâu sắc về thời đại này. Tôi cũng cho rằng vẫn còn nhiều không gian để tối ưu hóa mà chúng ta nên tiếp tục khám phá và thử nghiệm.

02. OpenClaw nâng cao giới hạn của các mô hình trong nước, chế độ tương tác mang ý nghĩa đột phá

Luo Fuli: Tôi xem OpenClaw là một sự kiện mang tính cách mạng và phá vỡ hoàn toàn trong quá trình phát triển của khung agent.

Thực tế, tất cả những người xung quanh tôi đang thực hiện coding ở mức độ rất sâu đều chọn Claude Code làm lựa chọn đầu tiên. Tuy nhiên, tôi tin rằng những người sử dụng OpenClaw sẽ cảm nhận được rằng nhiều thiết kế của nó trong khung Agent là tiên tiến hơn Claude Code. Gần đây, nhiều cập nhật của Claude Code thực chất đang hướng tới việc bắt kịp OpenClaw.

Khi tự mình sử dụng OpenClaw, tôi cảm nhận rằng khung công cụ này mang lại cho tôi khả năng mở rộng ý tưởng một cách linh hoạt mọi lúc mọi nơi. Claude Code ban đầu chỉ có thể mở rộng ý tưởng của tôi trên máy tính để bàn, nhưng OpenClaw có thể mở rộng ý tưởng của tôi mọi lúc mọi nơi.

OpenClaw mang lại hai giá trị cốt lõi. Thứ nhất, nó là mã nguồn mở. Việc mã nguồn mở rất có lợi cho toàn bộ cộng đồng tham gia sâu vào, coi trọng và thúc đẩy sự phát triển của khung này, đây là một điều kiện tiên quyết quan trọng.

Tôi cho rằng một giá trị lớn của các khung AI như OpenClaw là nó đã nâng cao đáng kể giới hạn của các mô hình trong nước, dù mức độ của chúng vẫn chưa hoàn toàn theo kịp các mô hình đóng.

Trong hầu hết các tình huống, bạn sẽ thấy mức độ hoàn thành nhiệm vụ của nó (mô hình nguồn mở trong nước + OpenClaw) đã rất gần với mô hình mới nhất của Claude. Đồng thời, nó cũng đảm bảo tốt mức tối thiểu — thông qua một hệ thống Harness, hay nhờ vào các thiết kế đa方面 như hệ thống Skills, nhằm đảm bảo tính toàn vẹn và độ chính xác của nhiệm vụ.

Tóm lại, từ góc nhìn của các nhà phát triển từ các nhà cung cấp mô hình nền tảng lớn, OpenClaw đảm bảo mức đáy của mô hình nền tảng lớn và nâng cao mức đỉnh.

Ngoài ra, tôi cho rằng giá trị khác mà nó mang lại cho toàn bộ cộng đồng là nó đã khơi dậy nhận thức của mọi người, giúp họ nhận ra rằng ở cấp độ Agent, ngoài các mô hình lớn, thực sự tồn tại một không gian tưởng tượng rất lớn.

Gần đây tôi cũng nhận thấy, ngoài các nhà nghiên cứu, ngày càng nhiều người trong cộng đồng bắt đầu tham gia vào cuộc cách mạng của AGI, ngày càng nhiều người tiếp cận các framework agent mạnh mẽ hơn như Harness, Scaffold. Những người này về mặt nào đó đang sử dụng các công cụ này để thay thế một phần công việc của mình, đồng thời giải phóng thời gian để đầu tư vào những việc mang tính sáng tạo hơn.

Huang Chao: Tôi cho rằng, về mặt mô hình tương tác, lý do đầu tiên khiến OpenClaw trở nên nổi bật là nó mang lại trải nghiệm mang tính “con người” hơn. Thực tế, chúng tôi đã làm Agent được khoảng một hai năm rồi, nhưng trước đây những Agent như Cursor, Claude Code lại mang đến cảm giác chủ yếu là “công cụ”. Trong khi đó, OpenClaw lần đầu tiên tích hợp dưới dạng “nhúng vào phần mềm nhắn tin tức thời”, khiến người dùng cảm thấy gần gũi hơn với hình ảnh “J.A.R.V.I.S cá nhân” trong tưởng tượng. Tôi cho rằng đây có thể là một bước đột phá về mô hình tương tác.

Một điểm khác, nó mang đến cho toàn bộ cộng đồng một bài học: mô hình đơn giản nhưng hiệu quả như Agent Loop đã một lần nữa được chứng minh là khả thi. Đồng thời, nó cũng khiến chúng ta phải suy nghĩ lại một câu hỏi: chúng ta thực sự cần một siêu tác nhân toàn năng có thể làm mọi việc, hay một “người quản lý nhỏ” tốt hơn, giống như một hệ điều hành nhẹ hoặc khung xương?

OpenClaw mang đến ý tưởng thông qua một “hệ thống nhỏ” hay còn gọi là “hệ điều hành tôm hùm” cùng hệ sinh thái của nó, giúp mọi người thực sự có tâm thế “chơi đùa”, từ đó thúc đẩy toàn bộ các công cụ trong hệ sinh thái.

Với sự xuất hiện của các khả năng như Skills và Harness, ngày càng nhiều người có thể thiết kế các ứng dụng nhắm đến các hệ thống như OpenClaw, nhằm trao quyền cho mọi ngành nghề. Tôi cho rằng điểm này tự nhiên gắn liền rất chặt chẽ với toàn bộ hệ sinh thái mã nguồn mở. Theo tôi, hai điểm này là nguồn cảm hứng lớn nhất mà chúng ta đạt được.

03. Mô hình GLM mới được thiết kế đặc biệt để "làm việc", việc tăng giá là sự trở lại về giá trị kinh doanh bình thường

Dương Trí Lân: Xin hỏi Trương Bằng. Gần đây tôi thấy Zhipu đã ra mắt mô hình GLM-5 Turbo mới, tôi hiểu rằng khả năng Agent đã được tăng cường đáng kể. Bạn có thể giới thiệu cho mọi người biết sự khác biệt giữa mô hình mới này và các mô hình khác không? Ngoài ra, chúng tôi cũng nhận thấy có chiến lược tăng giá, điều này phản ánh tín hiệu thị trường gì?

Trương Bằng: Đây là một câu hỏi rất hay. Hai ngày trước, chúng tôi thực sự đã cập nhật khẩn cấp một đợt, đây thực chất là một giai đoạn trong toàn bộ lộ trình phát triển của chúng tôi, chỉ là chúng tôi đã công bố sớm hơn một chút.

Mục đích chính là chuyển từ “hội thoại đơn giản” sang “làm việc thật sự” — đây cũng là điều mà mọi người gần đây đều cảm nhận được: các mô hình lớn không chỉ có thể trò chuyện, mà còn thực sự có thể giúp con người làm việc.

Nhưng những khả năng ẩn sau việc “làm việc” này yêu cầu rất cao. Mô hình cần tự mình lập kế hoạch thực hiện các nhiệm vụ dài hạn, liên tục thử và sai, nén ngữ cảnh, gỡ lỗi, và thậm chí có thể phải xử lý thông tin đa phương thức. Do đó, yêu cầu về năng lực của mô hình này thực sự khác biệt so với các mô hình tổng quát hướng đối thoại truyền thống. GLM-5 Turbo đã được tăng cường đặc biệt trong những khía cạnh này, đặc biệt là như bạn đã đề cập – giúp nó có thể “làm việc” và chạy liên tục trong 72 giờ, làm sao để nó có thể lặp lại không ngừng, chúng tôi đã dành rất nhiều công sức vào điều này.

Ngoài ra, mọi người cũng rất quan tâm đến vấn đề tiêu tốn token. Để một mô hình thông minh thực hiện các nhiệm vụ phức tạp, lượng token tiêu thụ là rất lớn. Người bình thường có thể không cảm nhận rõ, nhưng khi xem hóa đơn sẽ thấy tiền tiêu nhanh bất ngờ. Vì vậy, chúng tôi cũng đã tối ưu hóa trong khía cạnh này, khi đối mặt với các nhiệm vụ phức tạp, mô hình có thể hoàn thành với hiệu suất token hiệu quả hơn. Về tổng thể, kiến trúc mô hình vẫn là kiến trúc phổ quát phối hợp đa nhiệm, chỉ được tăng cường có trọng tâm về khả năng.

Việc tăng giá thực ra cũng rất dễ giải thích. Như vừa nói, hiện nay không còn đơn giản là đặt một câu hỏi rồi nhận một câu trả lời, mà chuỗi suy luận đằng sau rất dài. Nhiều nhiệm vụ cần tương tác với mã nguồn và cơ sở hạ tầng cấp thấp, đồng thời phải liên tục gỡ lỗi và sửa lỗi, tiêu tốn rất nhiều tài nguyên. Số token cần thiết để hoàn thành một nhiệm vụ phức tạp có thể gấp mười lần hoặc thậm chí trăm lần so với việc trả lời một câu hỏi đơn giản.

Vì vậy, giá cả cần có sự tăng lên phù hợp, mô hình cũng lớn hơn, chi phí suy luận tương ứng tăng theo. Chúng tôi đưa nó trở về giá trị thương mại bình thường, vì việc cạnh tranh bằng giá thấp trong dài hạn không có lợi cho sự phát triển của toàn ngành. Đây cũng là cách chúng tôi tạo ra một vòng lặp thương mại lành mạnh, liên tục tối ưu hóa năng lực mô hình và mang đến cho bạn dịch vụ tốt hơn.

04. Xây dựng nhà máy token hiệu quả hơn, cơ sở hạ tầng cũng nên là Agent

Dương Trí Lân: Hiện nay, các mô hình mã nguồn mở ngày càng nhiều và bắt đầu hình thành hệ sinh thái, các mô hình khác nhau có thể mang lại nhiều giá trị hơn cho người dùng trên các nền tảng tính toán khác nhau. Cùng với sự bùng nổ về lượng token, các mô hình lớn đang chuyển từ thời kỳ huấn luyện sang thời kỳ suy luận. Xin hỏi Lập Tuyết, từ góc độ hạ tầng, thời kỳ suy luận mang ý nghĩa gì đối với Vô Vấn?

Xia Lixue: Chúng tôi là một nhà cung cấp hạ tầng sinh ra trong thời đại AI, hiện đang hỗ trợ Zhipu, Kimi, Mimo và các nền tảng khác để giúp mọi người sử dụng nhà máy token một cách hiệu quả hơn. Đồng thời, chúng tôi cũng đang hợp tác với nhiều trường đại học và viện nghiên cứu.

Vì vậy, chúng tôi đã luôn suy nghĩ về một điều: Thời đại AGI cần cơ sở hạ tầng như thế nào? Và chúng tôi sẽ từng bước thực hiện và suy diễn nó như thế nào. Hiện tại, chúng tôi đã sẵn sàng đầy đủ để giải quyết các vấn đề ở các giai đoạn ngắn hạn, trung hạn và dài hạn.

Vấn đề trực tiếp nhất hiện nay chính là lượng token do Open tạo ra tăng đột biến, như mọi người vừa đề cập — điều này đặt ra yêu cầu cao hơn về việc tối ưu hiệu suất hệ thống. Việc điều chỉnh giá cũng là một cách ứng phó trong bối cảnh nhu cầu này.

Chúng tôi luôn triển khai và giải quyết thông qua cách tiếp cận tích hợp phần mềm và phần cứng. Ví dụ, chúng tôi đã tích hợp gần như tất cả các loại chip tính toán, kết nối thống nhất hơn chục loại chip khác nhau trong nước cùng hàng chục cụm tính toán khác nhau. Điều này giúp giải quyết vấn đề thiếu hụt tài nguyên tính toán trong hệ thống AI; khi tài nguyên không đủ, cách tốt nhất là tận dụng tất cả các nguồn lực có sẵn, đồng thời đảm bảo mỗi đơn vị tính toán đều được sử dụng một cách hiệu quả nhất để đạt được hiệu suất chuyển đổi tối đa.

Vì vậy, ở giai đoạn này, điều chúng ta cần giải quyết là làm thế nào để xây dựng một nhà máy token hiệu quả hơn. Chúng tôi đã thực hiện nhiều tối ưu hóa, bao gồm việc điều phối tối ưu các tài nguyên như bộ nhớ GPU trên mô hình và phần cứng, đồng thời tìm hiểu liệu có thể tạo ra phản ứng sâu sắc hơn giữa các kiến trúc mô hình và phần cứng mới nhất hay không. Tuy nhiên, giải quyết vấn đề hiệu quả hiện tại thực chất chỉ mới tạo ra một nhà máy token chuẩn hóa.

Đối với thời đại Agent, chúng tôi cho rằng điều này vẫn chưa đủ. Vì Agent giống như một con người, bạn có thể giao cho nó một nhiệm vụ. Tôi tin chắc rằng nhiều cơ sở hạ tầng trong thời đại điện toán đám mây hiện nay được thiết kế để phục vụ một chương trình hoặc các kỹ sư nhân loại, chứ không phải để phục vụ AI. Điều này tương đương với việc chúng ta xây dựng một cơ sở hạ tầng với giao diện dành cho con người, rồi sau đó thêm một lớp bên ngoài để kết nối Agent — cách làm này thực chất đã giới hạn không gian phát huy của Agent bằng khả năng thao tác của con người.

Ví dụ, Agent có thể suy nghĩ và khởi tạo nhiệm vụ ở mức miligiây, nhưng các khả năng nền tảng như K8s (kubernetes) thực tế chưa được chuẩn bị cho điều này, vì con người thường khởi tạo nhiệm vụ ở mức độ phút. Vì vậy, chúng ta cần những khả năng nâng cao hơn, chúng tôi gọi đây là “Agentic Infra” – tức là “nhà máy token thông minh” – đây chính là điều Vô Vấn Tâm Cung đang thực hiện.

Nhìn xa hơn, khi thời đại AGI thực sự đến, chúng tôi cho rằng ngay cả cơ sở hạ tầng cũng nên là một tác nhân. Nhà máy mà chúng tôi xây dựng cũng nên có khả năng tự tiến hóa, tự lặp lại và hình thành một tổ chức tự chủ. Nó tương đương với một CEO, và CEO này chính là một Agent, có thể là OpenClaw, quản lý toàn bộ cơ sở hạ tầng, tự đưa ra yêu cầu và cải tiến cơ sở hạ tầng dựa trên nhu cầu của khách hàng AI. Chỉ khi đó, AI mới có thể kết nối hiệu quả với nhau. Chúng tôi cũng đang thực hiện một số khám phá, chẳng hạn như cải thiện khả năng giao tiếp giữa các Agent và các tính năng như Cache to Cache.

Vì vậy, điều chúng tôi luôn suy nghĩ là sự phát triển của hạ tầng và AI không nên ở trạng thái tách biệt—tôi nhận yêu cầu thì thực hiện—mà nên tạo ra những phản ứng hóa học phong phú. Đó mới là sự phối hợp thực sự giữa phần mềm và phần cứng, giữa thuật toán và hạ tầng, cũng là sứ mệnh mà Wuwen Xinqiong luôn hướng tới. Cảm ơn.

05. Những sáng tạo mang tính nhượng bộ vì hiệu quả cũng có ý nghĩa; DeepSeek mang lại sự can đảm và niềm tin cho đội ngũ trong nước

Dương Trí Lân: Tiếp theo, tôi muốn hỏi Phúc Lợi. Gần đây, Xiaomi đã đóng góp lớn cho cộng đồng thông qua việc ra mắt mô hình mới và mở nguồn công nghệ đằng sau nó. Tôi muốn hỏi bạn, theo bạn, Xiaomi có những lợi thế độc đáo nào trong việc phát triển mô hình quy mô lớn?

Luo Fuli: Tôi nghĩ chúng ta có thể tạm gác sang một bên chủ đề về những lợi thế độc đáo của Xiaomi, và tôi muốn nói về lợi thế chung của các đội ngũ Trung Quốc trong việc phát triển mô hình lớn. Tôi cho rằng chủ đề này có giá trị rộng lớn hơn.

Khoảng hai năm trước, nhóm mô hình nền tảng của Trung Quốc đã đạt được những bước đột phá rất tốt — chúng tôi đã làm thế nào để vượt qua giới hạn của các nguồn tính toán thấp cấp, đặc biệt là trong điều kiện băng thông liên kết NVLink bị hạn chế, bằng cách thực hiện những sáng tạo về kiến trúc mô hình dường như là “hy sinh hiệu suất”, chẳng hạn như chuỗi DeepSeek V2, V3, MoE, MLA, v.v.

Nhưng sau đó chúng tôi nhận ra rằng, những sáng tạo này đã thúc đẩy một sự thay đổi: làm thế nào để đạt được mức độ thông minh cao nhất trong điều kiện sức mạnh tính toán cố định. Đây chính là nguồn động lực và niềm tin mà DeepSeek mang lại cho tất cả các nhóm mô hình nền tảng trong nước. Mặc dù hôm nay, các chip trong nước của chúng ta, đặc biệt là chip suy luận và chip huấn luyện, đã không còn bị giới hạn bởi những ràng buộc này, nhưng chính trong hoàn cảnh bị giới hạn ấy đã thúc đẩy chúng ta khám phá những cấu trúc mô hình mới nhằm nâng cao hiệu suất huấn luyện và giảm chi phí suy luận.

Như các kiến trúc mới gần đây như Hybrid Sparse, Linear Attention, ví dụ như NSA của DeepSeek, KSA của Kimi, và HySparse của Xiaomi, tất cả đều là những sáng tạo kiến trúc mô hình hướng tới thời đại Agent, khác biệt với các kiến trúc thế hệ MoE.

Tại sao tôi lại cảm thấy sự đổi mới về cấu trúc quan trọng đến vậy? Thực ra, nếu mọi người thực sự sử dụng OpenClaw, sẽ nhận ra nó càng dùng càng tiện lợi, càng dùng càng thông minh. Một trong những tiền đề là độ dài ngữ cảnh suy luận. Ngữ cảnh dài là một chủ đề chúng ta đã bàn luận rất lâu, nhưng hiện nay có mô hình nào thực sự hoạt động tốt, hiệu suất mạnh mẽ và chi phí suy luận thấp trong ngữ cảnh dài không?

Thực ra, nhiều mô hình không phải không thể xử lý ngữ cảnh 1M hay 10M, mà vì chi phí suy luận với ngữ cảnh 1M, 10M quá cao và tốc độ quá chậm. Chỉ khi giảm chi phí và tăng tốc độ, chúng ta mới có thể giao những nhiệm vụ có giá trị năng suất cao thực sự cho mô hình, thực hiện các nhiệm vụ phức tạp hơn trong ngữ cảnh dài, thậm chí đạt được tự lặp lại của mô hình.

Sự tự lặp lại của mô hình có nghĩa là nó có thể tự tiến hóa trong một môi trường phức tạp nhờ vào ngữ cảnh cực dài. Sự tiến hóa này có thể là đối với chính khung Agent, hoặc đối với các tham số của mô hình—vì tôi cho rằng ngữ cảnh bản thân chính là một dạng tiến hóa của các tham số. Do đó, cách thức triển khai một kiến trúc ngữ cảnh dài và cách thực hiện suy luận hiệu quả với ngữ cảnh dài ở phía suy luận là một cuộc cạnh tranh toàn diện.

Ngoài giai đoạn tiền huấn luyện mà tôi vừa đề cập, việc xây dựng kiến trúc hiệu quả cho ngữ cảnh dài — đây là vấn đề mà chúng tôi đã bắt đầu khám phá cách đây khoảng một năm. Hiện tại, để thực sự đạt được sự ổn định và hiệu suất cao trong các nhiệm vụ dài, chúng tôi đang liên tục cải tiến một mô hình đổi mới trong giai đoạn hậu huấn luyện.

Chúng tôi đang tìm cách xây dựng các thuật toán học hiệu quả hơn, cách thu thập các văn bản thực tế có mối quan hệ dài hạn trong các ngữ cảnh 1M, 10M, 100M, cũng như kết hợp dữ liệu quỹ đạo sinh ra từ môi trường phức tạp. Đây là những gì chúng tôi đang thực hiện trong giai đoạn hậu huấn luyện.

Nhưng nhìn về dài hạn, do sự tiến bộ nhanh chóng của các mô hình lớn cùng sự hỗ trợ của khung Agent, như Lập Tuyết đã nói, nhu cầu suy luận trong thời gian qua đã tăng gần mười lần. Vậy liệu lượng token sử dụng cả năm nay có thể tăng lên 100 lần không?

Ở đây lại bước vào một cấp độ cạnh tranh khác—độ mạnh tính toán, hay nói cách khác là chip suy luận, thậm chí xuống sâu hơn nữa là năng lượng. Vì vậy, tôi nghĩ rằng nếu mọi người cùng suy nghĩ về vấn đề này, tôi có thể học được nhiều hơn từ mọi người. Cảm ơn.

06. Agent có ba mô-đun chính, sự bùng nổ của nhiều Agent sẽ mang lại tác động lớn

Dương Trí Lân: Một chia sẻ rất thấu đáo. Tiếp theo, tôi muốn hỏi Hoàng Siêu, anh đã phát triển các dự án Agent có ảnh hưởng lớn như Nanobot và có rất nhiều người hâm mộ trong cộng đồng. Tôi muốn hỏi anh, từ góc độ Harness hoặc ứng dụng của Agent, những hướng công nghệ nào trong tương lai gần theo anh là quan trọng và đáng được mọi người quan tâm?

Huang Chao: Tôi cho rằng nếu tách biệt công nghệ Agent, thì các mô-đun then chốt chính là Planning, Memory và Tool Use.

Trước tiên nói về Planning. Vấn đề hiện tại chủ yếu nằm ở các nhiệm vụ dài hạn hoặc bối cảnh rất phức tạp, chẳng hạn như 500 bước hoặc nhiều hơn, nhiều mô hình không thể thực hiện lập kế hoạch tốt. Tôi cho rằng về bản chất, mô hình có thể không có những kiến thức ngầm loại này, đặc biệt trong một số lĩnh vực chuyên sâu phức tạp. Vì vậy, trong tương lai có thể cần cố định các kiến thức về các nhiệm vụ phức tạp vào trong mô hình, đây có thể là một hướng đi.

Tất nhiên, Skill và Harness cũng phần nào làm giảm các lỗi do Planning gây ra, vì chúng cung cấp các Skill chất lượng cao, về bản chất là hướng dẫn mô hình thực hiện một số nhiệm vụ khó hơn.

Hãy nói thêm về Memory. Memory khiến người ta cảm thấy nó thường gặp vấn đề về nén thông tin không chính xác và truy vấn không chính xác. Đặc biệt trong các nhiệm vụ dài hạn và cảnh phức tạp, áp lực lên Memory sẽ tăng mạnh. Hiện tại, các dự án như OpenClaw đều đang sử dụng Memory dạng Markdown đơn giản theo kiểu hệ thống tệp, thông qua việc chia sẻ tệp. Trong tương lai, Memory có thể sẽ hướng đến thiết kế phân tầng và cần trở nên phổ quát hơn.

Nói thật thì cơ chế Memory hiện tại rất khó để tổng quát hóa—vì các bối cảnh như Coding, Deep Research và đa phương thức có sự khác biệt lớn về modal dữ liệu; làm thế nào để truy vấn và lập chỉ mục hiệu quả cho những Memory này đồng thời duy trì hiệu suất luôn là một sự đánh đổi.

Ngoài ra, sau khi OpenClaw giảm đáng kể rào cản để mọi người tạo Agent, trong tương lai có thể không chỉ có một “con tôm hùm”. Tôi thấy Kimi cũng đã ra mắt cơ chế Agent Swarm, trong tương lai mỗi người có thể sở hữu “một đàn tôm hùm”.

So sánh với một con tôm hùm, việc có một đàn tôm hùm sẽ làm tăng đáng kể ngữ cảnh, gây áp lực rất lớn lên bộ nhớ. Hiện tại vẫn chưa có cơ chế hiệu quả nào để quản lý ngữ cảnh do “đàn tôm hùm” mang lại, đặc biệt trong các tình huống phức tạp như lập trình hoặc phát hiện khoa học, cả mô hình lẫn toàn bộ kiến trúc Agent đều chịu áp lực lớn.

Nói thêm về Tool Use, tức là phần Skill. Vấn đề hiện tại của Skill thực chất tương tự như vấn đề của MCP trước đây — MCP lúc đó gặp các vấn đề như chất lượng không đảm bảo và rủi ro bảo mật. Hiện nay Skill cũng vậy, dù có vẻ có rất nhiều Skill, nhưng số lượng chất lượng cao lại rất ít; các Skill chất lượng thấp sẽ ảnh hưởng đến độ chính xác của Agent trong việc hoàn thành nhiệm vụ. Ngoài ra còn có vấn đề bị tiêm mã độc. Do đó, từ góc độ Tool Use, có lẽ cần cộng đồng cùng nhau xây dựng hệ sinh thái Skill tốt hơn, thậm chí giúp Skill có thể tự tiến hóa để tạo ra các Skill mới trong quá trình thực thi.

Nhìn chung, từ Planning, Memory đến Tool Use, những điểm này là những vấn đề hiện tại của Agent và cũng là những hướng đi tiềm năng trong tương lai.

07. Từ khóa trong 12 tháng tới: hệ sinh thái, token bền vững, tự tiến hóa và sức mạnh tính toán

Dương Trí Lân: Có thể thấy hai khách mời đã thảo luận về một vấn đề chung từ các góc độ khác nhau—khi độ phức tạp của nhiệm vụ tăng lên, ngữ cảnh sẽ tăng vọt. Về mặt mô hình, có thể nâng cao độ dài ngữ cảnh bản địa; về mặt Agent Harness, các cơ chế như Lập kế hoạch, Bộ nhớ, Multi-Agent cũng có thể hỗ trợ các nhiệm vụ phức tạp hơn trong điều kiện năng lực mô hình cụ thể. Tôi cho rằng hai hướng này sẽ tạo ra nhiều phản ứng hóa học hơn trong tương lai, từ đó nâng cao thêm khả năng hoàn thành nhiệm vụ.

Cuối cùng, chúng ta cùng đến với một triển vọng mở. Hãy dùng một từ để mô tả xu hướng phát triển của các mô hình lớn trong 12 tháng tới và kỳ vọng của bạn. Lần này, hãy bắt đầu với Hoàng Siêu.

Huang Chao: 12 tháng trong lĩnh vực AI nghe có vẻ rất xa vời, không ai biết 12 tháng sau sẽ phát triển đến mức nào.

Yang ZhiLin: Ban đầu ở đây ghi là năm năm, tôi đã sửa lại.

Huang Chao: Đúng vậy, haha. Một từ tôi nghĩ đến là “hệ sinh thái”. Hiện tại, OpenClaw đang khiến mọi người rất sôi nổi, nhưng trong tương lai, các Agent thực sự cần trở thành “người đi làm”, chứ không chỉ là thứ mọi người chơi đùa cho vui hoặc vì tò mò. Tương lai nên giúp nó thực sự lắng đọng, trở thành công cụ làm việc chăm chỉ, trở thành đồng nghiệp thực sự.

Điều này đòi hỏi nỗ lực của toàn bộ hệ sinh thái, đặc biệt là mã nguồn mở; sau khi mở nguồn các kỹ thuật nghiên cứu và mô hình, cả cộng đồng cần cùng nhau xây dựng — bất kể là sự lặp lại của mô hình, sự lặp lại của nền tảng Skill, hay các công cụ khác, đều cần được thiết kế tốt hơn để tạo dựng hệ sinh thái hướng đến tôm hùm.

Một xu hướng rõ ràng là phần mềm trong tương lai còn dành cho con người nữa không? Tôi tin rằng nhiều phần mềm trong tương lai có thể không còn hướng đến con người nữa — vì con người cần GUI, trong khi tương lai có thể hướng đến việc sử dụng nguyên bản cho Agent. Điều thú vị là con người có thể chỉ sử dụng những GUI mang lại niềm vui cho họ. Hiện tại, toàn bộ hệ sinh thái đang chuyển từ GUI, MCP sang mô hình CLI. Điều này đòi hỏi hệ sinh thái phải chuyển đổi hệ thống phần mềm, dữ liệu và các công nghệ khác thành dạng Agent Native, để toàn bộ sự phát triển trở nên phong phú hơn.

Luo Fuli: Thu hẹp vấn đề xuống một năm, tôi thấy rất có ý nghĩa. Nếu là năm năm, theo định nghĩa của tôi về AGI, tôi cho rằng nó đã được thực hiện rồi. Vì vậy, nếu phải dùng một câu để mô tả điều quan trọng nhất trong hành trình AGI của năm tới, tôi cho đó là “tự tiến hóa”.

Từ này nghe có vẻ huyền ảo, và trong năm qua mọi người đã nhắc đến nhiều lần. Nhưng gần đây tôi có cảm nhận sâu sắc hơn về nó, hay nói cách khác, đã có một phương án thực tế và khả thi hơn cho việc “tự tiến hóa”. Lý do là sau khi có mô hình mạnh mẽ, chúng ta hoàn toàn chưa khai thác hết giới hạn của mô hình pre-trained trong khuôn khổ Chat, trong khi khung Agent đã kích hoạt giới hạn đó. Khi chúng ta để mô hình thực hiện các nhiệm vụ kéo dài hơn, chúng tôi phát hiện ra rằng nó có thể tự học và tiến hóa.

Một thử nghiệm đơn giản là: thêm một ràng buộc điều kiện có thể xác minh vào khung Agent hiện có, sau đó thiết lập một vòng lặp để mô hình liên tục lặp lại và tối ưu hóa mục tiêu, bạn sẽ nhận thấy nó liên tục đưa ra các giải pháp tốt hơn. Sự tự tiến hóa này hiện đã có thể chạy trong một đến hai ngày, tuy nhiên điều này phụ thuộc vào độ khó của nhiệm vụ.

Ví dụ, trong một số nghiên cứu khoa học, như khám phá cấu trúc mô hình tốt hơn, vì cấu trúc mô hình có tiêu chí đánh giá, chẳng hạn như PPL thấp hơn. Trong những nhiệm vụ xác định này, chúng tôi phát hiện rằng nó đã có thể tự động tối ưu và thực hiện trong hai đến ba ngày.

Vì vậy, theo quan điểm của tôi, tự tiến hóa là nơi duy nhất có thể “tạo ra cái mới”. Nó không thay thế năng suất con người hiện tại, mà giống như các nhà khoa học hàng đầu, khám phá những điều chưa từng tồn tại trên thế giới. Một năm trước, tôi nghĩ thời gian này sẽ kéo dài từ ba đến năm năm, nhưng gần đây tôi cảm thấy thực sự nên thu hẹp xuống còn một đến hai năm. Có thể rất sớm chúng ta sẽ có thể kết hợp mô hình lớn với một khung framework tự tiến hóa mạnh mẽ, nhằm thúc đẩy khoa học nghiên cứu ít nhất là theo cấp số nhân.

Gần đây, tôi đã nhận ra rằng quy trình làm việc của các bạn trong nhóm tôi nghiên cứu mô hình lớn mang tính không chắc chắn cao và sáng tạo cao, nhưng nhờ vào Claude Code cùng các mô hình hàng đầu, hiệu suất nghiên cứu của chúng tôi đã tăng lên gần mười lần. Tôi rất mong chờ mô hình này được lan tỏa đến các ngành và lĩnh vực rộng lớn hơn, vì vậy tôi cho rằng “tự tiến hóa” là vô cùng quan trọng.

Xia Lixue: Từ khóa của tôi là “token bền vững”. Tôi nhận thấy sự phát triển của AI vẫn đang trong một quá trình dài hạn, và chúng tôi cũng mong muốn nó có tuổi thọ lâu dài. Về mặt hạ tầng, một vấn đề lớn là tài nguyên cuối cùng là có hạn.

Giống như khi trước đây nói về phát triển bền vững, với tư cách là một nhà máy token, liệu chúng ta có thể liên tục, ổn định và cung cấp token quy mô lớn để các mô hình hàng đầu thực sự phục vụ được nhiều dịch vụ downstream hơn, đó là một vấn đề rất quan trọng mà chúng tôi nhận thấy.

Chúng ta cần mở rộng tầm nhìn ra toàn bộ hệ sinh thái—từ năng lượng đến sức mạnh tính toán, rồi đến token, cuối cùng là ứng dụng, tạo thành chu kỳ kinh tế bền vững. Chúng ta không chỉ tận dụng tất cả các nguồn sức mạnh tính toán trong nước, mà còn đang xuất khẩu những năng lực này ra nước ngoài, nhằm kết nối và tích hợp nguồn lực toàn cầu.

Tôi cũng cảm thấy rằng “bền vững” thực chất đang xây dựng nền kinh tế token mang đặc trưng Trung Quốc. Trước đây, chúng ta nói đến “Made in China”, biến năng lực sản xuất giá rẻ của Trung Quốc thành những sản phẩm chất lượng cao xuất khẩu ra toàn cầu.

Bây giờ điều chúng ta cần làm là “AI Made in China” — chuyển hóa bền vững những lợi thế của Trung Quốc trong các lĩnh vực như năng lượng thành các token chất lượng cao thông qua nhà máy token, xuất khẩu ra toàn cầu và trở thành nhà máy token của thế giới. Đây là giá trị mà tôi mong muốn thấy Trung Quốc mang lại cho thế giới thông qua trí tuệ nhân tạo trong năm nay.

Trương Bằng: Tôi sẽ nói ngắn gọn hơn. Mọi người đều đang ngước nhìn bầu trời sao, còn tôi thì thực tế hơn một chút. Từ khóa của tôi là “công suất tính toán”.

Như vừa nói, tất cả các công nghệ và khung tác nhân đã giúp tăng cường sáng tạo và hiệu suất của mọi người lên mười lần, nhưng điều kiện tiên quyết là mọi người phải thực sự sử dụng được chúng. Bạn không thể đặt ra một vấn đề và để nó suy nghĩ mãi mà không đưa ra câu trả lời—điều đó chắc chắn không thể chấp nhận được. Chính vì vậy, nhiều tiến bộ nghiên cứu và nhiều ý định muốn thực hiện đều bị cản trở.

Hai năm trước, tôi nhớ có một viện sĩ đã nói một câu tại Diễn đàn Trung Sơn: “Không có thẻ thì không có cảm xúc, nói đến thẻ thì tổn thương tình cảm.” Tôi cảm thấy hôm nay chúng ta lại đến mức đó, nhưng tình hình lại khác biệt. Hiện tại chúng ta đã bước vào giai đoạn suy luận, nhu cầu thực sự đang bùng nổ—tăng gấp mười lần, trăm lần. Vừa rồi bạn nói lượng sử dụng tăng gấp mười lần, nhưng thực tế nhu cầu có thể đã tăng gấp trăm lần? Còn rất nhiều nhu cầu chưa được đáp ứng, vậy phải làm sao? Chúng ta cùng nhau suy nghĩ cách giải quyết.