DeepSeek V4 và Meituan LongCat 2.0 phá vỡ rào cản một nghìn tỷ tham số

Các doanh nghiệp AI trong nước bắt đầu thử nghiệm xây dựng quỹ đạo riêng của mình.

Đầu năm nay, cộng đồng công nghệ nước ngoài đều quan tâm đến vấn đề tính toán của Trung Quốc.

Tháng 1, Musk trên một podcast cho rằng Trung Quốc sẽ vượt xa các khu vực khác trên thế giới về năng lực AI. Tháng 2, CEO của OpenAI, Altman, nói rằng tiến bộ công nghệ của Trung Quốc trong lĩnh vực trí tuệ nhân tạo “nhanh đáng kinh ngạc”. CEO của NVIDIA, Huang Renxun, cũng nhiều lần công khai bày tỏ: “Việc hạn chế công nghệ AI của Trung Quốc ngược lại sẽ thúc đẩy sự tự chủ của họ”.

Năm 2025 có thể được coi là năm tập trung nguồn cung. Các công ty GPU trong nước như Moortian và Muxi đã liên tiếp niêm yết trên thị trường vốn, củng cố thêm nền tảng công nghiệp cho các mô hình lớn trong nước. Năm 2026, những thay đổi bắt đầu truyền xuống chuỗi cung ứng, vào cuối tháng 4, nhiều mô hình lớn trong nước đã ra mắt phiên bản mới.

Ngày 20 tháng 4, Moonshot ra mắt mô hình Kimi K2.6 chuyên về lập trình mã dài; ngày 24 tháng 4, DeepSeek V4 được phát hành; sau đó美团 LongCat-2.0-Preview mở cửa thử nghiệm, cả hai đều có tổng quy mô tham số vượt quá 1 nghìn tỷ và đều hỗ trợ ngữ cảnh siêu dài lên đến 1M.

Đáng chú ý, DeepSeek V4 đã hoàn thành việc chuyển đổi và tối ưu hóa từ hệ thống NVIDIA sang nền tảng Huawei Ascend; trong khi đó, LongCat2.0 của Meituan là mô hình ngôn ngữ lớn với một nghìn tỷ tham số, được huấn luyện và suy luận hoàn toàn trên năng lực tính toán trong nước, sử dụng từ 50.000 đến 60.000 chip tính toán trong nước.

Trong thời gian dài, các chuyên gia AI ở Trung Quốc thường áp dụng chiến lược tận dụng các giải pháp đã trưởng thành. Hiện nay, các doanh nghiệp AI trong nước bắt đầu thử nghiệm xây dựng con đường riêng của mình.

Xây đường trong hoang dã

Bạn nên làm thế nào để hoàn thành một nhiệm vụ khó khăn?

Câu trả lời của nhà văn khoa học viễn tưởng Arthur C. Clarke là: “Cách duy nhất là biến chính điều không thể thành điểm khởi đầu cho sự tiến bộ.”

DeepSeek V4 từ khi được lên kế hoạch ban đầu đến khi ra mắt chính thức đã được điều chỉnh thời gian nhiều lần. Cộng đồng bên ngoài thường suy đoán rằng một trong những lý do là cần di chuyển mã lõi ra khỏi CUDA của NVIDIA.

Sau hơn một thập kỷ hoàn thiện, hệ sinh thái CUDA đã trở thành một nền tảng phát triển mạnh mẽ và đầy đủ công cụ. Hệ sinh thái tính toán trong nước vẫn đang trong giai đoạn đầu xây dựng. Quá trình di chuyển mã nguồn có nghĩa là đội ngũ phát triển cần thực hiện nhiều công việc tái cấu trúc hạ tầng cơ bản.

Cuối cùng, DeepSeek đã thực hiện được điều đó: chỉ hai ngày sau khi ra mắt V4, JPMorgan trong báo cáo đã chỉ ra rằng V4 đã được tối ưu hóa thành công trên chip Ascend của Huawei, xác minh tính khả thi của năng lực tính toán trong nước trong các tác vụ AI suy luận tiên tiến; đồng thời, DeepSeek đã giảm đáng kể chi phí suy luận thông qua các đổi mới công nghệ nền tảng như kiến trúc chú ý hỗn hợp.

DeepSeek sử dụng cách tiếp cận của những tín đồ công nghệ để giảm chi phí và tăng hiệu quả, hoàn thành việc di chuyển cứng nhắc bằng cách viết lại một nửa khối lượng công việc của mô hình lớn. Cùng ngày,美团 LongCat-2.0-Preview được mở để thử nghiệm, chạy trực tiếp trên năng lực tính toán trong nước.

Trên khía cạnh kỹ thuật, những khó khăn nào tồn tại đối với năng lực tính toán trong nước? Hãy cùng xem ví dụ về LongCat-2.0-Preview.

Khó khăn đầu tiên là ở cấp độ vật lý. Dung lượng và băng thông bộ nhớ hiển thị của nền tảng phần cứng trong nước khác với chip NVIDIA; khi huấn luyện và triển khai mô hình có hàng nghìn tỷ tham số, đội ngũ Meituan đối mặt với nhiều thách thức về kỹ thuật, cần dành nhiều nỗ lực hơn để điều chỉnh chiến lược song song và tối ưu bộ nhớ hiển thị.

Khó khăn thứ hai là mức độ trưởng thành của hệ sinh thái phần mềm; để đảm bảo độ chính xác và khả năng tái tạo hoàn toàn trong suốt quá trình huấn luyện phù hợp với đặc tính của chip trong nước, nhóm cần viết lại và tối ưu hóa các toán tử cốt lõi, đồng thời tự phát triển các toán tử hoàn toàn xác định.

Khó khăn thứ ba là độ ổn định của cụm máy tính vạn card, trên cụm quy mô lớn với 50.000–60.000 card tính toán trong nước, sự cố phần cứng là điều khó tránh khỏi. Để giải quyết vấn đề này, đội ngũ đã xây dựng một hệ thống lỗi toàn diện và tự động phục hồi.

Cuối cùng, dựa trên đặc điểm của phần cứng trong nước, nhóm đã thực hiện thiết kế tối ưu hóa phù hợp với khung đào tạo và kiến trúc mô hình, phá vỡ giới hạn tương thích của các khung phổ thông và nâng cao hiệu suất tính toán.

Việc tối ưu hóa thuật toán của DeepSeek đã hạ thấp rào cản về sức mạnh tính toán và giảm giá thành mô hình; các thực tiễn kỹ thuật của Meituan đã chứng minh tính khả thi của chip trong nước. Những nỗ lực này cũng góp phần tích lũy năng lực và kinh nghiệm kỹ thuật cho hệ sinh thái chip trong nước.

Liang Wenheng từng nói: “Chúng tôi không cố ý trở thành một con cá trê, chỉ vô tình trở thành một con cá trê”, và giờ đây “hiệu ứng cá trê” đã xuất hiện, DeepSeek không đơn độc.

Từ điểm đơn đến hệ thống

Tang Dao-sheng của Tencent Cloud từng đưa ra một ẩn dụ như vậy: “Mô hình lớn là động cơ, người dùng là tài xế”. Người dùng dễ dàng chú ý đến hiệu suất của động cơ, nhưng những tài xế xuất sắc sẽ nhận ra rằng nhiên liệu và khung gầm cũng quan trọng không kém.

Sự phát triển của năng lực tính toán tại Trung Quốc dựa vào sự tiến bộ đồng bộ của toàn bộ chuỗi công nghiệp. Các doanh nghiệp cốt lõi ở từng khâu đều đang không ngừng lấp đầy những điểm yếu.

Ở khâu sản xuất, dữ liệu công khai cho thấy sản lượng chip của Trung Quốc không ngừng tăng lên, nhưng lại có cấu trúc dạng “quả tạ”, trong đó các quy trình trưởng thành trên 28nm chiếm ưu thế tuyệt đối, trong khi năng lực sản xuất các quy trình tiên tiến 14nm trở xuống vẫn còn khan hiếm.

Trước thực tế thiếu hụt máy quang khắc EUV, các doanh nghiệp như SMIC và Hua Hong Semiconductor đang thúc đẩy nghiên cứu các quy trình đa phơi để tìm điểm cân bằng trong giới hạn vật lý. Nhiều báo cáo cho thấy tỷ lệ thành công của quy trình N+2 (tương đương 7nm) của SMIC đã vượt quá 80%, nghĩa là đã vượt qua ngưỡng sản xuất thương mại.

Ở khía cạnh tính toán, các chip trong nước vẫn còn khoảng cách về hiệu năng trên mỗi card so với NVIDIA. Các thực tiễn của các sản phẩm như Huawei Ascend 910C cho thấy rằng, thông qua tỷ lệ tăng tốc tuyến tính cực đại trong cụm, việc huấn luyện các mô hình quy mô lớn cũng có thể được thực hiện.

“得生态者得天下”. Một trong những lý do quan trọng khiến hàng rào bảo vệ do NVIDIA CUDA xây dựng trở nên sâu rộng là đã hình thành tiêu chuẩn tương thích phần mềm-hardware phổ quát.

Các chuyên gia trong ngành cũng nhận thức được điều này. Ví dụ, Cambricon đã ra mắt nền tảng phần mềm cơ sở tương thích với các khung chính流, giảm rào cản chuyển đổi cho các nhà phát triển. Hệ thống mã nguồn mở do Viện Nghiên cứu Trí tuệ Nhân tạo Zhiyuan dẫn đầu đã xây dựng các giao diện nền tảng thống nhất, cho phép các mô hình cấp cao chạy trên nhiều loại chip nội địa khác nhau.

Các công ty công nghệ lớn trong nước cũng có nhiều động thái, chiến lược hai hướng của Baidu và khoản đầu tư hàng trăm tỷ của ByteDance đều đang tìm kiếm giải pháp tối ưu hơn cho nền tảng tính toán.

Theo dữ liệu công khai, trong vài năm qua, Meituan đã đầu tư vào ít nhất 21 công ty liên quan đến lĩnh vực bán dẫn/hardware thông minh và mô hình lớn phổ quát. Trong số đó, bao gồm cả các công ty thuộc tầng tính toán chip như Moore Threads và Muxi Semiconductor, cũng như các công ty trong lĩnh vực chip thị giác như Axin Yuanzhi; đồng thời cũng bao gồm nhiều doanh nghiệp khác trong các phân khúc chuyên biệt như vật liệu mới, chẳng hạn như Guangzhou Zhongshan và Dongfang Suanxin.

Trong khi tiếp tục theo dõi kỹ thuật, các vốn công nghiệp cũng đang đầu tư và đồng xây dựng năng lực tính toán, dần hình thành vòng lặp tích cực.

Từ thế giới số đến các nhiệm vụ thực tế

Hiện tại, trí tuệ nhân tạo đang ở điểm ngoặt quan trọng của làn sóng thứ ba, với các mô hình lớn đang thúc đẩy nó tiến từ trí tuệ nhân tạo yếu sang trí tuệ nhân tạo tổng quát, và quan trọng hơn cả, thúc đẩy robot chuyển từ thời kỳ robot chuyên dụng 1.0 sang thời kỳ trí tuệ thể chất tổng quát 2.0.

Lời của Vương Trung Viễn, Viện trưởng Viện Nghiên cứu Trí tuệ Nhân tạo Bắc Kinh, đã nhấn mạnh rằng điểm then chốt của khả năng AI là thế giới vật lý.

Một mặt, nhiều nhà sản xuất trong nước đang nỗ lực giúp các mô hình lớn trên đám mây “đọc vạn quyển sách”, nâng cao trí tuệ và tính chặt chẽ trong suy luận logic của mô hình. Mặt khác, cũng cần khiến các mô hình lớn “đi vạn dặm đường”, ví dụ như mô hình Văn Tâm đã được tích hợp vào hệ thống ra quyết định của xe tự lái; giải pháp kiểm tra chất lượng công nghiệp của mô hình Hỗn Viên đã xuất hiện trong nhiều bối cảnh dây chuyền sản xuất.

Các dịch vụ như giao đồ ăn, dịch vụ tại cửa hàng, lưu trú và du lịch của Meituan tạo thành mạng lưới thực thi nhiệm vụ phức tạp nhất trong cuộc sống hàng ngày. Tại đây có vô số tình huống thực tế: từ tốc độ nấu ăn ở nhà bếp của các cửa hàng, đến lộ trình giao hàng của nhân viên giao hàng trong cơn mưa lớn, cho đến một câu nói vào nửa đêm của người dùng: “Muốn ăn lẩu”.

Wang Xing đã rõ ràng nhấn mạnh rằng cần ưu tiên nâng cấp ứng dụng Meituan thành một “ứng dụng được hỗ trợ bởi AI”. Điều này có nghĩa là mục tiêu huấn luyện LongCat không chỉ dừng lại ở việc trả lời “cửa hàng nào có thịt xào ngon”, mà còn phải “tìm ra cửa hàng đó, chọn mã giảm giá tốt nhất, sau đó đặt chỗ cho 2 người vào lúc 7 giờ tối thứ Sáu”.

Điều này có nghĩa là hiệu quả của việc giao nhiệm vụ đặc biệt quan trọng, đồng thời cũng giải thích lý do tại sao Meituan nhấn mạnh việc xây dựng nền tảng AI cho thế giới vật lý.

Từ việc nâng cao tham số đến triển khai sức mạnh tính toán, các mô hình lớn trong nước đang tiến bộ từ “dùng được” sang “dùng tốt”.

Con đường này không có lối tắt. Trong tương lai, khi thuật toán, sức mạnh tính toán, vốn và bối cảnh tiếp tục tạo ra phản ứng hóa học, câu chuyện về AI Trung Quốc sẽ chuyển từ trang “đột phá điểm đơn” sang trang “tiến hóa hệ thống”.

Bài viết này đến từ tài khoản chính thức WeChat “Lan Dong Thương Nghiệp”, tác giả: Vu Vĩ Lâm