Chiến lược của DeepSeek: Xây dựng hệ sinh thái phần cứng AI trị giá 10 nghìn tỷ USD

Chiến lược 10 nghìn tỷ USD của DeepSeek

Tác giả gốc: @bookwormengr

Biên dịch gốc: Peggy, BlockBeats

Biên tập viên: Trong năm qua, các cuộc thảo luận xung quanh DeepSeek chủ yếu tập trung vào hiệu suất mô hình, chiến lược mã nguồn mở và cuộc chiến giá cả. Nhưng nếu chỉ hiểu DeepSeek qua các khía cạnh như “có bán đăng ký không”, “có đa phương tiện không”, “có thể làm agent mã hóa không”, thì có thể đã đánh giá thấp những điều nó thực sự muốn thay đổi.

Bài viết này đưa ra một nhận định táo bạo hơn: Mục tiêu của DeepSeek không nhất thiết là kiếm lợi nhuận ngắn hạn thông qua tầng ứng dụng, mà là thông qua một loạt đổi mới kiến trúc nền tảng, tái cấu trúc chi phí trong đào tạo và suy luận AI, và gián tiếp thúc đẩy sự hình thành một hệ sinh thái phần cứng mới. Từ MoE, MLA đến DSA, CSA, mHC, Engram, rồi đến Dual Path và TileLang, con đường công nghệ của DeepSeek luôn xoay quanh một câu hỏi cốt lõi: Trong bối cảnh HBM, quy trình tiên tiến, đóng gói và hệ sinh thái CUDA đều bị hạn chế, làm thế nào để chạy được các mô hình mạnh hơn bằng ít tài nguyên tính toán cao cấp hơn?

Điều đáng quan tâm nhất trong bài viết không phải là “DeepSeek có thể kiếm được vài tỷ đô la thông qua API hoặc đăng ký không”, mà là liệu nó có đang liên kết khả năng mô hình, hệ thống bộ nhớ và hệ sinh thái phần cứng trong nước lại với nhau không. Việc nén KV Cache làm giảm sự phụ thuộc vào HBM, NAND và SSD có thể đảm nhận bộ nhớ đệm dài hạn, LPDDR có thể dùng để tải trọng số theo luồng và lưu trữ Engram, trong khi TileLang cố gắng làm suy yếu hàng rào bảo vệ CUDA. Nếu những sáng tạo này tiếp tục lan rộng, người hưởng lợi không chỉ là DeepSeek mà còn bao gồm cả các lĩnh vực lưu trữ, ASIC, GPU, chip mạng và toàn bộ chuỗi cơ sở hạ tầng AI.

Tất nhiên, các phán đoán trong bài viết về "hệ sinh thái ngành công nghiệp 10 nghìn tỷ USD" và "định giá 1 nghìn tỷ USD" vẫn mang tính suy diễn mạnh mẽ. Nhưng nó cung cấp một con đường quan trọng để hiểu DeepSeek: mã nguồn mở không nhất thiết có nghĩa là từ bỏ thương mại hóa, và giá thấp không nhất thiết chỉ là trợ cấp thị trường. Đối với DeepSeek, kinh doanh thực sự có thể không nằm ở tầng ứng dụng, mà nằm ở việc giúp nhiều phần cứng hơn trở nên khả dụng, tạo điều kiện cho nguồn cung AI chi phí thấp hơn. Nói cách khác, sản phẩm họ bán có thể không phải là mô hình chính nó, mà là tính khả thi của cơ sở hạ tầng AI thế hệ tiếp theo.

The following is the original text:

Bạn đã bao giờ tự hỏi DeepSeek sẽ kiếm tiền như thế nào, và có thể kiếm rất nhiều tiền?

Nó chưa đưa ra các gói đăng ký lập trình cạnh tranh như GLM, MoonShot và MiniMax; cũng không có các mô hình đa mô态, âm thanh và video. Cho đến nay, nó thậm chí còn chưa có riêng mình hệ thống harness — tức là khung chạy bên ngoài dùng để gọi mô hình, tích hợp công cụ và thực hiện nhiệm vụ — mặc dù gần đây họ đã bắt đầu tuyển dụng các vị trí liên quan để xây dựng hệ thống này.

Đồng thời, DeepSeek dường như vẫn kiên định ủng hộ mã nguồn mở, thậm chí sẵn sàng chia sẻ công khai những “bí quyết” của mình. Điều này chẳng phải điên rồ sao? Chẳng phải đang lãng phí tiền bạc sao? Những nhà đầu tư đang chuẩn bị đầu tư 10 tỷ USD vào nó, chẳng phải đang ném tiền xuống cống sao?

Tôi cá nhân cho rằng, câu trả lời ngược lại mới đúng.

Tiếp theo, tôi sẽ đưa ra một số quan sát dựa trên những gì DeepSeek đã thực hiện cho đến nay, đồng thời phân tích chiến lược dường như đang được họ theo đuổi. Mục tiêu của CEO DeepSeek, Lương Văn Phong, có thể vượt xa cuộc cạnh tranh mô hình hiện tại. Ông có thể đang nhắm đến một phần thưởng lớn hơn nhiều: DeepSeek có cơ hội đạt định giá 1 nghìn tỷ USD, đồng thời thúc đẩy sự hình thành của một ngành công nghiệp mới có quy mô lên tới 10 nghìn tỷ USD.

TechInAsia về vòng huy động vốn mới nhất của DeepSeek

Khám phá lại "Hành trình anh hùng" của DeepSeek

DeepSeek đã luôn đi ngược chiều gió. Thay vì liên tục ra mắt các mô hình mạnh hơn một chút rồi vội vàng đóng gói chúng thành các ứng dụng có thể kiếm tiền trực tiếp, chẳng hạn như gói đăng ký lập trình, DeepSeek đã chọn con đường khác. Vào ngày 27 tháng 1 năm 2025, tôi từng đăng một bài tweet được lan truyền rộng rãi về “hành trình anh hùng” của DeepSeek theo cách tôi nhìn nhận. Bây giờ, câu chuyện này trở nên thú vị hơn bao giờ hết.

Trong khi những người khác vẫn đang cố gắng xây dựng các mô hình dày đặc, DeepSeek đã chọn mô hình hỗn hợp chuyên gia (Mixture of Experts, MoE) khó huấn luyện hơn.

Họ đã áp dụng phương pháp "nguyên lý cơ bản" để phát minh ra thuật toán GRPO mới, thay thế thuật toán học tăng cường PPO phổ biến lúc bấy giờ nhưng có chi phí triển khai cao hơn.

Họ phát hiện rằng học tăng cường dựa trên phần thưởng có thể xác minh (Reinforcement Learning from Verified Rewards, RLVR) là chiến lược then chốt để nâng cao khả năng suy luận của mô hình.

Họ cũng đề xuất một chiến lược suy diễn đơn giản thông qua “Dự đoán đa token” (Multi Token Prediction), đồng thời làm cho tín hiệu huấn luyện trở nên dày đặc hơn.

Họ đã hoàn thiện quy trình "ZERO bubble" để nâng cao hiệu quả sử dụng nguồn GPU hạn chế.

Họ đã ra mắt bộ cân bằng tải chuyên gia, giúp mọi người dễ dàng triển khai các mô hình MoE. Đặc biệt, thông qua chiến lược “Wide Expert Parallel”, mô hình có thể phục vụ với batch lớn hơn, từ đó giảm đáng kể chi phí suy luận.

Họ đã phát minh ra các cơ chế như MLA, DSA, CSA, HCA để giảm nhu cầu về KV Cache và giữ cho nhu cầu tính toán tăng theo độ dài ngữ cảnh ở mức gần như không đổi.

Họ đã phát minh ra Engram, đổi bộ nhớ lấy hiệu suất tính toán.

Họ còn phát minh ra mHC, giúp duy trì việc huấn luyện ổn định khi mở rộng quy mô mô hình. Còn rất nhiều ví dụ tương tự.

Trong cấu trúc kể chuyện phổ biến nhất — “Hành trình của người anh hùng”, người anh hùng không bao giờ bắt đầu hành trình với việc xác định rõ đích đến của nó. Anh ta dần phát hiện ra sứ mệnh vĩ đại thực sự của mình thông qua quá trình học hỏi, và hoàn thành nó giữa muôn vàn trở ngại. Anh ta sẽ gặp nhiều người nghi ngờ, nhưng chọn bỏ qua họ. Anh ta cũng sẽ gặp nhiều kẻ có hành động ác ý. Anh ta có những khiếm khuyết hoặc điểm yếu rõ rệt, nhưng cuối cùng sẽ vượt qua những vấn đề này để hoàn thành sứ mệnh của mình. Anh ta đối mặt với những thách thức dường như không thể vượt qua, nhưng tìm được cách liên minh và học cách sử dụng thông minh những nguồn lực hạn chế và quý giá. Chính điều này khiến khán giả sẵn sàng cổ vũ cho người anh hùng. Cũng chính điều này khiến DeepSeek giành được những người theo dõi, sự tôn trọng toàn cầu và cả những kẻ phản đối.

Như tôi sẽ giải thích chi tiết ở phần sau, DeepSeek đã đi một chặng đường dài trên con đường này và dần nhận ra số phận cuối cùng của mình: mục tiêu của nó không phải là bán các gói đăng ký lập trình, mà là thúc đẩy hệ sinh thái phần cứng AI Trung Quốc trị giá 10 nghìn tỷ USD và đạt định giá 1 nghìn tỷ USD. Trong quá trình này, nó cũng sẽ tạo ra cơ hội cho nhiều người tham gia mới trong hệ sinh thái phần cứng phương Tây.

Hãy bắt đầu với một số phép tính KV Cache thú vị

Hãy xem tweet gần đây rất kịp thời của @SemiAnalysis_:

DeepSeek đã giải quyết vấn đề này tốt hơn bất kỳ ai khác!

Hãy cùng thực hiện một vài phép tính thú vị về KV Cache. Đừng lo, ngay cả khi bạn không thích toán học cũng không sao. Chúng ta sẽ sử dụng máy tính KV Cache vừa được phát hành để xem DeepSeek V4 Pro mang lại bao nhiêu tiết kiệm KV Cache và so sánh nó với các mô hình GLM và Qwen mới nhất.

Tôi đang tính toán với độ dài ngữ cảnh 1 triệu, giả sử độ chính xác của KV là 8 bit và độ chính xác của bộ chỉ mục là 16 bit. Bạn cũng có thể tự mở công cụ tính toán này để thử: https://kvcache.ai/tools/kv-cache-calculator/

Bạn cũng có thể tự mở máy tính để thử!

Với độ dài ngữ cảnh 1 triệu:

·DeepSeek V4 chỉ cần 5.48GB HBM;

·GLM-5 yêu cầu 60GB HBM;

·Qwen3-235B-A22B yêu cầu lên đến 89GB HBM.

Lưu ý rằng:

·DeepSeek là một mô hình 1,6 nghìn tỷ tham số;

·GLM-5 có khoảng 700 tỷ tham số và đã áp dụng MLA và DSA của DeepSeek, nhưng vẫn chưa sử dụng cơ chế nén chú ý mới nhất;

·Qwen3-235B-A22B có khoảng 235 tỷ tham số và sử dụng cơ chế chú ý GQA.

DeepSeek đã đóng góp nền tảng trong việc giảm áp lực bộ nhớ. Nếu những sáng tạo loại này được áp dụng rộng rãi, chi phí vận hành các Agent chu kỳ dài sẽ giảm đáng kể và mở ra loạt ứng dụng mới tiếp theo.

So sánh dung lượng KV Cache khi sử dụng 1 triệu token ngữ cảnh và các quy mô mô hình khác nhau

Phương pháp luận đằng sau "điên rồ"

KV Cache có thể đạt kích thước nhỏ như vậy mà không làm giảm chất lượng mô hình, chính là lý do DeepSeek có thể cung cấp bộ nhớ đệm thời gian dài với giá cực kỳ thấp—giá này thậm chí dưới 3% so với giá truy cập bộ nhớ đệm của Sonnet 4.6, và DeepSeek có thể giữ bộ nhớ đệm trong vài giờ.

Đối với các tác vụ chu kỳ dài, KV Cache nhỏ hơn có nghĩa là có thể gỡ bỏ chúng ra SSD một cách kinh tế hơn và nạp lại khi cần thiết, từ đó giảm sự phụ thuộc vào HBM. Về góc độ ngành công nghiệp phần cứng AI của Trung Quốc, HBM không chỉ khan hiếm nguồn cung mà còn là một trong những loại bộ nhớ khó sản xuất nhất.

Ngoài ra, DeepSeek còn phát triển công nghệ tải KV Cache nhanh hơn từ SSD, điều này đã được mô tả trong bài báo Dual Path.

DeepSeek V4 nén KV Cache với mức độ rất lớn, đến nỗi bước này thậm chí có thể không còn cần thiết.

Vậy, người hưởng lợi trực tiếp nhất từ việc nén KV Cache là ai?

Ai đang cung cấp SSD với quy mô lớn? Đừng quên rằng YMTC (Yangtze Memory Technologies) đang trở thành một ông lớn trong lĩnh vực 3D NAND. NAND có thể giúp DeepSeek tránh tính toán lặp lại KV. Ngược lại, DeepSeek cũng tạo ra một thị trường khổng lồ cho NAND và SSD—điều này không chỉ mang lại lợi ích cho Yangtze Memory Technologies mà còn giúp các nhà sản xuất liên quan khác.

Tuy nhiên, điều này không chỉ liên quan đến NAND và SSD.

Bộ nhớ LPDDR cũng có tiềm năng lớn. Nó có thể được sử dụng để lưu trữ trọng số mô hình và truyền các trọng số này vào HBM khi cần thiết, giúp giảm áp lực lên HBM. Đội ngũ SGLang từng đăng một bài blog rất hay giới thiệu về giải pháp này. Hình dưới đây minh họa cách thức hoạt động của phương án này.

Mặc dù DeepSeek không thiết kế đặc biệt cho giải pháp này, nhưng kiến trúc MoE, số lượng lớn mô hình chuyên gia và đặc điểm trọng số 4 bit của nó đều giúp giải pháp này dễ dàng triển khai hơn.

Hình minh họa này cho thấy bộ nhớ có thể được sử dụng như thế nào và các trọng số mô hình được truyền liên tục từ LPDDR sang HBM. Chúng tôi rất khuyến nghị bạn đọc bài blog của SGLang.

Nếu được kết hợp với KV Cache cực kỳ nhỏ gọn và không mất dữ liệu, sáng tạo này sẽ giảm đáng kể nhu cầu về HBM.

Vậy thì, ai ở Trung Quốc đang sản xuất LPDDR? Câu trả lời là CXMT, tức là ChangXin Memory Technologies. Họ chỉ chậm khoảng một nửa thế hệ về tốc độ LPDDR và một thế hệ về mật độ, khoảng cách không quá lớn.

Ngoài việc có đủ NAND, hệ sinh thái AI của Trung Quốc trong tương lai gần cũng sẽ có nguồn cung LPDDR dồi dào. Điều này có thể giảm áp lực tính toán không? Câu trả lời là: Có. Tiếp tục theo dõi.

Sử dụng bộ nhớ thông minh cũng có thể giảm tải cho GPU / ASIC

Việc sử dụng NAND để lưu trữ KV Cache rất dễ hiểu: nó giúp KV Cache được giữ lâu hơn, giảm áp lực lên HBM, đồng thời tránh tính toán lặp lại KV Cache, từ đó giảm tải cho GPU và ASIC.

Vậy thì LPDDR có thể đóng vai trò tương tự không? Ngoài việc đóng vai trò là vị trí lưu trữ để truyền trọng số “theo yêu cầu tức thì” đến HBM, nó có thể giảm thêm áp lực tính toán không?

Câu trả lời là: Có.

LPDDR có thể được sử dụng để lưu trữ một lượng lớn nội dung được gọi là Engram. Trong bài báo Engram của DeepSeek, họ chỉ ra rằng MoE có thể mở rộng dung lượng mô hình thông qua tính toán có điều kiện, nhưng Transformer bản thân lại thiếu một cơ chế tìm kiếm kiến thức bản địa. Do đó, Transformer thường phải sử dụng tính toán để mô phỏng không hiệu quả quá trình truy vấn.

Để giải quyết vấn đề này, DeepSeek đã đề xuất mô-đun Engram. Nó hiện đại hóa việc nhúng N-gram cổ điển thành một cơ chế tìm kiếm O(1) dựa trên băm, từ đó tạo ra một con đường thưa hóa bổ sung mà họ gọi là bộ nhớ điều kiện (conditional memory).

Cách này có thể tiết kiệm tính toán, nhưng cần bộ nhớ để lưu bảng embedding, và bảng này có thể rất lớn.

Về bản chất, đây là một giải pháp điển hình của kiểu “đổi bộ nhớ lấy tính toán”. Nhưng điểm nhìn then chốt của nó là: xét về chi phí truy xuất mỗi bit dữ liệu, phía “bộ nhớ” rẻ hơn nhiều — một lần tìm kiếm LPDDR rẻ hơn nhiều so với việc cho dữ liệu đi qua nhiều lớp Transformer để thực hiện một lần tính toán thuận. Do đó, trong các quy mô lớn, đây là một giao dịch rất lợi thế.

Đây là cách DeepSeek đánh đổi một phần bộ nhớ để tiết kiệm tính toán.

Sự đánh đổi đáng để thực hiện

Do không có mật độ transistor chip tương đương và không có EUV, GPU và ASIC của Trung Quốc rất có thể sẽ bị tụt hậu lâu dài so với GPU phương Tây về khả năng FLOPs nguyên bản. Chúng cũng vẫn còn khoảng cách rõ rệt trong lĩnh vực đóng gói tiên tiến. Do đó, việc đánh đổi này rất đáng để thực hiện, đặc biệt khi Trung Quốc có thể sản xuất hàng loạt bộ nhớ NAND và LPDDR.

回顾 DeepSeek 的长期战略

Từ những sáng tạo này, có vẻ như mục tiêu của DeepSeek không phải là kiếm vài tỷ đô la lợi nhuận ngay bây giờ. Nhiều lựa chọn mà nó đã thực hiện trong quá khứ đã chứng minh điều này: đến nay vẫn chưa có mô hình đa phương thức, chưa có mô hình âm thanh, càng không nói đến mô hình video.

Nó thực sự tham gia vào một trò chơi dài hạn, đòi hỏi sự kiên nhẫn, với quy mô có thể lên đến 10 nghìn tỷ đô la: thúc đẩy sự hình thành một hệ sinh thái phần cứng AI thay thế.

Điều này không chỉ nhằm giúp các nhà sản xuất bộ nhớ Trung Quốc trở thành người chơi then chốt trên thị trường phần cứng AI trong nước cũng như toàn cầu, mà còn nhằm giảm thiểu cơ bản nhu cầu tài nguyên, giúp việc huấn luyện và cung cấp dịch vụ mô hình AI trở nên hiệu quả về chi phí hơn. Nhờ đó, nhiều nhà sản xuất GPU, ASIC và chip mạng đều có cơ hội trở thành các lựa chọn khả thi.

Meanwhile, these innovations will also benefit the Western open-source ecosystem and the new generation of hardware manufacturers.

Tất cả các dấu hiệu thực tế đều đã xuất hiện. Chúng ta hãy cùng điểm lại chi tiết những sáng tạo mà DeepSeek đã đưa ra cho đến nay:

1. Mô hình hỗn hợp chuyên gia (MoE) và MLA được giới thiệu trong DeepSeek V2

DeepSeek đã giới thiệu MoE và MLA trong V2. MoE giúp giảm khoảng 40% đến 50% lượng tính toán cần thiết để huấn luyện các mô hình trí tuệ cao; MLA làm giảm KV Cache đi 90%.

Điều này làm cho việc chuyển KV Cache sang SSD trở nên khá hiệu quả.

Những ý tưởng này lần đầu tiên xuất hiện trong bài báo của DeepSeek công bố vào tháng 5 năm 2024 về DeepSeek V2. Sau đó, chúng cũng trở thành nền tảng cho việc huấn luyện DeepSeek V3. Lúc đó, DeepSeek chỉ sử dụng 2048 GPU H800 với hiệu năng bị giảm nhẹ để huấn luyện một hệ thống có hiệu suất gần ngang với các mô hình đóng cửa.

2. DSA: Được giới thiệu trong DeepSeek V3.2 Exp, nhằm giảm chi phí tính toán trong các kịch bản ngữ cảnh dài và làm giảm áp lực băng thông HBM.

Vai trò cốt lõi của DSA là đảm bảo khối lượng tính toán không tiếp tục tăng theo độ dài ngữ cảnh. Hãy xem biểu đồ dưới đây: khi độ dài ngữ cảnh tăng, thời gian xử lý của DeepSeek-V3.2 cơ bản duy trì ổn định.

3. mHC: Được đề xuất bởi DeepSeek trong bài báo năm 2025 có tên “mHC: Manifold-Constrained Hyper-Connections”.

mHC là một sáng tạo của DeepSeek ở cấp độ kiến trúc tổng thể, tái thiết kế cách thức lưu chuyển thông tin giữa các lớp Transformer.

Trước đây, kể từ ResNet, các mô hình thường sử dụng kết nối残差 tiêu chuẩn, tức là x + F(x). Cách tiếp cận của mHC là mở rộng luồng残差 thành nhiều kênh thông tin song song và cho phép mô hình thực hiện sự pha trộn có thể học được giữa các kênh này. Điểm then chốt là nó ràng buộc ma trận pha trộn thành ma trận song ngẫu nhiên, tức là giới hạn nó trên đa diện Birkhoff thông qua phép chiếu Sinkhorn-Knopp. Nhờ đó, về mặt toán học, bất kể mô hình được xếp chồng sâu đến đâu, biên độ tín hiệu vẫn được duy trì ổn định.

Điều này giải quyết vấn đề bất ổn nghiêm trọng mà các Hyper-Connections không bị ràng buộc từng gặp phải. Hyper-Connections ban đầu được Bytedance đề xuất, nhưng không có ràng buộc, khuếch đại tín hiệu tăng lên 3000 lần ở quy mô 27 tỷ tham số, dẫn đến việc đào tạo hoàn toàn sụp đổ.

Chi phí tính toán của mHC rất thấp: nó chỉ gây ra chi phí thời gian đào tạo thực tế khoảng 6,7%, vì nó không thay đổi FLOPs của các lớp chú ý hay lớp FFN, mà chỉ thay đổi cách định tuyến đầu ra của các lớp này giữa các lớp.

Tuy nhiên, sự cải thiện hiệu suất mang lại khá rõ rệt: ở quy mô 27 tỷ tham số, mHC tăng 7.2 điểm trên nhiệm vụ suy luận BIG-Bench Hard, tăng 3.2 điểm trên DROP, tăng 2.8 điểm trên nhiệm vụ toán học GSM8K và tăng 1.4 điểm trên nhiệm vụ kiến thức tổng quát MMLU. Những cải thiện này đều được thực hiện trên cùng quy mô mô hình và ngân sách tính toán gần như tương đương.

Về bản chất, mHC đạt được trí tuệ đơn vị tham số cao hơn bằng cách cung cấp một kiến trúc định tuyến thông tin liên lớp phong phú và biểu đạt hơn cho mạng, với sự gia tăng gần như không đáng kể về FLOPs.

mHC là một thiết kế kiến trúc phức tạp, nhưng nó mang lại quá trình huấn luyện ổn định hơn và trí tuệ cao hơn trên mỗi tham số.

4, CSA, HSA: DeepSeek đã được giới thiệu trong V4 vào tháng 4 năm 2026.

Mục tiêu của CSA và HSA là giảm thêm 90% nhu cầu KV Cache bằng cách nén KV Token, đồng thời giảm đáng kể số FLOPs cần thiết, từ đó cùng lúc giảm áp lực lên HBM cũng như GPU/ASIC.

5. Engram: Được giới thiệu bởi DeepSeek vào quý đầu tiên năm 2026, về bản chất là đổi hiệu suất tính toán lấy bộ nhớ, tức là bộ nhớ LPDDR.

Như biểu đồ chi tiết bên dưới cho thấy, Engram mang lại sự cải thiện đáng kể về hiệu suất với cùng ngân sách tham số tổng thể.

6. Engram: Được giới thiệu bởi DeepSeek vào quý đầu tiên năm 2026, về bản chất là đổi hiệu suất tính toán lấy bộ nhớ, tức là bộ nhớ LPDDR.

Như biểu đồ chi tiết bên dưới cho thấy, Engram mang lại sự cải thiện đáng kể về hiệu suất với cùng ngân sách tham số tổng thể.

Đây là lời khuyên mà DeepSeek chia sẻ với các nhà sản xuất phần cứng trong bài báo V4. Tôi rất chắc chắn rằng, trong các cuộc trao đổi trực tiếp, họ đã đưa ra nhiều phản hồi hơn nữa.

7. Việc đầu tư vào TileLang cũng chỉ ra cùng một hướng: DeepSeek không chỉ đang giải quyết vấn đề về năng lực tính toán của chính mình, mà còn đang thúc đẩy hệ sinh thái phần cứng Trung Quốc có khả năng cạnh tranh với hệ sinh thái phương Tây.

Với TileLang, các nhà phát triển chỉ cần viết một lần kernel — mã nền tảng dùng để tính toán — rồi chạy nó thành công trên nhiều nền tảng phần cứng, miễn là các nền tảng đó đã có hỗ trợ backend TileLang tương ứng.

Tôi dự kiến các phòng thí nghiệm AI Trung Quốc khác cũng sẽ lần lượt tham gia. Điều này sẽ giúp các nhà sản xuất phần cứng Trung Quốc ứng phó một cách gián tiếp với “hào sâu CUDA” được cho là tồn tại. Đồng thời, nó cũng sẽ khai thác tiềm năng lớn hơn của các thiết bị phương Tây, chẳng hạn như AMD.

Cần lưu ý rằng, nhiều nền tảng phần cứng AI của Trung Quốc đã cung cấp khả năng tương thích CUDA hoặc lớp dịch CUDA. Ví dụ: Moore Threads, Musen, BiRen và TianShu Zhixin đều là các nhà sản xuất chip Trung Quốc đạt mức độ tương thích CUDA cao thông qua lớp dịch. Do đó, về mặt lý thuyết, chúng không nhất thiết cần TileLang.

Học tăng cường quy mô lớn và RSI

Khi DeepSeek có thêm nhiều nguồn tính toán, tức là có nhiều phần cứng lựa chọn hơn, đồng thời nhu cầu về tài nguyên tính toán của chính mô hình giảm xuống, nó có thể thúc đẩy các dự án huấn luyện đầy tham vọng hơn, đặc biệt là huấn luyện sau bằng học tăng cường.

Củng cố học tập cần tạo ra một lượng lớn quỹ đạo, tức là tạo ra hàng nghìn tỷ token. Quá trình này sẽ nhanh chóng trở nên cực kỳ đắt đỏ. Hơn nữa, nếu muốn huấn luyện mô hình với độ dài ngữ cảnh 1 triệu, cần tạo ra các quỹ đạo có độ dài tương đương. Chỉ khi huấn luyện mô hình trên các quỹ đạo siêu dài này, mới thực sự hỗ trợ được các nhiệm vụ chu kỳ dài.

Ngoài ra, do sự gia tăng các tùy chọn phần cứng, DeepSeek sẽ có thể truy cập nhiều tài nguyên phần cứng hơn, điều này sẽ thúc đẩy nghiên cứu tự động hóa, hay còn gọi là RSI. RSI đề cập đến việc AI tự thiết kế và thực hiện các thí nghiệm. Phương pháp này sẽ liên quan đến rất nhiều thử và sai, và chi phí sẽ tăng nhanh chóng. Tuy nhiên, RSI là vô cùng quan trọng để khám phá toàn bộ không gian thiết kế mô hình. Trước khi tiến tới AGI, và sau đó là ASI, DeepSeek phải sở hữu khả năng RSI.

Những gì DeepSeek làm hôm nay, cả ngành công nghiệp sẽ theo đuổi ngày mai

Các sáng tạo của DeepSeek xung quanh các hướng như mô hình hỗn hợp chuyên gia, MLA, DSA đã được các phòng thí nghiệm AI trên toàn cầu và tại Trung Quốc lần lượt áp dụng.

Ví dụ, ZAI – nhà phát triển chuỗi mô hình GLM – đã sử dụng MLA và DSA. Kimi, hay còn gọi là Moonshot, cũng áp dụng MLA và công khai thừa nhận kiến trúc của nó được thiết kế dựa trên kiến trúc của DeepSeek. Ngược lại, DeepSeek cũng sử dụng bộ tối ưu Muon, mà Muon ban đầu được Kimi (Moonshot) áp dụng trong các đợt huấn luyện quy mô lớn.

Cần lưu ý rằng:

MoE lần đầu tiên được Google đề xuất vào năm 2017, với tác giả chính là Noam Shazeer. Đóng góp của DeepSeek nằm ở việc áp dụng MoE quy mô lớn và phát minh ra các kỹ thuật đi kèm riêng của họ.

Muon, tức là Optimizer MomentUm Orthogonalized by Newton-Schulz, được nhà nghiên cứu học máy Keller Jordan đề xuất vào cuối năm 2024. Nhóm Kimi (Moonshot) là nhóm đầu tiên áp dụng nó vào đào tạo quy mô lớn.

Vậy vấn đề kiếm tiền thì sao?

Chúng ta có thể xem xét ví dụ thú vị về OpenAI.

OpenAI đã nhận được các quyền chọn mua cổ phiếu của AMD và Cerebras với giá thấp hơn, những quyền này được gắn với các cột mốc tiêu thụ năng lực tính toán. Đối với AMD và Cerebras, đây là một giao dịch rất có lợi thế, vì một khi OpenAI cam kết sử dụng phần cứng của họ, khả năng thành công lâu dài của họ sẽ tăng lên đáng kể.

Trong thông báo của AMD có một đoạn như sau:

Là một phần của thỏa thuận, để tăng cường thêm lợi ích chiến lược của hai bên, AMD đã phát hành chứng quyền cho OpenAI, cho phép mua tối đa 160 triệu cổ phiếu phổ thông của AMD, và các chứng quyền này sẽ dần được sở hữu dựa trên việc đạt được các mốc quan trọng cụ thể. Lô đầu tiên sẽ được sở hữu khi hoàn thành việc triển khai ban đầu 1 gigawatt, các lô tiếp theo sẽ được sở hữu dần khi quy mô mua sắm tăng lên 6 gigawatt. Điều kiện sở hữu còn liên quan đến việc AMD đạt được các mục tiêu giá cổ phiếu cụ thể, cũng như OpenAI đạt được các mốc kỹ thuật và thương mại cần thiết để AMD triển khai quy mô lớn.

Tôi dự kiến DeepSeek cũng sẽ đạt được các thỏa thuận tương tự với nhiều nhà sản xuất Trung Quốc về bộ nhớ, ASIC, CPU và hạ tầng mạng, đồng thời hợp tác sâu rộng để đảm bảo phần cứng của các nhà sản xuất này có thể xử lý được các tải công việc AI hàng đầu.

Với tổng vốn hóa thị trường của tất cả các cổ phiếu AI ở phương Tây, bao gồm cả các đồng minh Đông Á, đã vượt xa 10 nghìn tỷ USD, cách tiếp cận “nhận cổ tức thông qua hợp tác” này sẽ giúp DeepSeek có cơ hội hỗ trợ Trung Quốc xây dựng một ngành công nghiệp lớn tương tự và giành lấy phần mình trong đó, cuối cùng đạt được định giá 1 nghìn tỷ USD.

Điều này không chỉ giúp DeepSeek kiếm được nhiều tiền hơn hẳn từ mô hình đăng ký ứng dụng truyền thống, mà còn thực hiện được mục tiêu mà họ tuyên bố là “làm cho AGI trở nên hữu ích cho mọi người”. Liang Wenheng là người hâm mộ trung thành của Jim Simons và là một nhà đầu tư đủ thông minh, anh ấy không thể bỏ lỡ điểm này.

Nếu bạn quay lại xem những gì DeepSeek đã làm cho đến nay, thì chỉ có một cách giải thích duy nhất là hợp lý nhất.

Đây là các cổ phiếu AI then chốt. Các nhà cung cấp đám mây quy mô lớn (hyperscalers) và nhiều công ty liên quan khác chưa được bao gồm trong biểu đồ.

Original link