Tác giả: Ada, Shenchao TechFlow
San Francisco, Trung tâm Hội nghị San Jose, sự kiện GTC trực tiếp.
Nhà khoa học trưởng của NVIDIA, Bill Dally, ngồi trên sân khấu đối diện với Jeff Dean của Google. Khi đang nói chuyện, Dally đưa ra một con số: “Trước đây, việc di chuyển một thư viện tế bào tiêu chuẩn gồm khoảng 2.500 đến 3.000 tế bào đòi hỏi một nhóm gồm 8 kỹ sư làm việc trong khoảng 10 tháng.”
Anh ấy dừng lại một chút.
Bây giờ chỉ cần một card GPU, chạy một đêm là xong.
Dưới khán đài không có tiếng thốt lên, vì những người hiểu câu này đều biết nó hàm ý gì. Tám kỹ sư làm việc trong 10 tháng đã bị một con GPU tự sản xuất xóa sạch trong một đêm. Và Dally còn bổ sung: kết quả đạt được về diện tích, công suất và độ trễ đều khớp hoặc vượt quá thiết kế của con người.
Ngay ngày hôm sau, tin tức đã được giải thích là "NVIDIA sử dụng AI để thiết kế GPU".
Nhưng sự thật đằng sau chuyện này còn đáng để khám phá hơn nhiều so với tiêu đề tin tức.
NVIDIA đang chạy gì bên trong?
Những gì NVIDIA chạy bên trong cũng không phải là hộp đen, mà là vài bộ công cụ đã được tinh chỉnh trong nhiều năm.
NB-Cell là một chương trình dựa trên học tăng cường, được thiết kế đặc biệt để xử lý công việc khó khăn nhất là chuyển đổi thư viện ô tiêu chuẩn. Prefix RL nhằm giải quyết vấn đề nghiên cứu lâu dài về việc bố trí giai đoạn nhìn trước trong chuỗi nhìn trước carry. Dally cho biết, các bố trí do hệ thống này tạo ra “là những gì con người sẽ không bao giờ nghĩ đến”, và cải thiện các chỉ số then chốt khoảng 20% đến 30% so với thiết kế của con người.
Hai mô hình LLM nội bộ khác là Chip Nemo và Bug Nemo. NVIDIA đã cung cấp cho hai mô hình lớn này toàn bộ mã RTL, tài liệu kiến trúc và thông số thiết kế của mọi con GPU trong lịch sử. Theo mô tả của Dally, điều này tương đương với việc cô đọng kinh nghiệm hai mươi năm từ G80 đến Blackwell của NVIDIA vào một mô hình nội bộ, giúp nhân viên mới ngay lập tức được kết nối với trình độ của một kỹ sư kỳ cựu có hai mươi năm kinh nghiệm.
Vậy thì “AI có thể thiết kế GPU” chưa?
On the contrary. Dally's exact words were: "I very much hope that one day I can directly say, 'Design me a new GPU,' but we are still far from that step."
NVIDIA không dùng AI để thiết kế GPU. Nhưng điều mà nó làm được khác lại khiến cả ngành công nghiệp không thể hoạt động mà không có nó trong tương lai.
Mua 2 tỷ USD vào vùng hậu phương của EDA
Vào ngày 1 tháng 12 năm 2025, NVIDIA đầu tư 2 tỷ USD vào Synopsys, một trong ba công ty hàng đầu trong lĩnh vực EDA. Hai bên đã ký thỏa thuận hợp tác phát triển, tích hợp stack tính toán tăng tốc của NVIDIA vào toàn bộ quy trình làm việc EDA của Synopsys, đồng thời tích hợp sâu Blackwell và GPU Rubin thế hệ tiếp theo với Synopsys.ai.
Cần giải thích vị thế của Synopsys. Hầu hết mọi chip tiến tiến trên toàn cầu, như loạt chip Apple M, AMD MI, Google TPU, đều chạy trên công cụ của Synopsys hoặc Cadence trong giai đoạn thiết kế. Ba công ty này—Synopsys, Cadence và Siemens EDA—độc quyền các công cụ nền tảng trong thiết kế chip. Bạn có thể không dùng chip của Qualcomm, có thể không dùng dây chuyền sản xuất của TSMC, nhưng bạn không thể thoát khỏi phần mềm của ba công ty này.
Ba tháng sau khi đầu tư vào Synopsys, NVIDIA đã mời Cadence, Siemens và Dassault tham gia, thông báo rằng tất cả các công ty này đều đang phát triển các công cụ thiết kế chip được điều khiển bởi AI dựa trên GPU của NVIDIA.
Dữ liệu benchmark do NVIDIA công bố thật đáng kinh ngạc: Synopsys PrimeSim nhanh hơn 30 lần trên Blackwell, Proteus nhanh hơn 20 lần, Sentaurus nhanh hơn 12 lần trên B200 so với CPU. MediaTek sử dụng H100 để tăng tốc Cadence Spectre lên 6 lần. Astera Labs sử dụng Synopsys + NVIDIA để tăng tốc xác minh chip lên 3,5 lần.
Có một chi tiết đáng được nhấn mạnh riêng: Nền tảng Millennium M2000 của Cadence được quảng bá là “được thiết kế riêng cho thị trường EDA, độc quyền dựa trên NVIDIA Blackwell”.
Hai chữ “độc quyền” mới đáng để suy ngẫm. Nghĩa là, trước đây các công cụ EDA chạy trên CPU, Intel và AMD đều có thể sử dụng. Về sau, muốn dùng EDA nhanh nhất, chỉ có thể mua card của NVIDIA.
Hình dạng thực tế của bánh đà
Vòng xoay của NVIDIA, phiên bản mà đa số mọi người hiểu là: bán GPU cho các công ty AI, các công ty AI huấn luyện mô hình lớn, mô hình lớn chứng minh GPU là không thể thay thế, ngày càng nhiều người mua GPU.
Chiếc bánh đà này đã đủ đáng sợ rồi. Nhưng phía dưới nó còn có một lớp nữa.
NVIDIA tự thiết kế GPU thế hệ tiếp theo bằng công cụ của riêng mình, tạo ra khoảng cách thế hệ về hiệu quả thiết kế, đồng thời buộc toàn bộ chuỗi công cụ EDA của ngành vào phần cứng của họ. Các đối thủ muốn theo kịp, nhưng ngay cả công cụ để theo đuổi cũng phải thuê từ hệ sinh thái của NVIDIA.
Báo cáo tài chính của AMD khiến giá cổ phiếu lao dốc ẩn chứa nỗi lo lắng này. Dù NVIDIA và Synopsys bề ngoài nói rằng “đầu tư không đi kèm nghĩa vụ mua phần cứng NVIDIA”, thị trường đều rõ ràng: các tính năng EDA được tối ưu hóa đầu tiên đều được triển khai trên phần cứng NVIDIA, trong khi AMD và Intel chỉ có thể dựa vào một “con đường tối ưu hóa cho nền tảng của đối thủ lớn nhất”.
Hãy tưởng tượng một kỹ sư của AMD sau này muốn thiết kế một con chip cạnh tranh với Blackwell, anh ta mở công cụ của Synopsys, công cụ này chạy nhanh nhất trên GPU của NVIDIA. Khi đó, anh ta hoặc phải chấp nhận chu kỳ thiết kế chậm hơn hai lần, hoặc mua một đống card NVIDIA để thiết kế một con chip nhằm đánh bại NVIDIA.
Spade vẫn đang được bán. Nhưng cách bán đã thay đổi.
Thực trạng của GPU trong nước
At this point, we must present a set of eye-opening numbers.
Cùng năm mà NVIDIA đạt lợi nhuận ròng vượt 70 tỷ USD trong năm tài chính 2025, bốn nhà sản xuất GPU nội địa “Tứ tiểu long” là Moer Tuyến Thống, Muxi, Bì Nhân và Su Nguyên đang xếp hàng chờ đợi cửa sổ IPO.
Báo cáo sơ bộ của Moore Threads cho thấy, trong ba năm từ 2022 đến 2024, tổng lỗ ròng tích lũy là 5 tỷ nhân dân tệ, sáu tháng đầu năm 2025 tiếp tục lỗ 271 triệu nhân dân tệ, tính đến ngày 30 tháng 6, tổng lỗ chưa bù đắp tích lũy là 1,478 tỷ nhân dân tệ. Ban quản lý công ty tự dự đoán rằng sớm nhất cũng phải đến năm 2027 mới có thể đạt lợi nhuận trong báo cáo hợp nhất. Muxi có tình hình tốt hơn một chút, với tổng lỗ tích lũy trong ba năm vượt quá 3 tỷ nhân dân tệ. Tình trạng tệ nhất là Bi Ren, với tổng lỗ trong ba năm rưỡi vượt quá 6,3 tỷ nhân dân tệ, doanh thu sáu tháng đầu năm 2025 chỉ đạt 58,9 triệu nhân dân tệ, chưa bằng một phần nhỏ của 702 triệu nhân dân tệ mà Moore Threads đạt được trong cùng kỳ.
Hãy xem xét cường độ đầu tư vào nghiên cứu và phát triển. Tỷ lệ chi phí nghiên cứu và phát triển của Moore Threads so với doanh thu năm 2022 là 2422,51%, đến năm 2024 vẫn ở mức cao tới 309,88%. Số tiền chi cho nghiên cứu và phát triển trong một năm nhiều hơn ba lần doanh thu. Đây không phải là hoạt động kinh doanh doanh nghiệp, mà giống như truyền dịch duy trì sự sống, liên tục được bơm vốn từ thị trường cấp một và cửa sổ mới mở ra trên sàn Khoa học và Công nghệ.
Ở cấp độ công cụ, bị khống chế nghiêm trọng hơn. Sách chào bán cổ phiếu IPO năm 2022 của Huada Jiutian cho thấy công cụ chỉ hỗ trợ một phần quy trình tiên tiến 5nm. EDA của Genrad có thể bao phủ các nút 7nm/5nm/3nm, nhưng chỉ tập trung vào các công cụ đơn lẻ, chưa thể nói đến toàn bộ quy trình.
Liu Weiping, người sáng lập Huada Jiutian, nói một cách thành thật: “EDA trong nước vẫn còn rõ ràng thiếu hụt trong việc hỗ trợ các quy trình tiên tiến, đặc biệt là các quy trình 7nm, 5nm và 3nm hiện nay. Hiện tại, EDA trong nước có thể đạt mức 14nm, mặc dù đã nắm vững công nghệ quy trình 7nm, nhưng để tích hợp sâu rộng 7nm vào ứng dụng thực tế vẫn cần sự phối hợp toàn chuỗi ngành.”
Nói cách khác, toàn bộ quy trình EDA cho quy trình sản xuất tiên tiến, sản phẩm trong nước cơ bản không thể sử dụng được. Các công ty GPU trong nước khi thiết kế chip vẫn đang sử dụng Synopsys và Cadence. Năm 2025, Trump từng tuyên bố áp đặt kiểm soát xuất khẩu đối với tất cả phần mềm then chốt, dù chưa thực sự được thực thi, nhưng các công cụ EDA cho quy trình tiên tiến dưới 7nm cho đến nay vẫn nằm trong tình trạng kiểm soát nghiêm ngặt. Khi nào giấy phép bị cắt, công tắc nằm trong tay người khác.
Phản ứng của thị trường vốn thật sự kỳ diệu. Ngày niêm yết, giá cổ phiếu Muxi đóng cửa ở mức 829,9 nhân dân tệ, tăng 692,95% trong một ngày. Sau khi niêm yết, giá cổ phiếu Moore Threads từng đạt mức cao nhất thứ ba trên thị trường A, chỉ sau Kweichow Moutai và Cambricon, một số phương tiện truyền thông tính toán theo giá cổ phiếu lúc đó cho thấy tổng vốn hóa thị trường của công ty vào khoảng 359,5 tỷ nhân dân tệ.
Đằng sau những con số là một thực tế kinh doanh: một nhóm công ty vẫn đang tiêu tốn tiền mặt, thua lỗ và vẫn phải phụ thuộc vào chuỗi công cụ nước ngoài bị kiểm soát để tiếp tục thiết kế chip, nhưng lại được định giá trên thị trường thứ cấp như những người kế nhiệm của NVIDIA nội địa.
Các công cụ mà các công ty này sử dụng để thiết kế chip đang trở thành một phần của hệ sinh thái NVIDIA. Sự ràng buộc 2 tỷ USD giữa NVIDIA và Synopsys, cùng với nhãn hiệu “độc quyền dựa trên NVIDIA Blackwell” của Cadence Millennium M2000, khiến việc theo kịp trở thành một nghịch lý.
Một chuỗi hoàn chỉnh từ thiết kế đến sản xuất
Quay trở lại cuộc trò chuyện về GTC.
Dally thể hiện sự khiêm tốn trong suốt buổi trình bày. “AI vẫn còn rất xa mới có thể tự thiết kế chip” — câu này NVIDIA đã nói trong bốn đến năm năm qua. Nhưng cách nói mỗi năm đều thay đổi. Bốn năm trước là “AI có thể hỗ trợ thiết kế”, ba năm trước là “AI có thể tự động hóa một số khâu”, năm nay là “hoàn thành công việc của 8 người trong 10 tháng chỉ trong một đêm”. Mỗi năm tiến một bước, mỗi năm đều để lại câu “còn rất xa mới tới mục tiêu cuối cùng”. Ba năm sau nhìn lại, “rất xa” của đợt trước đã được thực hiện, và “rất xa” mới đã được định nghĩa ở vị trí mà mọi đối thủ đều không với tới.
Trong mười hai tháng qua, những gì NVIDIA thực sự làm chỉ có một việc: ứng dụng AI vào những khâu có giá trị cao nhất và có rào cản cạnh tranh sâu nhất trong chuỗi công nghiệp chip, sau đó bán từng lớp công cụ này cho toàn bộ ngành.
Phần đầu của thiết kế chip đã được các LLM nội bộ như Chip Nemo tiếp quản; việc di chuyển thư viện ô tiêu chuẩn và tối ưu hóa bố cục ở giai đoạn giữa đã được NB-Cell và Prefix RL tiếp quản; toàn bộ chuỗi công cụ EDA đã bị ràng buộc với GPU riêng thông qua khoản đầu tư 2 tỷ USD của Synopsys và “phiên bản độc quyền dựa trên Blackwell” của Cadence; tính toán quang khắc ở khâu sản xuất đã được cuLitho tiếp quản, và TSMC đã đang sử dụng.
Từ thiết kế đến sản xuất, mỗi giai đoạn của NVIDIA đều được tái tạo lại bằng AI. Mỗi đoạn cuối đều dẫn đến một điểm chung: nếu bạn muốn dùng công cụ nhanh nhất, bạn phải mua card của NVIDIA.
Điều đáng ngượng nhất đã xảy ra với mọi đối thủ muốn chế tạo một con chip có thể đánh bại Blackwell. Công cụ EDA dùng để thiết kế con chip này, phiên bản nhanh nhất chạy trên GPU của NVIDIA; thư viện thuật toán nhanh nhất cho tính toán quang khắc để sản xuất con chip này cũng do NVIDIA cung cấp; sức mạnh tính toán dùng để huấn luyện AI thiết kế vẫn là card của NVIDIA.
Người bạn cần đánh bại đang cho bạn thuê toàn bộ công cụ cần thiết để đánh bại anh ta. Tiền thuê trả hàng năm, hợp đồng tăng giá mỗi năm.
