DeepSeek giảm chi phí API 100 lần, gây ra tranh luận về sự tập trung hạ tầng AI

—— Bắt đầu từ bài phát biểu của Gonka tại LA Hacks 2026

Ngày 26 tháng 4, DeepSeek ra mắt giá mới cho chuỗi API V4: Giá cho việc ghi nhớ đầu vào của toàn bộ dòng sản phẩm được giảm xuống còn một phần mười so với giá khởi điểm, sau khi áp dụng ưu đãi giới hạn thời gian cho phiên bản Pro, chi phí xử lý một triệu Token chỉ còn 0,025 nhân dân tệ — rẻ hơn gần 100 lần so với một năm trước. Các cổ phiếu về năng lực tính toán trên thị trường A đã đồng loạt tăng trần, tâm lý thị trường sôi động.

Nhưng đằng sau những tiếng reo hò, có một vấn đề chưa ai trực tiếp đề cập: khi các mô hình ngày càng rẻ hơn, sức tính toán cần thiết để chạy các mô hình đang ngày càng bị tập trung hóa.

Dữ liệu không nói dối. Trong quý IV năm 2025, tổng chi tiêu vốn của bốn nhà cung cấp đám mây Microsoft, Amazon, Meta và Google tăng 64% so với cùng kỳ năm trước lên 118,6 tỷ USD; dự kiến tổng chi tiêu vốn cả năm 2026 sẽ tiếp tục tăng 53% so với cùng kỳ, đạt 570,8 tỷ USD. Google cũng đã điều chỉnh mục tiêu xuất xưởng chip TPU năm 2026 lên 50% lên 6 triệu con. Chu kỳ giao hàng của dòng chip H100 của NVIDIA đã kéo dài đến vài tháng tại một số thị trường.

Quyền định giá ở lớp mô hình đang nghiêng về phía các nhà phát triển, nhưng quyền kiểm soát ở lớp tính toán đang tập trung nhanh hơn vào một số ít đế chế. Đây là một mâu thuẫn ẩn nhưng sâu sắc trong thời đại AI.

Gonka

Trong bối cảnh này, vào ngày 24 tháng 4 năm 2026, đồng sáng lập协议 Gonka, Daniil và David Liberman, đã bước lên sân khấu bài phát biểu chính của LA Hacks 2026. Cuộc thi hackathon lớn nhất hàng năm của UCLA năm nay có sự tham gia của anh em Liberman với tư cách khách mời phát biểu chính, trước hàng trăm kỹ sư hàng đầu sắp gia nhập ngành này. Câu hỏi mà họ đặt ra lúc này trở nên đặc biệt rõ ràng: Liệu sức mạnh tính toán phi tập trung còn kịp thời không?

Một mặt khác của làn sóng giảm giá

Lý do giảm giá của DeepSeek V4, về bề ngoài, là lợi ích hiệu quả mang lại từ tiến bộ công nghệ — cơ chế chú ý mới đã nén chiều kích Token, kết hợp với sự chú ý thưa DSA, làm giảm đáng kể nhu cầu về tính toán và bộ nhớ GPU. Nhưng để việc giảm giá có thể tiếp tục diễn ra, điều kiện tiên quyết là phải có đủ năng lực tính toán và đủ rẻ ở một nơi nào đó.

Thực tế là nguồn năng lực tính toán "đủ dồi dào" này đang nhanh chóng tập trung về một số ít nút trên toàn cầu. CEO của công ty dẫn đầu trong lĩnh vực truyền thông quang Lumentum - Michael Hurlston mới đây cho biết, theo xu hướng hiện tại, công suất của công ty đến năm 2028 gần như đã được bán hết. Đây không phải là vấn đề riêng của một công ty, mà là sự căng thẳng chung của toàn bộ chuỗi cung ứng hạ tầng AI trước nhu cầu mở rộng nhanh chóng.

Daniil đã sử dụng một sự so sánh đơn giản nhưng mạnh mẽ trong bài phát biểu tại LA Hacks: công suất tính toán của mạng Bitcoin đã vượt quá tổng công suất của ba trung tâm dữ liệu đám mây của Google, Microsoft và Amazon—nhưng những công suất này đang làm gì? Đang giải một câu đố băm mà không ai cần câu trả lời. Công suất GPU rảnh rỗi toàn cầu cũng vậy: card đồ họa trong máy chơi game, máy chủ trong phòng máy trường đại học, lượng dư thừa của các nhà cung cấp đám mây vừa và nhỏ—tổng cộng quy mô khổng lồ, nhưng do thiếu cơ chế phối hợp nên không thể được sử dụng cho suy luận AI.

Gonka đang cố gắng giải quyết vấn đề phối hợp này—sử dụng cơ chế khuyến khích bằng chứng công việc để tổ chức các GPU rảnh rỗi trên toàn cầu thành một mạng lưới có thể thực hiện các nhiệm vụ suy luận AI thực tế.

Hai, suy luận là chiến trường mới

Việc DeepSeek giảm giá đã gây ra cuộc thảo luận rộng rãi về “sự bình đẳng AI” trên internet Trung Quốc. Nhưng có một chi tiết bị bỏ qua: việc giảm giá là giảm “giá gọi”, không phải “chi phí tính toán”. Khi các ứng dụng AI được mở rộng quy mô, lượng gọi suy luận tăng theo cấp số nhân — theo dự đoán của ngành, đến năm 2026, suy luận sẽ chiếm khoảng hai phần ba tổng lượng tính toán AI toàn cầu.

Điều này có nghĩa gì? Mỗi khi giảm một cấp độ giá gọi, tổng lượng tính toán thực tế cần thiết sẽ chỉ tăng lên, không giảm đi. Việc “dân chủ hóa” các mô hình lớn, về một mặt nào đó, lại thúc đẩy sự tập trung hóa của lớp tính toán—vì chỉ những người chơi sở hữu lượng tính toán quy mô lớn mới có thể duy trì hoạt động dịch vụ suy luận dưới biên lợi nhuận siêu thấp.

Đây là một sự khóa chặt cấu trúc đang hình thành: ai kiểm soát năng lực tính toán vật lý ở phía suy luận, người đó sẽ kiểm soát cổng vào cơ sở hạ tầng thực sự của thời đại AI. Từ góc độ này, ý nghĩa của mạng tính toán phi tập trung không còn đơn thuần là tối ưu chi phí rẻ hơn 50%, mà là cung cấp một con đường thay thế cấu trúc trước khi sự khóa chặt tập trung được hoàn thành.

Ba, câu hỏi thực sự dành cho những người xây dựng trẻ tuổi

Các thí sinh của LA Hacks—các kỹ sư và chuyên gia sản phẩm từ những trường đại học hàng đầu ở California—sẽ sớm phải đối mặt với một lựa chọn kỹ thuật không mấy lãng mạn: xây dựng sản phẩm của mình trên nền tảng tính toán nào.

Server nào được sử dụng để xử lý推理 cho sản phẩm AI của bạn?

Khi nền tảng đó điều chỉnh chiến lược định giá hoặc chính sách truy cập, bạn có khả năng di chuyển không?

Quy mô người dùng bạn giúp xây dựng đang tạo ra giá trị cho chính bạn, hay đang cung cấp筹码 cho nền tảng?

Những vấn đề này đã từng được các nhà phát triển trải nghiệm trong thời đại Web2: khi số phận của ứng dụng bị ràng buộc sâu sắc với thuật toán hoặc quy tắc phân phối của nền tảng, “độc lập” trở thành một từ cần được định nghĩa lại liên tục. Sự phụ thuộc vào năng lực tính toán trong thời đại AI sẽ tái tạo cùng một logic này lên tầng cơ sở hạ tầng, và do chi phí chuyển đổi cao hơn, hiệu ứng khóa sẽ chỉ mạnh hơn nữa.

Gonka

Hackerthon, dưới một hình thức, mang trong mình sự mỉa mai: trong 36 giờ, xây dựng một sản phẩm hoạt động được với ít tài nguyên nhất và tốc độ nhanh nhất—đây chính là trạng thái mà cơ chế kích thích của mạng phi tập trung đang theo đuổi. Daniil bước lên sân khấu tại LA Hacks, không chỉ để nói về Gonka, mà còn như đang hỏi nhóm người này: Những việc các bạn sẽ làm trong tương lai, liệu có đang thúc đẩy xu hướng tập trung hóa này nhanh hơn, hay đang tạo ra những khả năng mới?

Bốn: PoW 2.0: Một bài toán kỹ thuật

Gonka đã điều chỉnh lại cơ chế khuyến khích bằng chứng công việc từ việc tính toán hash sang推理 AI, khiến gần 100% công suất đóng góp trong mạng lưới trực tiếp tương ứng với các nhiệm vụ thực tế. Cơ chế này có một yêu cầu kỹ thuật then chốt: các nhiệm vụ推理 AI phải có thể xác minh và tái tạo được—với cùng trọng số mô hình, cùng hạt ngẫu nhiên và đầu vào, bất kỳ nút nào cũng có thể tái tạo kết quả tính toán và xác minh tính hợp lệ của nó. Đây là điểm khó khăn kỹ thuật cốt lõi giúp Gonka chuyển từ mô hình học thuật thành một mạng lưới hoạt động được.

Từ góc độ kinh tế, ý nghĩa của cơ chế này là: giá trị token được neo tự nhiên vào chi phí tính toán vật lý, chứ không phải vào cảm xúc thanh khoản. Những thợ mỏ đóng góp tính toán nhận phần thưởng, còn các nhà phát triển sử dụng tính toán trả phí, tạo thành vòng lặp động lực toàn bộ hệ thống mà không phụ thuộc vào sự thiện ý của bất kỳ trung gian nào.

Tất nhiên, tính khả thi về mặt kỹ thuật chỉ là một phần. Vấn đề khó hơn là: trong thời đại nhu cầu năng lực tính toán tăng vọt và chi tiêu vốn của các tác nhân lớn ở quy mô hàng chục tỷ đô la, một mạng lưới tính toán phân tán được tổ chức bởi sự đóng góp tự nguyện của cộng đồng có thể tạo ra sự cạnh tranh thực sự về quy mô không?

Dữ liệu sớm của Gonka cung cấp một điểm tham chiếu: chưa đầy một năm sau khi ra mắt mainnet, tổng công suất mạng đã tăng từ 60 đơn vị tương đương H100 lên hơn 10.000 đơn vị, tốc độ này đến từ việc hàng trăm nút độc lập trên toàn cầu tự nguyện kết nối, chứ không phải do phân bổ tập trung. Điều này không chứng minh rằng vấn đề quy mô đã được giải quyết, nhưng nó cho thấy cơ chế khuyến khích đã thúc đẩy tăng trưởng giai đoạn đầu một cách hiệu quả.

V. Vấn đề về khoảng thời gian

Trong lịch sử, quyền kiểm soát cơ sở hạ tầng thường nhanh chóng hội tụ ở giai đoạn đầu — thời kỳ đường sắt như vậy, thời kỳ internet như vậy, và cả thời kỳ di động cũng vậy. Mỗi lần như vậy, đều có người tìm được vị trí chen chân trước khi tiêu chuẩn được cố định, cũng có người chỉ nhận ra quyền tham gia đã bị thu hẹp đáng kể sau khi quá trình tập trung hóa hoàn tất.

Cơ sở hạ tầng tính toán AI hiện đang ở giai đoạn nào? Dựa trên chi tiêu vốn dự kiến 570,8 tỷ USD của bốn nhà cung cấp đám mây lớn vào năm 2026, sự tập trung hóa đang gia tốc; tuy nhiên, từ góc độ mô hình sử dụng thực tế của các nhà phát triển, nguồn cung vẫn còn rất nhiều tài nguyên chưa được tích hợp hiệu quả. Khoảng trống này là không gian cấu trúc mà các mạng phi tập trung có thể tồn tại.

Daniil đã trích dẫn một sự so sánh trong bài phát biểu của mình: sau khi bong bóng internet năm 2000 vỡ vụn, điều còn lại không phải là đống đổ nát, mà là mạng cáp quang phủ khắp toàn cầu, hỗ trợ hoạt động của nền kinh tế số trong hai thập kỷ tiếp theo. Sau khi làn sóng đầu tư vào cơ sở hạ tầng AI lắng xuống, các giao thức tính toán và cơ chế khuyến khích được tích lũy sẽ trở thành cơ sở hạ tầng cho chu kỳ tiếp theo—vấn đề chỉ là, những giao thức nào có logic nền tảng đủ vững chắc để duy trì hoạt động dưới áp lực.

Đây không phải là câu hỏi về một dự án cụ thể, mà là vấn đề mà toàn bộ lĩnh vực AI phi tập trung cần đối mặt: Thiết kế quản trị có thực sự chống lại sự xâm phạm của kiểm soát điểm đơn không? Cơ chế khuyến khích có còn hiệu quả khi quy mô mở rộng không? Mạng lưới tính toán phi tập trung có đồng thời đúng ở ba cấp độ: thực thi kỹ thuật, phát hành token và ra quyết định nâng cấp không?

Kết luận

Việc DeepSeek giảm giá đã làm sống lại câu chuyện về “dân chủ hóa AI”. Nhưng việc dân chủ hóa các lời gọi suy luận và việc dân chủ hóa cơ sở hạ tầng tính toán là hai chuyện khác nhau. Trước mắt, điều đầu tiên đang diễn ra; còn điều thứ hai có xảy ra hay không, phụ thuộc vào việc trong vài năm tới, có bao nhiêu người thực sự coi đây là một vấn đề kỹ thuật đáng để giải quyết, chứ không chỉ là một câu chuyện nghe hay.