Báo cáo của chính phủ Hoa Kỳ tuyên bố mô hình AI hàng đầu của Trung Quốc tụt hậu 8 tháng

icon币界网
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Một báo cáo của chính phủ Hoa Kỳ từ Trung tâm Tiêu chuẩn và Đổi mới AI (CAISI) thuộc NIST tuyên bố rằng mô hình AI hàng đầu của Trung Quốc, DeepSeek V4 Pro, chậm hơn khoảng tám tháng so với các nhà lãnh đạo toàn cầu. Báo cáo sử dụng Lý thuyết Phản hồi Mục tiêu để đánh giá hiệu suất trên chín tiêu chí. DeepSeek V4 Pro đạt điểm khoảng 800, tương đương GPT-5.4 mini nhưng thấp hơn GPT-5.5 và Claude Opus 4.6. Các nhà phê bình cho rằng phương pháp luận này có khuyết điểm và khoảng cách bị thổi phồng. Một số tiêu chí vẫn được giữ bí mật, khiến việc xác minh trở nên khó khăn. Trong khi đó, các quy định về CFT tiếp tục ảnh hưởng đến thanh khoản và thị trường tiền điện tử toàn cầu.
CoinMarketCap báo cáo:

Một cơ quan chính phủ Mỹ đã công bố kết quả đánh giá về trí tuệ nhân tạo mạnh nhất của Trung Quốc: tụt hậu tám tháng, và khoảng cách ngày càng mở rộng theo thời gian. Sau khi đọc phương pháp đánh giá này, người dùng internet bắt đầu đặt ra nhiều câu hỏi khác nhau.

CAISI——Trung tâm Tiêu chuẩn và Đổi mới Trí tuệ Nhân tạo, là một bộ phận thuộc Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ (NIST)——đã công bố báo cáo đánh giá DeepSeek V4 Pro được phát hành vào ngày 1 tháng 5. Kết luận cho rằng: sản phẩm cốt lõi mã nguồn mở của DeepSeek “đang tụt hậu khoảng 8 tháng so với công nghệ tiên tiến nhất”.

CAISI cũng gọi đây là mô hình trí tuệ nhân tạo Trung Quốc mạnh nhất từng được đánh giá cho đến nay.

Rating System

CAISI không tính trung bình các điểm chuẩn như hầu hết các tổ chức đánh giá khác. Thay vào đó, nó áp dụng lý thuyết phản ứng mục tiêu (một phương pháp thống kê đến từ các bài kiểm tra chuẩn hóa) để ước lượng năng lực tiềm ẩn của từng mô hình bằng cách theo dõi những câu hỏi nào mà mỗi mô hình đã giải được và chưa giải được trong chín bài kiểm tra chuẩn ở năm lĩnh vực (an ninh mạng, kỹ thuật phần mềm, khoa học tự nhiên, suy luận trừu tượng và toán học).

The Elo scores estimated by IRT are 1260 for GPT-5.5 and 999 for Anthropic's Claude Opus 4.6. DeepSeek V4 Pro scores approximately 800 (±28), very close to GPT-5.4 mini's 749. In the CAISI scoring system, DeepSeek is closer to the previous-generation GPT mini than to Opus.

Hệ thống điểm trong bài kiểm tra hiệu năng mô phỏng cách chấm điểm kỳ thi chuẩn hóa đối với học sinh—không chấm trực tiếp theo tỷ lệ đúng, mà dựa trên trọng số của các câu hỏi đúng và sai để ước tính điểm số. Giá trị điểm ước tính này chỉ có ý nghĩa tương đối khi so sánh với các mô hình khác trên cùng một bài đánh giá. Nói chung, điểm càng cao thì mô hình càng tốt, và điểm của mô hình tốt nhất sẽ trở thành điểm chuẩn để đo lường khả năng của các mô hình.

Do hai trong chín bài kiểm tra cơ sở không được công khai và sự khác biệt lớn nhất nằm ở hai bài kiểm tra này, nên không thể tái tạo kết quả của CAISI. Ví dụ, GPT-5.5 đạt 71% trong một bài kiểm tra an ninh mạng của CAISI, CTF-Archive-Diamond, trong khi điểm số của DeepSeek chỉ khoảng 32%.

Trong các bài kiểm tra chuẩn công khai, tình hình khác biệt. Trong bài kiểm tra GPQA-Diamond (bài kiểm tra suy luận khoa học cấp tiến sĩ, được đánh giá theo tỷ lệ chính xác), DeepSeek đạt 90%, chỉ thấp hơn 1 điểm so với 91% của Opus 4.6. Trong các bài kiểm tra chuẩn Olympic Toán học (OTIS-AIME-2025, PUMaC 2024 và SMT 2025), DeepSeek đạt lần lượt 97%, 96% và 96%. Trong bài kiểm tra SWE-Bench Verified (đánh giá trên các lỗi thực tế trên GitHub, được đánh giá theo tỷ lệ giải quyết), DeepSeek đạt 74%, trong khi GPT-5.5 đạt 81%. Báo cáo kỹ thuật của chính DeepSeek tuyên bố hiệu suất của V4 Pro tương đương với Opus 4.6 và GPT-5.4.

Để so sánh chi phí, CAISI đã loại bỏ tất cả các mô hình Mỹ có hiệu suất rõ ràng thấp hơn DeepSeek hoặc chi phí trên mỗi token cao hơn đáng kể so với DeepSeek. Cuối cùng, chỉ còn một mô hình đáp ứng tiêu chuẩn: GPT-5.4 mini. Điều này gần như bao gồm tất cả các thuật toán tiên tiến nhất của Mỹ, và cuối cùng chỉ còn lại duy nhất một mô hình.

DeepSeek trong 5 trên 7 bài kiểm tra chuẩn đều tiết kiệm chi phí hơn, thậm chí còn đánh bại mô hình AI nhỏ nhất và yếu nhất của OpenAI.

Quan điểm phản biện: Khoảng cách lớn hơn hay nhỏ hơn?

Việc chỉ trích phương pháp luận của CAISI không thể chứng minh hoàn toàn tính đúng đắn của DeepSeek. Nhà phát triển AI mang tên giả CAISI, Ex0bit, đã phản bác trực tiếp: “Không tồn tại bất kỳ ‘khoảng cách’ nào, cũng không ai tụt hậu 8 tháng. Mỗi lần chúng tôi bán riêng cho Mỹ, chúng tôi bị chế nhạo, còn khi bán công khai, chúng tôi lại bị cười nhạo.”

Phân tích trí tuệ nhân tạo đối với Chỉ số Thông minh phiên bản 4.0 (một hệ thống xếp hạng theo dõi trí tuệ của các mô hình tiên tiến thông qua 10 lần đánh giá) cho thấy, tính đến tháng 5 năm 2026, điểm số của OpenAI gần 60, trong khi điểm số của DeepSeek khoảng 50, khoảng cách giữa hai bên đã thu hẹp đáng kể so với một năm trước.

Theo tiêu chuẩn hóa, phương pháp của họ cho thấy khoảng cách thực sự đang thu hẹp.


DeepSeek lần đầu xuất hiện vào tháng 1 năm 2025, câu hỏi là Trung Quốc đã bắt kịp chưa.Các phòng thí nghiệm của Mỹ đã phản ứng khẩn cấp. Chỉ số Trí tuệ Nhân tạo năm 2026 của Stanford University—được công bố ngày 13 tháng 4—đưa tin, khoảng cách trên bảng xếp hạng Arena giữa Claude Opus 4.6 và Dola-Seed-2.0 Preview của Trung Quốc đang thu hẹp, hiện chỉ cách nhau 2,7%.

CAISI sẽ công bố hướng dẫn chi tiết hơn về phương pháp luận IRT trong tương lai gần.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.