Một cơ quan chính phủ Mỹ đã công bố kết quả đánh giá về trí tuệ nhân tạo mạnh nhất của Trung Quốc: tụt hậu tám tháng, và khoảng cách ngày càng mở rộng theo thời gian. Sau khi đọc phương pháp đánh giá này, người dùng internet bắt đầu đặt ra nhiều câu hỏi khác nhau.
CAISI——Trung tâm Tiêu chuẩn và Đổi mới Trí tuệ Nhân tạo, là một bộ phận thuộc Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ (NIST)——đã công bố báo cáo đánh giá DeepSeek V4 Pro được phát hành vào ngày 1 tháng 5. Kết luận cho rằng: sản phẩm cốt lõi mã nguồn mở của DeepSeek “đang tụt hậu khoảng 8 tháng so với công nghệ tiên tiến nhất”.
CAISI cũng gọi đây là mô hình trí tuệ nhân tạo Trung Quốc mạnh nhất từng được đánh giá cho đến nay.
Rating System
CAISI không tính trung bình các điểm chuẩn như hầu hết các tổ chức đánh giá khác. Thay vào đó, nó áp dụng lý thuyết phản ứng mục tiêu (một phương pháp thống kê đến từ các bài kiểm tra chuẩn hóa) để ước lượng năng lực tiềm ẩn của từng mô hình bằng cách theo dõi những câu hỏi nào mà mỗi mô hình đã giải được và chưa giải được trong chín bài kiểm tra chuẩn ở năm lĩnh vực (an ninh mạng, kỹ thuật phần mềm, khoa học tự nhiên, suy luận trừu tượng và toán học).
The Elo scores estimated by IRT are 1260 for GPT-5.5 and 999 for Anthropic's Claude Opus 4.6. DeepSeek V4 Pro scores approximately 800 (±28), very close to GPT-5.4 mini's 749. In the CAISI scoring system, DeepSeek is closer to the previous-generation GPT mini than to Opus.
Hệ thống điểm trong bài kiểm tra hiệu năng mô phỏng cách chấm điểm kỳ thi chuẩn hóa đối với học sinh—không chấm trực tiếp theo tỷ lệ đúng, mà dựa trên trọng số của các câu hỏi đúng và sai để ước tính điểm số. Giá trị điểm ước tính này chỉ có ý nghĩa tương đối khi so sánh với các mô hình khác trên cùng một bài đánh giá. Nói chung, điểm càng cao thì mô hình càng tốt, và điểm của mô hình tốt nhất sẽ trở thành điểm chuẩn để đo lường khả năng của các mô hình.
Do hai trong chín bài kiểm tra cơ sở không được công khai và sự khác biệt lớn nhất nằm ở hai bài kiểm tra này, nên không thể tái tạo kết quả của CAISI. Ví dụ, GPT-5.5 đạt 71% trong một bài kiểm tra an ninh mạng của CAISI, CTF-Archive-Diamond, trong khi điểm số của DeepSeek chỉ khoảng 32%.
Trong các bài kiểm tra chuẩn công khai, tình hình khác biệt. Trong bài kiểm tra GPQA-Diamond (bài kiểm tra suy luận khoa học cấp tiến sĩ, được đánh giá theo tỷ lệ chính xác), DeepSeek đạt 90%, chỉ thấp hơn 1 điểm so với 91% của Opus 4.6. Trong các bài kiểm tra chuẩn Olympic Toán học (OTIS-AIME-2025, PUMaC 2024 và SMT 2025), DeepSeek đạt lần lượt 97%, 96% và 96%. Trong bài kiểm tra SWE-Bench Verified (đánh giá trên các lỗi thực tế trên GitHub, được đánh giá theo tỷ lệ giải quyết), DeepSeek đạt 74%, trong khi GPT-5.5 đạt 81%. Báo cáo kỹ thuật của chính DeepSeek tuyên bố hiệu suất của V4 Pro tương đương với Opus 4.6 và GPT-5.4.
Để so sánh chi phí, CAISI đã loại bỏ tất cả các mô hình Mỹ có hiệu suất rõ ràng thấp hơn DeepSeek hoặc chi phí trên mỗi token cao hơn đáng kể so với DeepSeek. Cuối cùng, chỉ còn một mô hình đáp ứng tiêu chuẩn: GPT-5.4 mini. Điều này gần như bao gồm tất cả các thuật toán tiên tiến nhất của Mỹ, và cuối cùng chỉ còn lại duy nhất một mô hình.
DeepSeek trong 5 trên 7 bài kiểm tra chuẩn đều tiết kiệm chi phí hơn, thậm chí còn đánh bại mô hình AI nhỏ nhất và yếu nhất của OpenAI.
Quan điểm phản biện: Khoảng cách lớn hơn hay nhỏ hơn?
Việc chỉ trích phương pháp luận của CAISI không thể chứng minh hoàn toàn tính đúng đắn của DeepSeek. Nhà phát triển AI mang tên giả CAISI, Ex0bit, đã phản bác trực tiếp: “Không tồn tại bất kỳ ‘khoảng cách’ nào, cũng không ai tụt hậu 8 tháng. Mỗi lần chúng tôi bán riêng cho Mỹ, chúng tôi bị chế nhạo, còn khi bán công khai, chúng tôi lại bị cười nhạo.”
Phân tích trí tuệ nhân tạo đối với Chỉ số Thông minh phiên bản 4.0 (một hệ thống xếp hạng theo dõi trí tuệ của các mô hình tiên tiến thông qua 10 lần đánh giá) cho thấy, tính đến tháng 5 năm 2026, điểm số của OpenAI gần 60, trong khi điểm số của DeepSeek khoảng 50, khoảng cách giữa hai bên đã thu hẹp đáng kể so với một năm trước.
Theo tiêu chuẩn hóa, phương pháp của họ cho thấy khoảng cách thực sự đang thu hẹp.
DeepSeek lần đầu xuất hiện vào tháng 1 năm 2025, câu hỏi là Trung Quốc đã bắt kịp chưa.Các phòng thí nghiệm của Mỹ đã phản ứng khẩn cấp. Chỉ số Trí tuệ Nhân tạo năm 2026 của Stanford University—được công bố ngày 13 tháng 4—đưa tin, khoảng cách trên bảng xếp hạng Arena giữa Claude Opus 4.6 và Dola-Seed-2.0 Preview của Trung Quốc đang thu hẹp, hiện chỉ cách nhau 2,7%.
CAISI sẽ công bố hướng dẫn chi tiết hơn về phương pháp luận IRT trong tương lai gần.
