Sebuah agensi kerajaan Amerika Syarikat telah menerbitkan penilaian terhadap kecerdasan buatan paling kuat China: tertinggal delapan bulan, dan jurang tersebut semakin lebar seiring masa. Pengguna internet yang membaca kaedah penilaian tersebut mulai mengemukakan pelbagai soalan.
CAISI—Pusat Standard dan Inovasi Kecerdasan Buatan, sebuah agensi di bawah Institut Standard dan Teknologi Nasional Amerika (NIST)—mengeluarkan laporan penilaian DeepSeek V4 Pro pada 1 Mei. Kesimpulannya: Produk unggulan sumber terbuka DeepSeek "ketinggalan sekitar 8 bulan dari teknologi terkini".
CAISI juga menyebutnya sebagai model kecerdasan buatan Cina yang paling kuat sehingga diperiksa.
Sistem penilaian
CAISI tidak mengambil purata skor piawai seperti kebanyakan agensi penilaian. Sebaliknya, ia menerapkan teori tindak balas item (sebuah kaedah statistik daripada ujian piawai) untuk menganggar keupayaan tersembunyi setiap model dengan mengikuti soalan yang diselesaikan dan tidak diselesaikan oleh setiap model dalam sembilan ujian piawai di lima bidang (keselamatan siber, kejuruteraan perisian, sains semula jadi, penaakulan abstrak, dan matematik).
Berdasarkan penilaian Elo yang dianggarkan oleh IRT, GPT-5.5 mendapat 1260 poin, Claude Opus 4.6 daripada Anthropic mendapat 999 poin. Skor DeepSeek V4 Pro adalah sekitar 800 poin (±28), sangat dekat dengan 749 poin GPT-5.4 mini. Dalam sistem penilaian CAISI, DeepSeek lebih dekat kepada GPT mini generasi sebelumnya berbanding Opus.
Sistem penilaian dalam ujian rujukan mensimulasikan cara penilaian pelajar dalam peperiksaan piawai—bukan dengan mengira kadar kebetulan secara langsung, tetapi berdasarkan berat soalan yang dijawab betul dan salah untuk menghasilkan anggaran skor. Anggaran skor ini hanya mempunyai makna relatif apabila dibandingkan dengan model lain dalam penilaian yang sama. Secara amnya, skor yang lebih tinggi menunjukkan model yang lebih baik, dan skor model terbaik akan menjadi titik rujukan untuk mengukur kemampuan model.
Kerana dua daripada sembilan ujian rujukan tidak diumumkan, dan perbezaan paling ketara berlaku dalam dua ujian ini, keputusan CAISI tidak boleh diperbanyakkan. Sebagai contoh, GPT-5.5 mendapat skor 71% dalam salah satu ujian keselamatan siber CAISI, CTF-Archive-Diamond, manakala skor DeepSeek hanya sekitar 32%.
Dalam ujian piawai terbuka, keadaannya berbeza. Dalam ujian GPQA-Diamond (ujian penalaran sains peringkat doktorat yang dinilai berdasarkan kadar ketepatan), DeepSeek mendapat 90%, hanya 1% lebih rendah daripada Opus 4.6 yang mendapat 91%. Dalam ujian piawai Olimpiad Matematik (OTIS-AIME-2025, PUMaC 2024, dan SMT 2025), DeepSeek mendapat 97%, 96%, dan 96% masing-masing. Dalam ujian SWE-Bench Verified (yang menilai pembaikan bug sebenar di GitHub berdasarkan kadar penyelesaian), DeepSeek mendapat 74%, manakala GPT-5.5 mendapat 81%. Laporan teknikal DeepSeek sendiri menyatakan bahawa prestasi V4 Pro setara dengan Opus 4.6 dan GPT-5.4.
Untuk perbandingan kos, CAISI menyingkirkan semua model Amerika yang prestasinya jauh lebih rendah daripada DeepSeek atau kos per token tunggal jauh lebih tinggi daripada DeepSeek. Hanya satu model yang memenuhi syarat: GPT-5.4 mini. Ini hampir merangkumi semua algoritma paling mutakhir di Amerika, dan akhirnya hanya tinggal yang ini.
DeepSeek menunjukkan harga yang lebih murah dalam 5 daripada 7 ujian piawai, bahkan mengalahkan model AI terkecil dan paling lemah milik OpenAI.
Argumen bertentangan: Perbezaan lebih besar atau lebih kecil?
Mengkritik metodologi CAISI tidak membuktikan kebenaran DeepSeek sepenuhnya. Pengembang AI yang menggunakan nama samaran CAISI, Ex0bit, secara langsung membantah: “Tidak ada apa-apa yang disebut ‘kesenjangan’, dan tidak ada siapa pun yang tertinggal selama 8 bulan. Setiap kali kami menjual secara tertutup di Amerika, kami diejek, tetapi ketika menjual secara terbuka, kami justru dilecehkan.”
Analisis kecerdasan buatan terhadap Indeks Pintar v4.0 (sistem penilaian yang melacak kecerdasan model terkini melalui 10 penilaian) menunjukkan bahawa pada Mei 2026, skor OpenAI mendekati 60, manakala skor DeepSeek berada pada sekitar 50, dengan jurang yang menyempit ketara berbanding setahun yang lalu.
Berdasarkan tolok ukur yang distandardkan, kaedah mereka menunjukkan bahawa jurang sebenarnya semakin mengecil.
Apabila DeepSeek muncul pertama kali pada Januari 2025, persoalannya adalah sama ada China telah mengejar ketertinggalan. Makmal-makmal di Amerika memberi tindakan segera. Indeks Kecerdasan Buatan Stanford 2026—dipaparkan pada 13 April—melaporkan bahawa jurang dalam senarai peringkat Arena antara Claude Opus 4.6 dan Dola-Seed-2.0 Preview China semakin mengecil, kini hanya berbeza 2.7%.
CAISI merancang untuk menerbitkan penjelasan metodologi IRT yang lebih lengkap dalam masa yang tidak lama lagi.
