Sebuah lembaga pemerintah Amerika Serikat merilis hasil evaluasi terhadap kecerdasan buatan paling kuat Tiongkok: tertinggal delapan bulan, dan selama waktu berjalan, kesenjangan semakin melebar. Pengguna internet yang membaca metode evaluasi tersebut mulai mengajukan berbagai pertanyaan.
CAISI—Pusat Standar dan Inovasi Kecerdasan Buatan, sebuah departemen di bawah National Institute of Standards and Technology (NIST) Amerika Serikat—merilis laporan evaluasi DeepSeek V4 Pro pada 1 Mei. Kesimpulannya: Produk unggulan open-source DeepSeek "tertinggal sekitar 8 bulan dari teknologi terkini".
CAISI juga menyebutnya sebagai model kecerdasan buatan Tiongkok terkuat yang pernah dievaluasi hingga saat ini.
Rating system
CAISI tidak merata-ratakan skor基准 seperti kebanyakan lembaga penilaian lainnya. Sebaliknya, ia menerapkan teori respons item (sebuah metode statistik dari pengujian terstandarisasi) untuk memperkirakan kapasitas laten setiap model dengan melacak masalah mana yang berhasil dan gagal diselesaikan oleh setiap model dalam sembilan benchmark di lima bidang (keamanan siber, rekayasa perangkat lunak, ilmu alam, penalaran abstrak, dan matematika).
Berdasarkan peringkat Elo yang diperkirakan oleh IRT, GPT-5.5 mendapat skor 1260, sedangkan Claude Opus 4.6 dari Anthropic mendapat skor 999. Skor DeepSeek V4 Pro sekitar 800 (±28), sangat dekat dengan skor 749 dari GPT-5.4 mini. Dalam sistem penilaian CAISI, DeepSeek lebih dekat ke generasi sebelumnya GPT mini daripada Opus.
Sistem penilaian dalam benchmark mensimulasikan cara penilaian ujian standar terhadap siswa—bukan langsung berdasarkan tingkat kebenaran, tetapi berdasarkan bobot soal yang dijawab benar dan salah untuk menghasilkan estimasi skor. Estimasi skor ini hanya memiliki makna relatif ketika dibandingkan dengan model lain dalam evaluasi yang sama. Secara umum, semakin tinggi skornya, semakin baik modelnya, dan skor model terbaik akan menjadi titik acuan untuk mengukur kemampuan model.
Karena dua dari sembilan tes dasar tidak dipublikasikan, dan perbedaan paling signifikan terjadi pada dua tes ini, hasil CAISI tidak dapat direproduksi. Sebagai contoh, GPT-5.5 mendapatkan skor 71% pada salah satu tes keamanan siber CAISI, CTF-Archive-Diamond, sementara skor DeepSeek hanya sekitar 32%.
Dalam pengujian terbuka, situasinya berbeda. Dalam tes GPQA-Diamond (tes penalaran ilmiah tingkat doktor yang dinilai berdasarkan akurasi), DeepSeek mendapatkan skor 90%, hanya 1 poin lebih rendah dari Opus 4.6 yang mendapat 91%. Dalam tes benchmark Olimpiade Matematika (OTIS-AIME-2025, PUMaC 2024, dan SMT 2025), DeepSeek mendapatkan skor masing-masing 97%, 96%, dan 96%. Dalam tes SWE-Bench Verified (yang menilai perbaikan bug nyata di GitHub berdasarkan tingkat penyelesaian), DeepSeek mendapatkan skor 74%, sementara GPT-5.5 mendapatkan skor 81%. Laporan teknis DeepSeek sendiri menyatakan bahwa kinerja V4 Pro sebanding dengan Opus 4.6 dan GPT-5.4.
Untuk perbandingan biaya, CAISI menyaring semua model Amerika yang kinerjanya jauh lebih rendah daripada DeepSeek atau biaya per token tunggalnya jauh lebih tinggi daripada DeepSeek. Hanya satu model yang memenuhi kriteria: GPT-5.4 mini. Ini hampir mencakup semua algoritma paling mutakhir di Amerika, dan akhirnya hanya tersisa ini.
DeepSeek lebih murah dalam 5 dari 7 uji coba patokan, bahkan mengalahkan model AI terkecil dan paling lemah dari OpenAI.
Argumen yang menentang: Kesenjangan lebih besar atau lebih kecil?
Mengkritik metodologi CAISI tidak sepenuhnya membuktikan kebenaran DeepSeek. Pengembang AI yang menggunakan nama samaran CAISI, Ex0bit, langsung membantah pernyataan tersebut: “Tidak ada yang namanya ‘kesenjangan’, dan tidak ada yang tertinggal selama 8 bulan. Setiap kali kami melakukan penjualan tertutup di Amerika, kami diejek, dan saat penjualan terbuka, kami justru dilecehkan.”
Analisis kecerdasan buatan terhadap Smart Index v4.0 (sistem peringkat yang melacak kecerdasan model mutakhir melalui 10 penilaian) menunjukkan bahwa pada Mei 2026, skor OpenAI mendekati 60, sementara skor DeepSeek berada di sekitar 50, dengan jurang yang menyempit jauh dibandingkan satu tahun lalu.
Menurut standar yang disepakati, pendekatan mereka menunjukkan bahwa kesenjangan sebenarnya sedang menyempit.
DeepSeek pertama kali muncul pada Januari 2025, pertanyaannya adalah apakah Tiongkok telah mengejar ketertinggalan.Laboratorium-laboratorium di Amerika merespons dengan segera. Indeks Kecerdasan Buatan Stanford 2026—dipublikasikan pada 13 April—melaporkan bahwa jarak di antara Claude Opus 4.6 dan Dola-Seed-2.0 Preview asal Tiongkok di peringkat Arena semakin menyempit, kini hanya berbeda 2,7%.
CAISI akan merilis penjelasan metodologi IRT yang lebih lengkap dalam waktu dekat.
