Laporan Pemerintah AS Mengklaim Model AI Teratas Tiongkok Ketinggalan 8 Bulan

icon币界网
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Laporan pemerintah AS dari Pusat Standar dan Inovasi AI (CAISI) di bawah NIST menyatakan bahwa model AI teratas Tiongkok, DeepSeek V4 Pro, tertinggal sekitar delapan bulan dari pemimpin global. Laporan tersebut menggunakan Teori Respons Item untuk menilai kinerja di sembilan benchmark. DeepSeek V4 Pro mendapat skor sekitar 800, mendekati GPT-5.4 mini tetapi di bawah GPT-5.5 dan Claude Opus 4.6. Kritikus mengatakan metodologi ini cacat dan kesenjangan tersebut dilebih-lebihkan. Beberapa benchmark tetap bersifat rahasia, sehingga verifikasi menjadi sulit. Sementara itu, regulasi CFT terus berdampak pada likuiditas dan pasar kripto secara global.
CoinDesk melaporkan:

Sebuah lembaga pemerintah Amerika Serikat merilis hasil evaluasi terhadap kecerdasan buatan paling kuat Tiongkok: tertinggal delapan bulan, dan selama waktu berjalan, kesenjangan semakin melebar. Pengguna internet yang membaca metode evaluasi tersebut mulai mengajukan berbagai pertanyaan.

CAISI—Pusat Standar dan Inovasi Kecerdasan Buatan, sebuah departemen di bawah National Institute of Standards and Technology (NIST) Amerika Serikat—merilis laporan evaluasi DeepSeek V4 Pro pada 1 Mei. Kesimpulannya: Produk unggulan open-source DeepSeek "tertinggal sekitar 8 bulan dari teknologi terkini".

CAISI juga menyebutnya sebagai model kecerdasan buatan Tiongkok terkuat yang pernah dievaluasi hingga saat ini.

Rating system

CAISI tidak merata-ratakan skor基准 seperti kebanyakan lembaga penilaian lainnya. Sebaliknya, ia menerapkan teori respons item (sebuah metode statistik dari pengujian terstandarisasi) untuk memperkirakan kapasitas laten setiap model dengan melacak masalah mana yang berhasil dan gagal diselesaikan oleh setiap model dalam sembilan benchmark di lima bidang (keamanan siber, rekayasa perangkat lunak, ilmu alam, penalaran abstrak, dan matematika).

Berdasarkan peringkat Elo yang diperkirakan oleh IRT, GPT-5.5 mendapat skor 1260, sedangkan Claude Opus 4.6 dari Anthropic mendapat skor 999. Skor DeepSeek V4 Pro sekitar 800 (±28), sangat dekat dengan skor 749 dari GPT-5.4 mini. Dalam sistem penilaian CAISI, DeepSeek lebih dekat ke generasi sebelumnya GPT mini daripada Opus.

Sistem penilaian dalam benchmark mensimulasikan cara penilaian ujian standar terhadap siswa—bukan langsung berdasarkan tingkat kebenaran, tetapi berdasarkan bobot soal yang dijawab benar dan salah untuk menghasilkan estimasi skor. Estimasi skor ini hanya memiliki makna relatif ketika dibandingkan dengan model lain dalam evaluasi yang sama. Secara umum, semakin tinggi skornya, semakin baik modelnya, dan skor model terbaik akan menjadi titik acuan untuk mengukur kemampuan model.

Karena dua dari sembilan tes dasar tidak dipublikasikan, dan perbedaan paling signifikan terjadi pada dua tes ini, hasil CAISI tidak dapat direproduksi. Sebagai contoh, GPT-5.5 mendapatkan skor 71% pada salah satu tes keamanan siber CAISI, CTF-Archive-Diamond, sementara skor DeepSeek hanya sekitar 32%.

Dalam pengujian terbuka, situasinya berbeda. Dalam tes GPQA-Diamond (tes penalaran ilmiah tingkat doktor yang dinilai berdasarkan akurasi), DeepSeek mendapatkan skor 90%, hanya 1 poin lebih rendah dari Opus 4.6 yang mendapat 91%. Dalam tes benchmark Olimpiade Matematika (OTIS-AIME-2025, PUMaC 2024, dan SMT 2025), DeepSeek mendapatkan skor masing-masing 97%, 96%, dan 96%. Dalam tes SWE-Bench Verified (yang menilai perbaikan bug nyata di GitHub berdasarkan tingkat penyelesaian), DeepSeek mendapatkan skor 74%, sementara GPT-5.5 mendapatkan skor 81%. Laporan teknis DeepSeek sendiri menyatakan bahwa kinerja V4 Pro sebanding dengan Opus 4.6 dan GPT-5.4.

Untuk perbandingan biaya, CAISI menyaring semua model Amerika yang kinerjanya jauh lebih rendah daripada DeepSeek atau biaya per token tunggalnya jauh lebih tinggi daripada DeepSeek. Hanya satu model yang memenuhi kriteria: GPT-5.4 mini. Ini hampir mencakup semua algoritma paling mutakhir di Amerika, dan akhirnya hanya tersisa ini.

DeepSeek lebih murah dalam 5 dari 7 uji coba patokan, bahkan mengalahkan model AI terkecil dan paling lemah dari OpenAI.

Argumen yang menentang: Kesenjangan lebih besar atau lebih kecil?

Mengkritik metodologi CAISI tidak sepenuhnya membuktikan kebenaran DeepSeek. Pengembang AI yang menggunakan nama samaran CAISI, Ex0bit, langsung membantah pernyataan tersebut: “Tidak ada yang namanya ‘kesenjangan’, dan tidak ada yang tertinggal selama 8 bulan. Setiap kali kami melakukan penjualan tertutup di Amerika, kami diejek, dan saat penjualan terbuka, kami justru dilecehkan.”

Analisis kecerdasan buatan terhadap Smart Index v4.0 (sistem peringkat yang melacak kecerdasan model mutakhir melalui 10 penilaian) menunjukkan bahwa pada Mei 2026, skor OpenAI mendekati 60, sementara skor DeepSeek berada di sekitar 50, dengan jurang yang menyempit jauh dibandingkan satu tahun lalu.

Menurut standar yang disepakati, pendekatan mereka menunjukkan bahwa kesenjangan sebenarnya sedang menyempit.


DeepSeek pertama kali muncul pada Januari 2025, pertanyaannya adalah apakah Tiongkok telah mengejar ketertinggalan.Laboratorium-laboratorium di Amerika merespons dengan segera. Indeks Kecerdasan Buatan Stanford 2026—dipublikasikan pada 13 April—melaporkan bahwa jarak di antara Claude Opus 4.6 dan Dola-Seed-2.0 Preview asal Tiongkok di peringkat Arena semakin menyempit, kini hanya berbeda 2,7%.

CAISI akan merilis penjelasan metodologi IRT yang lebih lengkap dalam waktu dekat.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.