ABD Hükümeti Raporu, Çin'in En Önemli AI Modelinin 8 Aylık Geride Kaldığını İddia Ediyor

CoinDesk tarafından rapor edildi:

Bir ABD hükümet kurumu, Çin'in en güçlü yapay zekâsına ilişkin değerlendirme sonuçlarını yayınladı: 8 ay geride ve zamanla bu fark giderek artıyor. İnternet kullanıcıları, bu değerlendirme yöntemini okuduktan sonra çeşitli sorular sormaya başladı.

CAISI——Yapay Zeka Standartları ve İnovasyon Merkezi, Amerika Birleşik Devletleri Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) altında bir birimdir—değerlendirme raporunu yayınladı. 1 Mayıs'ta yayınlanan DeepSeek V4 Pro'nun sonucu şuydu: DeepSeek'in açık kaynaklı lider ürünü, önde gelen teknolojiden yaklaşık 8 ay geride.

CAISI, bunu kadar değerlendirilen en güçlü Çin yapay zekası modeli olarak adlandırıyor.

Puanlama Sistemi

CAISI, çoğu değerlendirme kuruluşu gibi temel puanların ortalamasını almaz. Bunun yerine, her modelin beş alanda (siber güvenlik, yazılım mühendisliği, doğa bilimleri, soyutlama ve matematik) dokuz temel testte hangi soruları çözdüğünü ve hangilerini çözemediğini izleyerek, standartlaştırılmış testlerden gelen bir istatistiksel yöntem olan madde tepki teorisini uygular.

IRT tahminine göre Elo puanları: GPT-5.5: 1260, Anthropic'in Claude Opus 4.6: 999. DeepSeek V4 Pro'nun puanı yaklaşık 800 (±28) ve GPT-5.4 mini'nin 749 puanıyla çok yakındır. CAISI puanlama sistemine göre, DeepSeek, Opus'tan ziyade bir önceki nesil GPT mini'ye daha yakındır.

Değerlendirme sistemi, standartlaştırılmış sınavların öğrencileri puanlama yöntemini simüle eder — doğrudan doğru cevap oranına göre değil, öğrencilerin doğru ve yanlış cevapladıkları soruların ağırlıklarına göre puan vererek bir puan tahmini üretir. Bu puan tahmini, yalnızca aynı değerlendirme sırasında diğer modellerle karşılaştırıldığında göreceli bir anlama sahiptir. Genel olarak, puan ne kadar yüksekse, model o kadar iyidir; en iyi modelin puanı, model yeteneklerinin ölçütü olarak kullanılacaktır.

Dokuz temel testin ikisi açıklanmadığından ve bu iki testteki fark en belirgin olduğundan, CAISI sonuçları tekrarlanamıyor. Örneğin, GPT-5.5, CAISI'nin bir siber güvenlik testi olan CTF-Archive-Diamond'da %71 puan alırken, DeepSeek'in puanı yaklaşık %32 seviyesinde.

Açık benchmark testlerinde durum farklıdır. GPQA-Diamond testinde (doğruluk oranı ile değerlendirilen doktora düzeyi bilimsel akıl yürütme testi) DeepSeek %90 puan alırken, Opus 4.6'nın %91 puanından sadece 1 puan geride kalır. Matematik olimpiyatı benchmark testlerinde (OTIS-AIME-2025, PUMaC 2024 ve SMT 2025) DeepSeek sırasıyla %97, %96 ve %96 puan almıştır. SWE-Bench Verified testinde (GitHub'daki gerçek hata düzeltmeleri üzerine kurulmuş ve çözüm oranı ile değerlendirilen test) DeepSeek %74 puan alırken, GPT-5.5 %81 puan almıştır. DeepSeek'in kendi teknik raporunda, V4 Pro'nun performansının Opus 4.6 ve GPT-5.4 ile eşdeğer olduğu iddia edilmektedir.

Maliyet karşılaştırması için CAISI, DeepSeek'e göre performansı açıkça daha düşük olan veya tek token maliyeti DeepSeek'ten açıkça daha yüksek olan tüm ABD modellerini süzerek kaldırdı. Sonunda yalnızca bir model standartları karşıladı: GPT-5.4 mini. Bu, ABD'nin tüm en gelişmiş algoritmalarını kapsıyor ve nihayetinde sadece bu bir tanesi kaldı.

DeepSeek, 7 temel testin 5'inde daha ucuz performans gösterdi ve hatta OpenAI'nin en küçük ve en az yetenekli AI modelini geçti.

İtiraz: Fark daha büyük mü, yoksa daha küçük mü?

CAISI'nin metodolojisini eleştirmek, DeepSeek'in doğruluğunu tamamen kanıtlamaz. CAISI takma adıyla bilinen AI geliştiricisi Ex0bit, doğrudan şöyle cevap verdi: “Hiçbir ‘fark’ yoktur ve kimse 8 ay geride kalmamıştır. Her Amerika kapalı satışında bizi alay ederken, açık satışta bizi kınadılar.”

Yapay zeka analizi akıllı indeks v4.0 (öncü modellerin akıllılığını 10 değerlendirmeyle izleyen bir değerlendirme sistemi), Mayıs 2026 itibarıyla OpenAI'nin puanının 60'a yakın, DeepSeek'in puanının ise 50 civarında olduğunu gösteriyor; bu da bir yıl önceye göre aradaki farkın büyük ölçüde daraldığını ifade ediyor.

Standartlaştırılmış bir temele göre, yöntemleri farkların aslında daraldığını göstermektedir.

DeepSeek ilk kez ortaya çıktığında 2025 yılında soru, Çin'in yetişip yetişmediği idi.Amerika'daki laboratuvarlar acil tepki verdi. Stanford Üniversitesi'nin 2026 Yapay Zeka İndeksi — 13 Nisan'da yayımlanan — raporunda, Claude Opus 4.6 ile Çin'in Dola-Seed-2.0 Preview arasındaArena sıralamasındaki farkın daraldığı ve şu anda sadece %2,7 fark olduğu bildirildi.

CAISI, yakında daha kapsamlı bir IRT metodolojisi açıklaması yayınlamayı planlıyor.