Isang ahensya ng pamahalaan ng Amerika ang naglabas ng mga resulta ng pagtataya sa pinakamalakas na artificial intelligence ng Tsina: nasa likod ng walong buwan, at lalong lumalalim ang pagkakaiba habang dumadaloy ang panahon. Pagkatapos basahin ng mga user sa internet ang paraan ng pagtataya, nagsimula silang magtanong ng iba’t ibang mga katanungan.
CAISI—ang Sentro ng Pamantayan at Inobasyon sa Artificial Intelligence, isang ahensya sa ilalim ng National Institute of Standards and Technology (NIST) ng Estados Unidos—inilabas ang ulat ng pagtataya noong Mayo 1, na ang DeepSeek V4 Pro ay “nasa likod ng mga pinakabagong teknolohiya ng humigit-kumulang 8 buwan”.
Kinilala rin ni CAISI ito bilang pinakamalakas na Chinese AI model na nasuri hanggang ngayon.
Rating system
Hindi tulad ng karamihan sa mga ahensya ng pagtataya, ang CAISI ay hindi nag-aaverage ng mga puntuasyon sa benchmark. Sa halip, gamit nito ang Item Response Theory (isang istatistikal na paraan mula sa standardized testing) upang matantiya ang potensyal na kakayahan ng bawat modelo sa pamamagitan ng pagsunod sa anong mga tanong ang bawat modelo ay nalutas at anong mga tanong ay hindi nalutas sa siyam na benchmark sa limang larangan (cybersecurity, software engineering, natural sciences, abstract reasoning, at mathematics).
Batay sa Elo rating na inaasahang mula sa IRT, ang GPT-5.5 ay may 1260 puntos, habang ang Claude Opus 4.6 ng Anthropic ay may 999 puntos. Ang DeepSeek V4 Pro ay may score na humigit-kumulang 800 puntos (±28), na napakalapit sa 749 puntos ng GPT-5.4 mini. Sa sistema ng pagmamarka ng CAISI, mas malapit ang DeepSeek sa nakaraang henerasyon ng GPT mini kaysa sa Opus.
Ang sistema ng pagmamarka sa benchmark ay sumasalamin sa paraan kung paano binabatay ang mga estudyante sa standardized test—hindi direktang batay sa rate ng tamang sagot, kundi batay sa timbang ng mga tanong na tama at mali, upang makakuha ng estima ng marka. Ang estima ng marka ay may kahulugan lamang kapag ihahambing sa ibang modelo sa parehong pagtataya. Sa pangkalahatan, mas mataas ang marka, mas maganda ang modelo, at ang pinakamataas na marka ay magiging batayan para sa pagtukoy sa kakayahan ng modelo.
Dahil dalawa sa siyam na benchmark ay hindi ipinakita, at ang pinakamalaking pagkakaiba ay nangyari sa dalawang ito, hindi makakapag-reproduce ng resulta ni CAISI. Halimbawa, ang GPT-5.5 ay nakakuha ng 71% sa isa sa mga cybersecurity test ni CAISI na CTF-Archive-Diamond, samantalang ang DeepSeek ay may score lamang ng halos 32%.
Sa publikong benchmark, iba ang sitwasyon. Sa GPQA-Diamond test (isang doktorate-level na scientific reasoning test na iskore sa porsyento ng tamang sagot), ang DeepSeek ay nakakuha ng 90%, na lamang 1 porsyento ang mas mababa kaysa sa 91% ng Opus 4.6. Sa mathematical olympiad benchmarks (OTIS-AIME-2025, PUMaC 2024, at SMT 2025), ang DeepSeek ay nakakuha ng 97%, 96%, at 96% ayon sa pagkakasunod-sunod. Sa SWE-Bench Verified test (na tumutukoy sa tunay na bug fixes sa GitHub, na iskore sa porsyento ng paglutas), ang DeepSeek ay nakakuha ng 74%, habang ang GPT-5.5 ay nakakuha ng 81%. Ayon sa sariling teknikal na report ng DeepSeek, ang performance ng V4 Pro ay katumbas ng Opus 4.6 at GPT-5.4.
Para sa paghahambing ng gastos, inalis ng CAISI ang lahat ng mga modelong Amerikano na may malaking pagkakaiba sa performance kumpara sa DeepSeek o may mas mataas na gastos per token kaysa sa DeepSeek. Ang natirang isang model lamang ang sumusunod sa mga pamantayan: GPT-5.4 mini. Ito ay halos naglalaman ng lahat ng pinakamoderno mga algoritmo sa Amerika, at natitira na lamang ito.
Mas mura ang DeepSeek sa 5 sa 7 na benchmark, at nakalabas pa sa pinakamaliit at pinakamaliit na AI model ng OpenAI.
Tutol na pananaw: Mas malaki ba o mas maliit ang pagkakaiba?
Hindi makakatotohanan ang pagtutol sa metodolohiya ni CAISI upang patunayan ang kawastuhan ng DeepSeek. Direktang tumutol si Ex0bit, ang AI developer na gumagamit ng pseudonym na CAISI: “Wala talagang ‘pagkakalayo,’ at wala ring sinuman na naiiwan ng 8 buwan. Sa bawat pribadong pagbebenta sa Amerika, sinisisi tayo, habang sa publikong pagbebenta, sinasayang tayo.”
Ang pag-aaral ng artificial intelligence sa Intelligent Index v4.0 (isang sistema ng pagrerepaso na sumusunod sa intelihensya ng mga modelo sa harap sa pamamagitan ng 10 pagtataya) ay nagpapakita na hanggang Mayo 2026, ang marka ng OpenAI ay malapit sa 60, habang ang marka ng DeepSeek ay nasa paligid ng 50, na mas maliit ang pagkakaiba kumpara sa isang taon na ang nakalipas.
Batay sa standardisadong benchmark, ang kanilang paraan ay nagpapakita na ang pagkakabawas ay tunay na umuunlad.
Noong unang pagkakataon na lumabas ang DeepSeek noong Enero 2025, ang tanong ay kung kaya na ba ng China na makahabol.Agad na tumugon ang mga laboratorio sa Amerika. Ang 2026 AI Index ng Stanford University—ipinakalabas noong Abril 13—ay nagsasabing ang pagkakaiba sa Arena Rankings sa pagitan ng Claude Opus 4.6 at ang Dola-Seed-2.0 Preview ng China ay nagkakalayo, at kasalukuyang nasa 2.7% lamang.
Ang CAISI ay magpapalabas ng mas kompletong pagsasaliw ng IRT methodology sa malapit na hinaharap.
