หน่วยงานรัฐบาลของสหรัฐอเมริกาได้เผยแพร่ผลการประเมินปัญญาประดิษฐ์ที่ทรงพลังที่สุดของจีน: ตามหลังอยู่แปดเดือน และช่องว่างนี้กำลังขยายกว้างขึ้นเรื่อยๆ ตามเวลาที่ผ่านไป ผู้ใช้อินเทอร์เน็ตหลังจากอ่านวิธีการประเมินดังกล่าว จึงเริ่มตั้งคำถามต่างๆ มากมาย
CAISI—ศูนย์มาตรฐานและนวัตกรรมปัญญาประดิษฐ์ ซึ่งเป็นหน่วยงานภายใต้สถาบันมาตรฐานและเทคโนโลยีแห่งชาติสหรัฐอเมริกา (NIST)—เผยแพร่รายงานการประเมิน DeepSeek V4 Pro ซึ่งเปิดตัวเมื่อวันที่ 1 พฤษภาคม ข้อสรุปคือ ผลิตภัณฑ์โอเพ่นซอร์สระดับเฟิร์สคลาสของ DeepSeek “ล้าหลังเทคโนโลยีชั้นนำประมาณ 8 เดือน”
CAISI ยังเรียกมันว่าเป็นโมเดลปัญญาประดิษฐ์จีนที่ทรงพลังที่สุดเท่าที่เคยมีการประเมิน
ระบบให้คะแนน
CAISI ไม่ได้เฉลี่ยคะแนนมาตรฐานเหมือนองค์กรประเมินส่วนใหญ่ แต่ใช้ทฤษฎีการตอบสนองต่อรายการ (ซึ่งเป็นวิธีทางสถิติจากแบบทดสอบมาตรฐาน) เพื่อประมาณความสามารถเชิงลึกของแต่ละโมเดล โดยติดตามว่าแต่ละโมเดลแก้ปัญหาใดบ้างและไม่สามารถแก้ปัญหาใดบ้างในแบบทดสอบเก้าชุดในห้าด้าน (ความปลอดภัยทางไซเบอร์ วิศวกรรมซอฟต์แวร์ วิทยาศาสตร์ธรรมชาติ การให้เหตุผลเชิงนามธรรม และคณิตศาสตร์)
ตามคะแนน Elo ที่ประมาณจาก IRT, GPT-5.5 อยู่ที่ 1260 คะแนน, Claude Opus 4.6 ของ Anthropic อยู่ที่ 999 คะแนน คะแนนของ DeepSeek V4 Pro อยู่ที่ประมาณ 800 คะแนน (±28) ซึ่งใกล้เคียงกับคะแนน 749 ของ GPT-5.4 mini ในระบบการให้คะแนนของ CAISI, DeepSeek อยู่ใกล้เคียงกับ GPT mini รุ่นก่อนหน้ามากกว่า Opus
ระบบการให้คะแนนในการทดสอบพื้นฐานจำลองวิธีการให้คะแนนนักเรียนในการสอบมาตรฐาน—ไม่ได้ให้คะแนนโดยตรงตามอัตราความถูกต้อง แต่พิจารณาจากน้ำหนักของคำถามที่นักเรียนตอบถูกและตอบผิด เพื่อคำนวณค่าประมาณคะแนน ค่าประมาณคะแนนนี้มีความหมายเชิงสัมพัทธ์เท่านั้นเมื่อเปรียบเทียบกับโมเดลอื่นๆ ในการประเมินเดียวกัน โดยทั่วไป คะแนนยิ่งสูง โมเดลยิ่งดี และคะแนนของโมเดลที่ดีที่สุดจะกลายเป็นจุดอ้างอิงในการวัดความสามารถของโมเดล
เนื่องจากสองในการทดสอบทั้งหมดเก้ารายการไม่ได้เปิดเผย และช่องว่างนี้เด่นชัดที่สุดในสองการทดสอบนี้ จึงไม่สามารถทำซ้ำผลลัพธ์ของ CAISI ได้ ตัวอย่างเช่น GPT-5.5 ได้คะแนน 71% ในการทดสอบด้านความปลอดภัยทางไซเบอร์ของ CAISI หนึ่งรายการชื่อ CTF-Archive-Diamond ในขณะที่ DeepSeek ได้คะแนนเพียงประมาณ 32%
ในแบบทดสอบมาตรฐานแบบเปิดเผย สถานการณ์แตกต่างกันไป ในการทดสอบ GPQA-Diamond (แบบทดสอบการให้เหตุผลทางวิทยาศาสตร์ระดับปริญญาเอก ที่ให้คะแนนตามอัตราความถูกต้อง) DeepSeek ได้คะแนน 90% ซึ่งต่ำกว่า Opus 4.6 ที่ได้ 91% เพียง 1 เปอร์เซ็นต์ ในแบบทดสอบคณิตศาสตร์โอลิมปิก (OTIS-AIME-2025, PUMaC 2024 และ SMT 2025) DeepSeek ได้คะแนนตามลำดับ 97% 96% และ 96% ในแบบทดสอบ SWE-Bench Verified (ซึ่งวัดความสามารถในการแก้ไขบั๊กจริงบน GitHub โดยให้คะแนนตามอัตราการแก้ไขสำเร็จ) DeepSeek ได้คะแนน 74% ในขณะที่ GPT-5.5 ได้คะแนน 81% รายงานเทคนิคของ DeepSeek เองอ้างว่าประสิทธิภาพของ V4 Pro เทียบเท่ากับ Opus 4.6 และ GPT-5.4
เพื่อเปรียบเทียบต้นทุน CAISI ได้กรองออกซึ่งโมเดลของสหรัฐฯ ทั้งหมดที่มีประสิทธิภาพต่ำกว่า DeepSeek อย่างชัดเจน หรือมีต้นทุนต่อโทเค็นสูงกว่า DeepSeek อย่างมาก สุดท้ายมีเพียงโมเดลเดียวที่ผ่านเกณฑ์: GPT-5.4 mini ซึ่งแทบจะครอบคลุมอัลกอริธึมชั้นนำที่สุดของสหรัฐฯ ทั้งหมด และเหลือเพียงตัวนี้เท่านั้น
DeepSeek แสดงประสิทธิภาพที่ถูกกว่าใน 5 จาก 7 การทดสอบมาตรฐาน และยังเอาชนะโมเดล AI ที่เล็กที่สุดและมีฟังก์ชันน้อยที่สุดของ OpenAI
ข้อโต้แย้ง: ช่องว่างใหญ่ขึ้นหรือเล็กลง?
การวิจารณ์วิธีการของ CAISI ไม่สามารถพิสูจน์ความถูกต้องของ DeepSeek ได้อย่างสมบูรณ์ นักพัฒนา AI ที่ใช้นามแฝงว่า CAISI Ex0bit ตอบโต้โดยตรงว่า: “ไม่มีอะไรเรียกว่า ‘ช่องว่าง’ และไม่มีใครตามหลังไป 8 เดือน ทุกครั้งที่มีการขายแบบปิดในสหรัฐฯ เราถูกเยาะเย้ย และเมื่อเปิดขายอย่างเป็นทางการ เราถูกหัวเราะเยาะ”
การวิเคราะห์โดยปัญญาประดิษฐ์สำหรับดัชนีอัจฉริยะเวอร์ชัน 4.0 (ระบบให้คะแนนที่ติดตามความฉลาดของโมเดลชั้นนำผ่านการประเมิน 10 ครั้ง) แสดงว่า จนถึงเดือนพฤษภาคม 2026 คะแนนของ OpenAI ใกล้เคียงกับ 60 คะแนน ในขณะที่คะแนนของ DeepSeek อยู่ที่ประมาณ 50 คะแนน ซึ่งช่องว่างระหว่างกันลดลงอย่างมากเมื่อเทียบกับหนึ่งปีก่อนหน้า
ตามมาตรฐานที่กำหนด วิธีการของพวกเขาแสดงให้เห็นว่าช่องว่างจริงๆ กำลังแคบลง
เมื่อ DeepSeek ปรากฏครั้งแรกในเดือนมกราคม 2025 คำถามคือจีนได้ตามทันแล้วหรือยัง ห้องปฏิบัติการของสหรัฐฯ จึงตอบสนองอย่างเร่งด่วน ดัชนีปัญญาประดิษฐ์ของสแตนฟอร์ด ปี 2026 — เผยแพร่เมื่อวันที่ 13 เมษายน — รายงานว่าช่องว่างระหว่าง Claude Opus 4.6 กับ Dola-Seed-2.0 Preview ของจีนในตารางเรียงลำดับ Arena กำลังแคบลง และตอนนี้ห่างกันเพียง 2.7%
CAISI จะเผยแพร่คำอธิบายวิธีการ IRT ที่สมบูรณ์ยิ่งขึ้นในอีกไม่นานนี้
