Американський урядовий орган опублікував результати оцінки найпотужнішого штучного інтелекту Китаю: відставання на вісім місяців, із часом розрив збільшується. Інтернет-користувачі, ознайомившись із методологією оцінки, почали ставити різні питання.
CAISI — центр стандартів та інновацій у галузі штучного інтелекту, підрозділ Національного інституту стандартів і технологій США (NIST) — опублікував звіт про оцінку DeepSeek V4 Pro, випущений 1 травня. Висновок: відкритий флагманський продукт DeepSeek «відстає від передових технологій приблизно на 8 місяців».
CAISI також називає його найпотужнішою китайською моделлю штучного інтелекту, яку коли-небудь оцінювали.
Система оцінювання
CAISI не обчислює середнє значення базових балів, як це роблять більшість оціночних агентств. Натомість він застосовує теорію реакції на предмети (статистичний метод, запозичений із стандартизованих тестів), щоб оцінити потенційні здібності кожної моделі, відстежуючи, які завдання з дев’яти базових тестів у п’яти галузях (кібербезпека, програмна інженерія, природничі науки, абстрактне мислення та математика) модель вирішила, а які — ні.
За оцінками Elo, розрахованими за IRT, GPT-5.5 має 1260 балів, Claude Opus 4.6 від Anthropic — 999 балів. Оцінка DeepSeek V4 Pro становить приблизно 800 балів (±28), що дуже близько до 749 балів у GPT-5.4 mini. У системі оцінок CAISI DeepSeek ближчий до попереднього покоління GPT mini, ніж до Opus.
Система оцінювання у тестових випробуваннях імітує спосіб, яким стандартизовані тести оцінюють учнів — не просто за відсотком правильних відповідей, а з урахуванням ваги правильних і неправильних відповідей для отримання оцінки. Ця оцінка має сенс лише у порівнянні з іншими моделями, оціненими за тими ж критеріями. Загалом, вища оцінка означає кращу модель, а найвища оцінка стає точкою відліку для вимірювання здатностей моделей.
Оскільки дві з дев’яти базових тестів не були розкриті, і різниця в цих двох тестах була найбільш вираженою, результати CAISI не можна відтворити. Наприклад, GPT-5.5 отримав 71% у одному з тестів CAISI з кібербезпеки — CTF-Archive-Diamond, тоді як DeepSeek набрав лише близько 32%.
У публічних тестах ситуація інша. У тесті GPQA-Diamond (тест наукових міркувань на рівні доктора, оцінюваний за точністю) DeepSeek набрав 90%, що лише на 1 бал менше, ніж 91% у Opus 4.6. У математичних олімпійських тестах (OTIS-AIME-2025, PUMaC 2024 і SMT 2025) DeepSeek набрав 97%, 96% і 96% відповідно. У тесті SWE-Bench Verified (на реальних виправленнях багів з GitHub, оцінюваний за відсотком вирішених випадків) DeepSeek набрав 74%, тоді як GPT-5.5 — 81%. Технічний звіт DeepSeek стверджує, що продуктивність V4 Pro порівнянна з Opus 4.6 і GPT-5.4.
Для порівняння витрат CAISI відфільтрувала всі американські моделі, які значно поступалися DeepSeek за продуктивністю або мали значно вищу вартість на один токен. У підсумку лише одна модель відповідала критеріям: GPT-5.4 mini. Це майже всі найсучасніші алгоритми США, і залишилася лише ця одна.
DeepSeek у 5 із 7 тестів показав більш низьку вартість, навіть перевершивши найменшу та найменш функціональну модель AI від OpenAI.
Аргумент проти: розрив більший чи менший?
Критика методології CAISI не може повністю довести правоту DeepSeek. Цей розробник ШІ, що використовує псевдонім CAISI, Ex0bit прямо відповів: «Немає ніякої „різниці“ і ніхто не відстає на 8 місяців. Кожного разу, коли відбувається закритий розпродаж у США, нас насміхаються, а під час відкритого розпродажу — нас засміють.»
Аналіз штучного інтелекту для розумного індексу v4.0 (система оцінки, яка відстежує інтелект передових моделей через 10 оцінок) показує, що на травень 2026 року результат OpenAI наближається до 60 балів, тоді як результат DeepSeek становить близько 50 балів — розрив значно зменшився порівняно з роком раніше.
За стандартними показниками їхній підхід свідчить, що розрив насправді зменшується.
Коли DeepSeek з’явився вперше у січні 2025 року, питанням було, чи вже Китай наздогнав.Американські лабораторії негайно відреагували. Стандфордський Індекс штучного інтелекту 2026 — опублікований 13 квітня — повідомляє, що розрив у рейтингу Arena між Claude Opus 4.6 та китайським Dola-Seed-2.0 Preview скорочується і зараз становить лише 2,7%.
CAISI планує опублікувати більш повний опис методології IRT у найближчому майбутньому.
