Звіт уряду США стверджує, що найкраща китайська модель ШІ відстає на 8 місяців

icon币界网
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Звіт уряду США від Центру стандартів та інновацій у галузі ШІ (CAISI) при NIST стверджує, що найкраща модель ШІ Китаю, DeepSeek V4 Pro, відстає від світових лідерів приблизно на вісім місяців. У звіті для оцінки продуктивності за дев’ятьма тестами використовується теорія відповіді на елементи. DeepSeek V4 Pro набрав близько 800 балів — майже як GPT-5.4 mini, але нижче, ніж GPT-5.5 та Claude Opus 4.6. Критики стверджують, що методологія має недоліки, а розрив завелик. Деякі тести залишаються закритими, що ускладнює перевірку. Тим часом регулювання CFT продовжує впливати на ліквідність та криптовалютні ринки по всьому світу.
CoinDesk повідомляє:

Американський урядовий орган опублікував результати оцінки найпотужнішого штучного інтелекту Китаю: відставання на вісім місяців, із часом розрив збільшується. Інтернет-користувачі, ознайомившись із методологією оцінки, почали ставити різні питання.

CAISI — центр стандартів та інновацій у галузі штучного інтелекту, підрозділ Національного інституту стандартів і технологій США (NIST) — опублікував звіт про оцінку DeepSeek V4 Pro, випущений 1 травня. Висновок: відкритий флагманський продукт DeepSeek «відстає від передових технологій приблизно на 8 місяців».

CAISI також називає його найпотужнішою китайською моделлю штучного інтелекту, яку коли-небудь оцінювали.

Система оцінювання

CAISI не обчислює середнє значення базових балів, як це роблять більшість оціночних агентств. Натомість він застосовує теорію реакції на предмети (статистичний метод, запозичений із стандартизованих тестів), щоб оцінити потенційні здібності кожної моделі, відстежуючи, які завдання з дев’яти базових тестів у п’яти галузях (кібербезпека, програмна інженерія, природничі науки, абстрактне мислення та математика) модель вирішила, а які — ні.

За оцінками Elo, розрахованими за IRT, GPT-5.5 має 1260 балів, Claude Opus 4.6 від Anthropic — 999 балів. Оцінка DeepSeek V4 Pro становить приблизно 800 балів (±28), що дуже близько до 749 балів у GPT-5.4 mini. У системі оцінок CAISI DeepSeek ближчий до попереднього покоління GPT mini, ніж до Opus.

Система оцінювання у тестових випробуваннях імітує спосіб, яким стандартизовані тести оцінюють учнів — не просто за відсотком правильних відповідей, а з урахуванням ваги правильних і неправильних відповідей для отримання оцінки. Ця оцінка має сенс лише у порівнянні з іншими моделями, оціненими за тими ж критеріями. Загалом, вища оцінка означає кращу модель, а найвища оцінка стає точкою відліку для вимірювання здатностей моделей.

Оскільки дві з дев’яти базових тестів не були розкриті, і різниця в цих двох тестах була найбільш вираженою, результати CAISI не можна відтворити. Наприклад, GPT-5.5 отримав 71% у одному з тестів CAISI з кібербезпеки — CTF-Archive-Diamond, тоді як DeepSeek набрав лише близько 32%.

У публічних тестах ситуація інша. У тесті GPQA-Diamond (тест наукових міркувань на рівні доктора, оцінюваний за точністю) DeepSeek набрав 90%, що лише на 1 бал менше, ніж 91% у Opus 4.6. У математичних олімпійських тестах (OTIS-AIME-2025, PUMaC 2024 і SMT 2025) DeepSeek набрав 97%, 96% і 96% відповідно. У тесті SWE-Bench Verified (на реальних виправленнях багів з GitHub, оцінюваний за відсотком вирішених випадків) DeepSeek набрав 74%, тоді як GPT-5.5 — 81%. Технічний звіт DeepSeek стверджує, що продуктивність V4 Pro порівнянна з Opus 4.6 і GPT-5.4.

Для порівняння витрат CAISI відфільтрувала всі американські моделі, які значно поступалися DeepSeek за продуктивністю або мали значно вищу вартість на один токен. У підсумку лише одна модель відповідала критеріям: GPT-5.4 mini. Це майже всі найсучасніші алгоритми США, і залишилася лише ця одна.

DeepSeek у 5 із 7 тестів показав більш низьку вартість, навіть перевершивши найменшу та найменш функціональну модель AI від OpenAI.

Аргумент проти: розрив більший чи менший?

Критика методології CAISI не може повністю довести правоту DeepSeek. Цей розробник ШІ, що використовує псевдонім CAISI, Ex0bit прямо відповів: «Немає ніякої „різниці“ і ніхто не відстає на 8 місяців. Кожного разу, коли відбувається закритий розпродаж у США, нас насміхаються, а під час відкритого розпродажу — нас засміють.»

Аналіз штучного інтелекту для розумного індексу v4.0 (система оцінки, яка відстежує інтелект передових моделей через 10 оцінок) показує, що на травень 2026 року результат OpenAI наближається до 60 балів, тоді як результат DeepSeek становить близько 50 балів — розрив значно зменшився порівняно з роком раніше.

За стандартними показниками їхній підхід свідчить, що розрив насправді зменшується.


Коли DeepSeek з’явився вперше у січні 2025 року, питанням було, чи вже Китай наздогнав.Американські лабораторії негайно відреагували. Стандфордський Індекс штучного інтелекту 2026 — опублікований 13 квітня — повідомляє, що розрив у рейтингу Arena між Claude Opus 4.6 та китайським Dola-Seed-2.0 Preview скорочується і зараз становить лише 2,7%.

CAISI планує опублікувати більш повний опис методології IRT у найближчому майбутньому.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.