Американское государственное учреждение опубликовало оценку самого мощного китайского искусственного интеллекта: отставание на восемь месяцев, причем с течением времени разрыв увеличивается. Интернет-пользователи, ознакомившись с методологией оценки, начали задавать различные вопросы.
CAISI — центр стандартов и инноваций в области искусственного интеллекта, подразделение Национального института стандартов и технологий США (NIST) — опубликовал отчет об оценке DeepSeek V4 Pro, выпущенного 1 мая. Вывод: открытый флагманский продукт DeepSeek «отстает от передовых технологий примерно на 8 месяцев».
CAISI также называет его самым мощным китайским искусственным интеллектом, который когда-либо оценивался.
Рейтинговая система
CAISI не усредняет баллы по эталонам, как большинство оценочных организаций. Вместо этого он применяет теорию ответа на предметы (статистический метод, используемый в стандартизированных тестах) для оценки скрытой способности каждой модели, отслеживая, какие задачи каждая модель решила, а какие не решила на девяти эталонах в пяти областях: кибербезопасность, программная инженерия, естественные науки, абстрактное мышление и математика.
На основе оценок Elo, рассчитанных по IRT, GPT-5.5 имеет 1260 баллов, Claude Opus 4.6 от Anthropic — 999 баллов. Оценка DeepSeek V4 Pro составляет около 800 баллов (±28), что очень близко к 749 баллам у GPT-5.4 mini. В системе оценок CAISI DeepSeek ближе к предыдущему поколению GPT mini, чем к Opus.
Система оценок в тестировании имитирует способ оценки студентов на стандартизированных экзаменах — оценка присваивается не просто на основе процента правильных ответов, а с учетом веса правильных и неправильных ответов, что позволяет получить приблизительную оценку. Эта приблизительная оценка имеет смысл только в сравнении с другими моделями, прошедшими ту же оценку. Как правило, чем выше оценка, тем лучше модель; оценка лучшей модели становится эталоном для измерения способностей моделей.
Поскольку две из девяти базовых тестовых задач не были раскрыты, и разница наиболее заметна именно в этих двух тестах, результаты CAISI невозможно воспроизвести. Например, GPT-5.5 набрал 71% на одном из тестов CAISI по кибербезопасности — CTF-Archive-Diamond, тогда как DeepSeek показал результат около 32%.
В открытых тестах ситуация иная. В тесте GPQA-Diamond (тест научных рассуждений на уровне докторантуры, оцениваемый по точности) DeepSeek набрал 90%, что всего на 1 процентный пункт ниже, чем у Opus 4.6 с результатом 91%. В тестах по математическим олимпиадам (OTIS-AIME-2025, PUMaC 2024 и SMT 2025) DeepSeek показал результаты 97%, 96% и 96% соответственно. В тесте SWE-Bench Verified (на реальных исправлениях багов из GitHub, оцениваемом по доле решенных случаев) DeepSeek набрал 74%, тогда как GPT-5.5 показал 81%. Сама техническая отчетность DeepSeek утверждает, что производительность V4 Pro сопоставима с Opus 4.6 и GPT-5.4.
Для сравнения затрат CAISI отфильтровала все американские модели, чья производительность значительно ниже, чем у DeepSeek, или стоимость на один токен значительно выше, чем у DeepSeek. В итоге соответствовало критериям только одна модель: GPT-5.4 mini. Это практически все передовые алгоритмы США, которые остались в итоге.
DeepSeek продемонстрировал более низкую стоимость в 5 из 7 тестов, даже превзойдя самую маленькую и наименее функциональную модель AI от OpenAI.
Оппонентская точка зрения: разница больше или меньше?
Критика методологии CAISI не может полностью доказать правоту DeepSeek. Этот разработчик ИИ, выдающий себя за CAISI, Ex0bit, напрямую опровергает: «Ни о каком “разрыве” речи не идет, никто не отстал на восемь месяцев. Каждый раз, когда у нас закрытый выпуск в США, нас высмеивают, а при открытом выпуске нас тоже высмеивают».
Анализ искусственного интеллекта для интеллектуального индекса v4.0 (система рейтингов, отслеживающая интеллект передовых моделей через 10 оценок) показывает, что на май 2026 года результат OpenAI приближается к 60 баллам, а результат DeepSeek составляет около 50 баллов — разрыв значительно сократился по сравнению с годом назад.
Согласно стандартизированному эталону, их метод показывает, что разрыв фактически сокращается.
Когда DeepSeek впервые появился в январе 2025 года, вопрос заключался в том, догнала ли Китай.Американские лаборатории срочно отреагировали. Стэнфордский Индекс искусственного интеллекта 2026 — опубликован 13 апреля — сообщает, что разрыв в рейтинге Arena между Claude Opus 4.6 и китайским Dola-Seed-2.0 Preview сокращается и сейчас составляет всего 2,7%.
CAISI планирует опубликовать более полное описание методологии IRT в ближайшем будущем.
