Uma agência governamental dos Estados Unidos divulgou os resultados da avaliação da inteligência artificial mais poderosa da China: atrasada em oito meses, e com a lacuna aumentando ao longo do tempo. Após lerem o método de avaliação, os usuários da internet começaram a levantar várias perguntas.
CAISI——Centro de Padrões e Inovação em Inteligência Artificial, um departamento do Instituto Nacional de Padrões e Tecnologia dos EUA (NIST)—publicou relatório de avaliação do DeepSeek V4 Pro em 1º de maio. A conclusão foi: o produto estrela de código aberto da DeepSeek está “aproximadamente 8 meses atrás da vanguarda tecnológica”.
CAISI também o descreve como o modelo de inteligência artificial chinês mais poderoso já avaliado.
Sistema de classificação
CAISI não média as pontuações de referência, como a maioria das agências de avaliação. Em vez disso, aplica a teoria de resposta ao item (um método estatístico proveniente de testes padronizados) para estimar a capacidade latente de cada modelo, rastreando quais questões cada modelo resolveu e quais não resolveu nos nove benchmarks em cinco áreas (segurança cibernética, engenharia de software, ciências naturais, raciocínio abstrato e matemática).
Com base na pontuação Elo estimada pelo IRT, o GPT-5.5 tem 1260 pontos, o Claude Opus 4.6 da Anthropic tem 999 pontos. O DeepSeek V4 Pro tem pontuação de aproximadamente 800 pontos (±28), muito próxima dos 749 pontos do GPT-5.4 mini. No sistema de pontuação da CAISI, o DeepSeek está mais próximo do GPT mini da geração anterior do que do Opus.
O sistema de pontuação nos testes de referência simula a forma como exames padronizados atribuem notas aos alunos — não avaliando diretamente a taxa de acertos, mas atribuindo pesos às questões respondidas corretamente e incorretamente para derivar uma estimativa de pontuação. Essa estimativa de pontuação só possui significado relativo quando comparada com outros modelos sob a mesma avaliação. Em geral, quanto maior a pontuação, melhor o modelo, e a pontuação do melhor modelo torna-se o ponto de referência para medir a capacidade do modelo.
Como duas das nove avaliações de referência não foram divulgadas e a diferença é mais significativa nesses dois testes, os resultados do CAISI não podem ser reproduzidos. Por exemplo, o GPT-5.5 obteve 71% no teste de cibersegurança do CAISI, CTF-Archive-Diamond, enquanto o DeepSeek obteve apenas cerca de 32%.
Em testes de referência públicos, a situação é diferente. No teste GPQA-Diamond (um teste de raciocínio científico de nível de doutorado, avaliado por taxa de acerto), o DeepSeek obteve 90%, apenas 1 ponto abaixo do Opus 4.6, que obteve 91%. Nos benchmarks de Olimpíadas de Matemática (OTIS-AIME-2025, PUMaC 2024 e SMT 2025), o DeepSeek obteve pontuações de 97%, 96% e 96%, respectivamente. No teste SWE-Bench Verified (baseado em correções reais de bugs no GitHub, avaliado por taxa de resolução), o DeepSeek obteve 74%, enquanto o GPT-5.5 obteve 81%. O relatório técnico do DeepSeek afirma que o desempenho do V4 Pro é equivalente ao do Opus 4.6 e do GPT-5.4.
Para comparação de custos, a CAISI descartou todos os modelos norte-americanos cujo desempenho fosse significativamente inferior ao do DeepSeek ou cujo custo por token fosse claramente superior ao do DeepSeek. Apenas um modelo atendeu aos critérios: GPT-5.4 mini. Isso quase abrange todos os algoritmos mais avançados dos EUA, restando apenas este.
DeepSeek superou o modelo de IA mais pequeno e menos funcional da OpenAI em 5 de 7 testes de referência, sendo ainda mais econômico.
Argumento contrário: A lacuna é maior ou menor?
Criticizing CAISI's methodology does not fully prove DeepSeek's correctness. The AI developer pseudonymously known as CAISI, Ex0bit, directly rebutted: "There is no such thing as a 'gap,' and no one is eight months behind. Every time we have a private sale in the U.S., we're mocked, and during public sales, we're ridiculed."
A análise de inteligência artificial do Índice Inteligente v4.0 (um sistema de classificação que rastreia a inteligência de modelos de ponta por meio de 10 avaliações) mostra que, até maio de 2026, a pontuação da OpenAI está próxima de 60, enquanto a do DeepSeek está em torno de 50, com uma lacuna significativamente reduzida em comparação com um ano atrás.
According to standardized benchmarks, their approach indicates that the gap is actually narrowing.
Quando o DeepSeek estreou em janeiro de 2025, a questão era se a China já havia alcançado a liderança.Os laboratórios dos EUA reagiram com urgência. O Índice de Inteligência Artificial de 2026 da Stanford University — lançado em 13 de abril — relata que a diferença no ranking Arena entre o Claude Opus 4.6 e o Dola-Seed-2.0 Preview da China está diminuindo, estando atualmente apenas 2,7% de distância.
O projeto CAISI lançará uma explicação mais completa da metodologia IRT em um futuro próximo.
