Un informe del gobierno de EE. UU. afirma que el modelo de IA más avanzado de China está 8 meses atrás

CoinDesk informa:

Una agencia gubernamental de Estados Unidos publicó los resultados de la evaluación de la inteligencia artificial más poderosa de China: ocho meses por detrás, y la brecha se amplía con el tiempo. Los usuarios de internet, tras leer el método de evaluación, comenzaron a plantear diversas preguntas.

CAISI—el Centro de Estándares e Innovación en Inteligencia Artificial, una división del Instituto Nacional de Estándares y Tecnología de EE.UU. (NIST)—publicó un informe de evaluación sobre DeepSeek V4 Pro, lanzado el 1 de mayo. La conclusión fue que el producto estrella de código abierto de DeepSeek “está aproximadamente 8 meses atrás de la vanguardia tecnológica”.

CAISI también lo califica como el modelo de inteligencia artificial chino más potente evaluado hasta la fecha.

Sistema de calificación

CAISI no promedia las puntuaciones de referencia como la mayoría de las instituciones de evaluación. En cambio, aplica la teoría de respuesta al ítem (un método estadístico proveniente de pruebas estandarizadas) para estimar la capacidad latente de cada modelo, rastreando qué problemas resolvió y cuáles no resolvió cada modelo en los nueve benchmarks de cinco dominios (ciberseguridad, ingeniería de software, ciencias naturales, razonamiento abstracto y matemáticas).

Según las puntuaciones Elo estimadas por IRT, GPT-5.5 obtiene 1260 puntos, Claude Opus 4.6 de Anthropic obtiene 999 puntos. DeepSeek V4 Pro obtiene aproximadamente 800 puntos (±28), muy cercano a los 749 puntos de GPT-5.4 mini. En el sistema de puntuación de CAISI, DeepSeek está más cerca de la generación anterior de GPT mini que de Opus.

El sistema de puntuación en las pruebas de referencia simula la forma en que se califican a los estudiantes en exámenes estandarizados: no se evalúa directamente la tasa de respuestas correctas, sino que se asigna peso a las preguntas respondidas correctamente e incorrectamente para obtener una estimación de la puntuación. Esta estimación de puntuación solo tiene sentido relativo cuando se compara con otros modelos bajo la misma evaluación. En general, una puntuación más alta indica un mejor modelo, y la puntuación del mejor modelo servirá como punto de referencia para medir la capacidad del modelo.

Dado que dos de las nueve pruebas de referencia no son públicas y que la brecha es más significativa en estas dos pruebas, no es posible reproducir los resultados de CAISI. Por ejemplo, GPT-5.5 obtuvo un puntaje del 71% en una de las pruebas de ciberseguridad de CAISI, CTF-Archive-Diamond, mientras que DeepSeek obtuvo aproximadamente un 32%.

En las pruebas de referencia públicas, la situación es diferente. En la prueba GPQA-Diamond (una prueba de razonamiento científico de nivel doctoral, evaluada por tasa de precisión), DeepSeek obtuvo un 90%, solo 1 punto por debajo del 91% de Opus 4.6. En las pruebas de referencia de Olimpiadas Matemáticas (OTIS-AIME-2025, PUMaC 2024 y SMT 2025), DeepSeek obtuvo puntajes del 97%, 96% y 96%, respectivamente. En la prueba SWE-Bench Verified (que evalúa la resolución de errores reales en GitHub, medida por tasa de solución), DeepSeek obtuvo un 74%, mientras que GPT-5.5 obtuvo un 81%. El informe técnico de DeepSeek afirma que el rendimiento de V4 Pro es comparable al de Opus 4.6 y GPT-5.4.

Para la comparación de costos, CAISI descartó todos los modelos estadounidenses cuyo rendimiento fuera significativamente inferior al de DeepSeek o cuyo costo por token fuera claramente superior al de DeepSeek. Solo un modelo cumplió con los criterios: GPT-5.4 mini. Esto prácticamente abarca todos los algoritmos más avanzados de Estados Unidos, y finalmente solo quedó este.

DeepSeek superó al modelo de IA más pequeño y menos funcional de OpenAI en 5 de 7 pruebas de referencia, siendo incluso más económico.

Argumento contrario: ¿La brecha es mayor o menor?

Criticar la metodología de CAISI no prueba completamente la corrección de DeepSeek. El desarrollador de IA que se hace llamar CAISI, Ex0bit, respondió directamente: “No existe ninguna ‘brecha’ ni nadie está 8 meses atrás. Cada vez que tenemos una venta privada en Estados Unidos, nos burlamos, y cuando lanzamos públicamente, nos ridiculizan.”

El análisis de inteligencia artificial del Índice Inteligente v4.0 (un sistema de calificación que rastrea la inteligencia de modelos de vanguardia a través de 10 evaluaciones) muestra que, hasta mayo de 2026, OpenAI obtuvo una puntuación cercana a 60, mientras que DeepSeek obtuvo alrededor de 50, reduciendo significativamente la brecha respecto a hace un año.

Según una referencia estandarizada, su método indica que la brecha realmente se está reduciendo.

DeepSeek首次亮相时在2025年1月，问题是中文是否已经赶上。美国各实验室迅速作出反应。斯坦福大学的2026年人工智能指数——于4月13日发布——报道称，Claude Opus 4.6与中国Dola-Seed-2.0 Preview在Arena排行榜上的差距正在缩小，目前仅相差2.7%。

CAISI planea publicar una descripción más completa de la metodología IRT en un futuro cercano.