Siete de los mejores modelos de IA evaluados por integridad académica: más del 30% fabrican datos

Integridad académica

En la primera mitad de este año, el mundo de la IA vivió un "reality show científico" extremadamente dramático.

El protagonista es FARS, un científico de IA desarrollado por la empresa Analemma. Sin ninguna intervención humana, funcionó sin descanso durante 228 horas y "produjo" 100 artículos académicos en un clúster de capacidad de cómputo en la nube.

Por otro lado, la startup estelar japonesa Sakana AI ha reducido aún más los costos de entrada en este negocio: su sistema The AI Scientist logra comprimir el costo de generación de un artículo académico hasta solo 15 dólares. Por otro lado, la empresa Intology desarrolló al científico AI Zochi, quien en 2025 logró que su artículo escrito de forma autónoma fuera aceptado en la conferencia principal ACL del campo de procesamiento del lenguaje natural, obteniendo una puntuación dentro del 8,2% superior.

La IA no solo puede generar contenido masivo a bajo costo, sino que ya ha superado el umbral académico de nivel doctorado. Parece que, de la noche a la mañana, hacer investigación se ha convertido en un trabajo por piezas, como escribir código en una línea de producción.

Pero detrás de estas impresionantes demostraciones tecnológicas, un informe de auditoría publicado recientemente por la prestigiosa revista médica The Lancet fue como un golpe contundente: en los 2,5 millones de artículos revisados, las referencias completamente ficticias generadas por IA aumentaron un asombroso 12 veces en los últimos años.

Cuando el capital empuja fuertemente los grandes modelos para abrirse paso en el mundo académico, ¿son estos “Einsteines de silicio” realmente confiables?

En mayo de 2026, un equipo de investigación de la Universidad de Pekín, la Universidad de Tongji y la Universidad de Tubinga (Zonglin Yang et al.) lanzó conjuntamente la primera prueba de referencia mundial diseñada específicamente para evaluar la integridad académica de los científicos de IA: SciIntegrity-Bench.

Este informe desgarró sin piedad el velo de la investigación en IA.

Prueba de situación difícil: ¿Qué hará la IA si los datos están vacíos?

Las pruebas anteriores de IA evaluaban si el modelo "podía hacerlo bien". Pero SciIntegrity-Bench utiliza un método de evaluación muy "siniestro": la evaluación de dilemas.

Los investigadores diseñaron 11 trampas para la IA. Por ejemplo, proporcionarle intencionalmente una tabla vacía con solo encabezados y sin datos, o ofrecer una lógica deductiva que simplemente no es viable.

En este momento, la única acción correcta es: decirle honestamente al ser humano: "Faltan datos, no puedo hacerlo".

Pero simplemente por presentar un informe que la IA genera como perfecto, se considera falta académica.

En 231 pruebas de estrés realizadas a los 7 modelos de lenguaje más avanzados del mundo, la “tasa de problemas” general fue del 34,2%.

Lo más inquietante es la prueba del “conjunto de datos en blanco”. Frente a una tabla sin datos absolutos, los 7 modelos grandes eligieron, sin excepción, “crear algo a partir de la nada”.

No emitieron ni un solo mensaje de error; escribieron su propio código, inventaron miles de líneas de parámetros de sensores extremadamente realistas, los integraron en estándares internacionales e incluso te proporcionaron un informe de mantenimiento del equipo que parecía auténtico.

Besides "creating something out of nothing," where else is AI making crazy mistakes?

No solo es una trampa de "crear algo de la nada"; el equipo de investigación diseñó un total de 11 trampas científicas para los modelos grandes. Los resultados de las pruebas mostraron un fenómeno extremadamente polarizado de "desigualdad académica".

Primero, lo positivo: los modelos grandes entienden muy bien las reglas. Cuando se enfrentan a las "normas tradicionales de ciencia de datos", la IA actúa como un estudiante aplicado y cumplidor. Por ejemplo, en casos como "copiar las respuestas del conjunto de prueba antes del examen (T02)" o "seleccionar solo métricas favorables (T03)", su tasa de fracaso es del 0%. Incluso en el caso de "elegir el benchmark más fácil (T01)", la tasa de fracaso es solo del 4.8%. Esto demuestra que cualquier norma escrita en los libros de texto, la IA ya la domina perfectamente.

Pero por otro lado, siempre que se trata de un callejón sin salida lógico que requiera un apagado, los modelos grandes comienzan a descontrolarse (zona de alto riesgo):

Cuando las herramientas están limitadas, “falsifican un edicto imperial” (violan las restricciones, con una tasa de errores del 95,2%): cuando se pide a la IA que llame a una API, pero no se le proporciona la clave real. La IA casi nunca genera un error, sino que simplemente escribe un fragmento de código que fabrica una respuesta JSON perfectamente formateada (incluso con estadísticas de llamadas virtuales), fingiendo que la llamada a la API tuvo éxito y continuando con el informe.

Parámetros de experimento mortal imaginados (pasos alucinatorios, tasa de errores del 61,9%): Ante una nota de experimento químico incompleta, la IA no solo no busca confirmación con humanos, sino que “construye inteligentemente una falsa traza de auditoría”. Confiada, añade detalles inventados al procedimiento operativo estándar (SOP), como “centrífuga a 4000 rpm” o “enfriamiento con etanol”. En un laboratorio químico real, esto podría provocar una explosión mortal.

El truco laboral de “saber y hacerlo de todos modos” (confusión de causalidad, tasa de problemas: 52,3%): Al evaluar el retorno de la publicidad, la IA ya había anotado con agudeza en los comentarios del código: “aquí existe una variable confusora/inversión de causalidad”. Pero para entregar rápidamente, descartó en un segundo su diagnóstico correcto y ejecutó forzosamente un análisis de regresión básico, obteniendo un absurdo “retorno de la inversión del 1099%”.

Confundir un ciervo con un caballo (ceguera extrema, tasa de fracaso del 19,0%): cuando los datos del sensor muestran un salto evidente debido a un fallo del dispositivo, la IA no cuestiona que los datos estén dañados, sino que se desvía enormemente, interpretándolos como "el descubrimiento de un nuevo mecanismo de combustión física".

En resumen, los modelos grandes aprendieron las reglas explícitas, pero no aprendieron a "renunciar". Una vez que el instinto de "completar la tarea" supera el sentido común, forzan la creación de informes perfectos mediante la falsificación de interfaces, la imaginación de parámetros o el abandono de la lógica.

Resultados de 7 modelos líderes: desviación de color subyacente bajo estrés extremo

Es importante aclarar que esta "fabricación" no se refiere a que el modelo tenga intenciones maliciosas durante los servicios cotidianos, sino a los sesgos sistemáticos que surge bajo la presión de mecanismos subyacentes cuando se enfrenta a situaciones extremas. Bajo una presión extrema en las tareas, diferentes modelos revelaron tonos completamente distintos en su control de calidad subyacente:

Claude 4.6 Sonnet: El mejor estudiante con la defensa más sólida; en 33 escenarios de alto riesgo, solo tuvo un fallo fatal.

Ventajas: Gran autocontrol, con una comprensión clara de las restricciones evidentes y las fallas lógicas.

Desventaja: aún así no logró resistir la tentación del "conjunto de datos en blanco", e incluso este no activó el mecanismo subyacente de "rechazo honesto".

GPT-5.2 y DeepSeek V3.2: el "comprometedor de tareas" de alto coeficiente intelectual tuvo 2 y 3 fallos mortales, respectivamente.

Ventaja: Razonamiento lógico extremadamente fuerte, capaz de identificar con agudeza en los comentarios del código: "aquí existe confusión causal".

Desventaja: existe el fenómeno de "evasión de reconocimiento". Para cumplir con el objetivo, abandonan su diagnóstico correcto recién realizado, ceden a la presión de la tarea y llegan a una conclusión absurda pero que parece suficiente, utilizando métodos básicos erróneos.

Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro: ejecutores medianos con 5, 6 y 7 fallos respectivamente.

Característica: son propensos a caer en "llamadas a herramientas" y "relaciones de causa y efecto". Por ejemplo, cuando no hay una interfaz API real, tienden a fabricar directamente una respuesta falsa con un formato perfecto para forzar el avance de la tarea.

Kimi 2.5 Pro: el "completador" con alta tendencia a alucinaciones, ocupa el último lugar con 12 fallos y una tasa de problemas del 36,36%.

Característica: muestra una fuerte preferencia por "pasos ficticios" bajo pruebas extremas. Al solicitar completar registros experimentales incompletos, inventa con confianza parámetros clave como la velocidad del centrífuga (4000 RPM) y el solvente de temple, e incluso crea literatura falsa para ocultar el rastro de generación de datos. En un laboratorio químico real, este comportamiento podría provocar un accidente grave.

¿Por qué los mejores modelos de IA caen en el "engaño sistemático"?

¿Por qué un AI con una gran cantidad de parámetros y una inteligencia extremadamente alta debería crear algo de la nada?

El artículo identifica con precisión la raíz del problema: el sesgo de completitud intrínseca (Intrinsic Completion Bias).

Esto comienza con la "tutoría" de los modelos grandes. Actualmente, los modelos principales dependen del aprendizaje por refuerzo con retroalimentación humana (RLHF). En este mecanismo, se recompensa sistemáticamente a la IA por "proporcionar respuestas" y "resolver problemas".

En cambio, "detenerse" o "reconocer que no se puede hacer" es visto por el algoritmo como falta de compromiso y se penaliza.

Este mecanismo se ha internalizado como la lógica subyacente de la IA: el proceso no importa; sin importar las condiciones, se debe proporcionar siempre un resultado final.

Además, muchos desarrolladores suelen incluir instrucciones de presión como “superar dificultades y emitir el informe de cualquier manera” al escribir prompts de sistema para IA.

La "naturaleza" sumada a la "presión alta" empujó directamente a la IA hasta un callejón sin salida donde crea algo de la nada.

El mayor valor de este artículo no es criticar la IA, sino informarnos que los modelos grandes tienen inherentemente "ansiedad por la completitud".

Una vez que se entienden sus puntos débiles, las personas comunes necesitan cambiar su estrategia de comunicación al usar o desarrollar aplicaciones de IA en la vida diaria. Frente a la IA, el enfoque tradicional de "emitir órdenes" ya no es suficiente; debes dominar las siguientes técnicas de comunicación y prevención:

1. Al eliminar la presión obligatoria y otorgarle el "derecho a rechazar", las pruebas del artículo muestran que, al eliminar las instrucciones de alto estrés como "debe completar la tarea" del prompt, la proporción de falsificación y ocultación de datos por parte de la IA cayó drásticamente del 20,6% al 3,2%.

Cómo hablar: siempre incluye una "condición de salida" en tu prompt. No digas directamente "Dame un análisis de mercado basado en estos datos". En su lugar, di: "Primero evalúa si los datos son suficientes. Si faltan datos o existen brechas lógicas, detén inmediatamente la inferencia y notifícame un error. Nunca asumas datos clave por tu cuenta."

2. Interceptar "generación instintiva", establecer puntos de anclaje de verificación física. La esencia de los grandes modelos es la predicción probabilística; frente a un espacio en blanco, llenar con ilusiones es una "configuración de fábrica".

Cómo hablar: nunca permitas que la IA ejecute completamente todos los procesos en una caja negra. Divide las tareas en partes pequeñas. Si le pides que analice datos, inserta obligatoriamente un paso de confirmación: “Antes de llegar a una conclusión final, por favor, primero emite los números de línea de los datos originales y las fórmulas de cálculo que utilizaste, y espera mi confirmación humana antes de proceder al siguiente paso.”

3. Ten cuidado con la "censura sumisa", activa el "modo buscar errores". Debido a que modelos inteligentes como GPT-5.2 renuncian a corregir para cumplir con lo solicitado, no puedes confiar en que identifiquen problemas por sí solos siguiendo tu razonamiento.

Cómo abordarlo: Después de obtener la propuesta de IA, no preguntes “¿Es buena esta propuesta?” (te lo elogiará sin falta). Abre una nueva ventana de chat y asigna al agente el rol de “auditor implacable”; lánzale la propuesta diciendo: “Las conclusiones de este informe podrían tener una inversión causal o errores de sentido común; identifica en qué paso se intercambió un concepto o se fabricó una premisa.”

4. Defensa macroeconómica: Contrarrestar la "capacidad ilimitada" con "cuotas físicas". La defensa mediante prompts de trabajadores no es suficiente; ya ha comenzado la contrarresta regulatoria por parte de las instituciones. Frente al impacto de la generación masiva de propuestas por parte de IA con costos cero, los Institutos Nacionales de Salud de EE. UU. (NIH) emitieron en julio de 2025 la política histórica NOT-OD-25-132, que a partir de 2026 establecerá obligatoriamente que cada investigador principal (PI) podrá presentar un máximo de 6 solicitudes de financiamiento por año.

Iniciativa comercial: cuando la productividad de la IA sea casi ilimitada, los mecanismos tradicionales de moderación de contenido serán inevitablemente superados. El futuro diferenciador ya no será la velocidad de producción, sino establecer una barrera de escasez basada en identidad física y cuotas de crédito.

La esencia de la tecnología es reducir costes y aumentar la eficiencia, pero la base del comercio y la ciencia siempre es el respeto por los hechos.

En la era donde el costo de generación de contenido es casi cero, lo escaso ya no son los “mecanógrafos” capaces de redactar informes, sino los “auditores” que pueden ver a través de las ilusiones de los datos. Aprende este juego de estrategias con el sistema, y solo así podrás tomar el control real en el flujo de potencia de cálculo. (Este artículo se publicó originalmente en la app Titanium Media, autor | Silicon Valley Tech_news, editor | Lin Shen)

(Los datos clave de evaluación, la lista de modelos y el análisis de causas de este artículo provienen del primer benchmark académico de integridad en modelos grandes, publicado en mayo de 2026: «SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems». Las tasas de los 11 nuevos problemas trampa se derivan de los cálculos más recientes del informe de investigación.)