Aquí hay una pregunta que mantiene despiertos a los investigadores: ¿puede la IA realmente hacer matemáticas, o simplemente es muy buena en reconocer patrones en problemas que ya ha visto antes? Un grupo de 30 matemáticos de Harvard decidió descubrirlo de la manera más difícil, entregando a los sistemas de IA principales una prueba para la que imposiblemente pudieran haber estudiado.
El proyecto, llamado “Primera Prueba, Segundo Lote”, reunió a su panel de expertos en el Centro de Ciencias Matemáticas y Aplicaciones de Harvard a principios de junio de 2026. Su tarea era sencilla pero sin precedentes en escala: calificar ciegamente soluciones generadas por IA a 10 problemas matemáticos de nivel investigativo, originales y no publicados. Los resultados, publicados el 10 de junio, presentan una imagen que no es ni el escenario de desastre ni el triunfo que los partidarios de ambos lados podrían preferir.
La configuración: por qué importan los problemas no publicados
Todo el ejercicio depende de una elección de diseño crítica. Todos los problemas del conjunto se extrajeron de investigación activa y no publicada. Ninguna de estas preguntas había aparecido en libros de texto, en arXiv o en cualquier otro lugar donde los datos de entrenamiento de una IA pudieran haberlos recopilado.
Los matemáticos detrás del proyecto tampoco son precisamente personas sin importancia. El equipo incluye a Mohammed Abouzaid de Stanford, Nikhil Srivastava de la UC Berkeley, Rachel Ward de la UT Austin y Lauren Williams de Harvard.
Lo que la IA realmente acertó y qué falló
Cuatro sistemas de IA líderes participaron en la evaluación, incluyendo modelos de OpenAI y Google. La cifra principal: el panel de expertos otorgó calificaciones aprobatorias en siete de los 10 problemas en los cuatro sistemas evaluados.
En pruebas preliminares y de prueba inicial, se informó que los sistemas de IA resolvieron solo 2 de los 10 problemas. La brecha entre el desempeño inicial y los resultados finales sugiere que los modelos podrían haberse beneficiado de múltiples intentos o estrategias de indicación diferentes, aunque el protocolo de calificación ciega fue diseñado para evaluar la calidad de las soluciones presentadas únicamente según sus méritos.
Construyendo sobre resultados anteriores
Este segundo lote se basa en una primera ronda de evaluaciones realizada en febrero de 2026. El proyecto First Proof fue diseñado desde el inicio como un marco de evaluación continuo, no como un acto único. Al realizar múltiples rondas con problemas nuevos cada vez, los organizadores pueden rastrear si las capacidades de la IA están mejorando genuinamente en matemáticas de nivel de investigación o simplemente se están estancando tras el impulso inicial de mejoras en los benchmarks.
Los benchmarks matemáticos estándar, incluso los difíciles como problemas de nivel competitivo, han caído cada vez más ante modelos de vanguardia. Pero los problemas competitivos, por definición, tienen soluciones conocidas y métodos de solución conocidos. Las matemáticas de nivel de investigación operan en un régimen fundamentalmente diferente, donde a menudo no se sabe si siquiera existe una solución, por no hablar de qué técnicas podrían llevar allí.
