Matemáticos de Harvard prueban IA en problemas de investigación no publicados

iconCryptoBriefing
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Las noticias de IA y cripto de Harvard muestran que los sistemas de IA resolvieron siete de los 10 problemas matemáticos originales. La prueba, publicada el 10 de junio de 2026, utilizó problemas no presentes en los datos de entrenamiento. Los modelos de OpenAI y Google mejoraron desde los primeros ensayos. Las noticias en cadena y los avances en IA continúan atrayendo atención. Las razones exactas del progreso siguen sin estar claras.

Aquí hay una pregunta que mantiene despiertos a los investigadores: ¿puede la IA realmente hacer matemáticas, o simplemente es muy buena en reconocer patrones en problemas que ya ha visto antes? Un grupo de 30 matemáticos de Harvard decidió descubrirlo de la manera más difícil, entregando a los sistemas de IA principales una prueba para la que imposiblemente pudieran haber estudiado.

El proyecto, llamado “Primera Prueba, Segundo Lote”, reunió a su panel de expertos en el Centro de Ciencias Matemáticas y Aplicaciones de Harvard a principios de junio de 2026. Su tarea era sencilla pero sin precedentes en escala: calificar ciegamente soluciones generadas por IA a 10 problemas matemáticos de nivel investigativo, originales y no publicados. Los resultados, publicados el 10 de junio, presentan una imagen que no es ni el escenario de desastre ni el triunfo que los partidarios de ambos lados podrían preferir.

La configuración: por qué importan los problemas no publicados

Todo el ejercicio depende de una elección de diseño crítica. Todos los problemas del conjunto se extrajeron de investigación activa y no publicada. Ninguna de estas preguntas había aparecido en libros de texto, en arXiv o en cualquier otro lugar donde los datos de entrenamiento de una IA pudieran haberlos recopilado.

Anuncio

Los matemáticos detrás del proyecto tampoco son precisamente personas sin importancia. El equipo incluye a Mohammed Abouzaid de Stanford, Nikhil Srivastava de la UC Berkeley, Rachel Ward de la UT Austin y Lauren Williams de Harvard.

Lo que la IA realmente acertó y qué falló

Cuatro sistemas de IA líderes participaron en la evaluación, incluyendo modelos de OpenAI y Google. La cifra principal: el panel de expertos otorgó calificaciones aprobatorias en siete de los 10 problemas en los cuatro sistemas evaluados.

En pruebas preliminares y de prueba inicial, se informó que los sistemas de IA resolvieron solo 2 de los 10 problemas. La brecha entre el desempeño inicial y los resultados finales sugiere que los modelos podrían haberse beneficiado de múltiples intentos o estrategias de indicación diferentes, aunque el protocolo de calificación ciega fue diseñado para evaluar la calidad de las soluciones presentadas únicamente según sus méritos.

Construyendo sobre resultados anteriores

Este segundo lote se basa en una primera ronda de evaluaciones realizada en febrero de 2026. El proyecto First Proof fue diseñado desde el inicio como un marco de evaluación continuo, no como un acto único. Al realizar múltiples rondas con problemas nuevos cada vez, los organizadores pueden rastrear si las capacidades de la IA están mejorando genuinamente en matemáticas de nivel de investigación o simplemente se están estancando tras el impulso inicial de mejoras en los benchmarks.

Los benchmarks matemáticos estándar, incluso los difíciles como problemas de nivel competitivo, han caído cada vez más ante modelos de vanguardia. Pero los problemas competitivos, por definición, tienen soluciones conocidas y métodos de solución conocidos. Las matemáticas de nivel de investigación operan en un régimen fundamentalmente diferente, donde a menudo no se sabe si siquiera existe una solución, por no hablar de qué técnicas podrían llevar allí.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.