นักคณิตศาสตร์จากฮาร์วาร์ดทดสอบ AI บนปัญหาระดับงานวิจัยที่ยังไม่ได้เผยแพร่

นี่คือคำถามที่ทำให้นักวิจัยต้องนอนไม่หลับ: AI สามารถทำคณิตศาสตร์ได้จริงหรือแค่เก่งในการจับรูปแบบจากปัญหาที่เคยเจอมาแล้ว? กลุ่มนักคณิตศาสตร์ 30 คนจากฮาร์วาร์ดตัดสินใจหาคำตอบด้วยวิธีที่ยากที่สุด โดยให้ระบบ AI ชั้นนำทำการทดสอบที่พวกเขาไม่มีทางเตรียมตัวมาก่อน

โครงการที่มีชื่อว่า “First Proof, Second Batch” ได้รวบรวมคณะกรรมการผู้เชี่ยวชาญของตนที่ศูนย์วิทยาศาสตร์และประยุกต์ทางคณิตศาสตร์ของฮาร์วาร์ดในต้นเดือนมิถุนายน 2026 ภารกิจของพวกเขาเรียบง่ายแต่มีขนาดที่ไม่เคยมีมาก่อน: ประเมินแบบไม่เปิดเผยตัวตนโซลูชันที่สร้างโดยปัญญาประดิษฐ์สำหรับโจทย์คณิตศาสตร์ระดับวิจัยต้นฉบับ 10 ข้อที่ยังไม่เคยเผยแพร่ ผลลัพธ์ที่เปิดเผยเมื่อวันที่ 10 มิถุนายน แสดงภาพที่ไม่ใช่ทั้งสถานการณ์หายนะหรือชัยชนะตามที่ฝ่ายใดฝ่ายหนึ่งอาจต้องการ

การตั้งค่า: เหตุใดปัญหาที่ยังไม่ได้เผยแพร่จึงมีความสำคัญ

การฝึกทั้งหมดขึ้นอยู่กับการตัดสินใจด้านการออกแบบที่สำคัญหนึ่งประการ ปัญหาทั้งหมดในชุดนี้ถูกดึงมาจากงานวิจัยที่ยังไม่ได้เผยแพร่และกำลังดำเนินอยู่ คำถามเหล่านี้ไม่เคยปรากฏมาก่อนในตำราเรียน บน arXiv หรือที่ใดๆ ที่ข้อมูลการฝึกของ AI อาจดึงข้อมูลมาได้

โฆษณา

นักคณิตศาสตร์ที่อยู่เบื้องหลังโครงการนี้ก็ไม่ใช่คนธรรมดาเช่นกัน รายชื่อประกอบด้วย มูฮัมหมัด อับูซัยด์ จากสแตนฟอร์ด นิคิล ศรีวัสดุวะ จาก UC เบิร์กลีย์ รีเชล วาร์ด จาก UT ออสติน และ เลอาห์น วิลเลียมส์ จากฮาร์วาร์ด

สิ่งที่ AI ทำถูกและผิด

ระบบ AI ชั้นนำสี่ระบบเข้าร่วมการประเมิน รวมถึงโมเดลจาก OpenAI และ Google ตัวเลขหลัก: คณะกรรมการผู้เชี่ยวชาญให้คะแนนผ่านแก่เจ็ดจากสิบข้อปัญหาทั่วทั้งสี่ระบบที่ทดสอบ

ในการทดลองเบื้องต้นและช่วงแรก ระบบปัญญาประดิษฐ์รายงานว่าแก้ปัญหาได้เพียง 2 จาก 10 ข้อ ช่องว่างระหว่างผลลัพธ์เบื้องต้นกับผลลัพธ์สุดท้ายบ่งชี้ว่าโมเดลอาจได้รับประโยชน์จากการลองหลายครั้งหรือกลยุทธ์การตั้งคำถามที่แตกต่างกัน แม้ว่าโปรโตคอลการให้คะแนนแบบไม่เปิดเผยตัวตนจะถูกออกแบบมาเพื่อประเมินคุณภาพของโซลูชันที่ส่งเข้ามาโดยพิจารณาจากคุณค่าของมันเองเท่านั้น

การสร้างต่อจากผลลัพธ์ก่อนหน้า

ชุดที่สองนี้สร้างขึ้นจากชุดการประเมินครั้งแรกที่ดำเนินการในเดือนกุมภาพันธ์ 2026 โครงการ First Proof ถูกออกแบบตั้งแต่เริ่มต้นให้เป็นกรอบการประเมินอย่างต่อเนื่อง ไม่ใช่กิจกรรมครั้งเดียวเท่านั้น โดยการดำเนินการหลายรอบด้วยปัญหาใหม่ๆ ในแต่ละครั้ง ผู้จัดสามารถติดตามว่าความสามารถของ AI กำลังพัฒนาอย่างแท้จริงในระดับคณิตศาสตร์เชิงวิจัย หรือแค่หยุดนิ่งหลังจากได้รับผลลัพธ์จากการทดสอบเบนช์มาร์กครั้งแรก

การทดสอบทางคณิตศาสตร์มาตรฐาน แม้แต่ข้อที่ยากเช่นปัญหาระดับการแข่งขัน ก็เริ่มถูกโมเดลขั้นสูงสุดแก้ได้มากขึ้น แต่ปัญหาการแข่งขัน โดยนิยามแล้ว มีคำตอบที่รู้จักและวิธีการแก้ที่รู้จักอยู่แล้ว คณิตศาสตร์ระดับวิจัยทำงานในบริบทที่ต่างกันโดยสิ้นเชิง โดยทั่วไปคุณไม่รู้ว่าคำตอบมีอยู่จริงหรือไม่ ไม่พูดถึงเทคนิคใดที่อาจนำไปสู่คำตอบ