ผลการทดสอบ CUSP เปิดเผยว่าโมเดลปัญญาประดิษฐ์ขาดความสามารถในการพยากรณ์ทางวิทยาศาสตร์

ME AI ข่าว ตามการติดตามของ Beating มหาวิทยาลัยสแตนฟอร์ด มหาวิทยาลัยออกซ์ฟอร์ด และสถาบันปัญญาประดิษฐ์อัลเลน ได้ร่วมกันเปิดตัวมาตรฐานเวลา CUSP เพื่อประเมินความสามารถในการทำนายความก้าวหน้าทางวิทยาศาสตร์ของ AI ระบบการประเมินได้ทดสอบอย่างเป็นระบบกับโมเดลขนาดใหญ่ชั้นนำ เช่น GPT-5.4, Claude Sonnet 4.5 และ DeepSeek R1 ผลลัพธ์แสดงว่า โมเดลขนาดใหญ่มีประสิทธิภาพดีในการทำความเข้าใจกลไกต่างๆ เช่น เส้นทางเทคโนโลยีที่มีอยู่แล้ว แต่เมื่อต้องทำนายว่าการค้นพบใหม่จะสามารถเกิดขึ้นจริงได้หรือไม่ ความแม่นยำกลับใกล้เคียงกับการเดาแบบสุ่ม นอกจากนี้ โมเดลขนาดใหญ่ยังแสดงแนวโน้มล่าช้าอย่างเป็นระบบในการทำนายเวลาที่จะเกิดความก้าวหน้าทางวิทยาศาสตร์ การประเมิน AI แบบดั้งเดิมมักพบปัญหาการรั่วไหลของข้อมูล ซึ่งโมเดลอาจแค่ท่องจำผลงานทางวิทยาศาสตร์ที่เผยแพร่ไปแล้วในชุดข้อมูลการฝึกอบรม เพื่อวัดความสามารถในการทำนายที่แท้จริง CUSP จึงใช้ข้อจำกัดด้านเวลาในการปิดกั้นข้อมูลที่ใช้ได้ ทีมวิจัยได้รวบรวมความก้าวหน้าล่าสุดจากวารสารต่างๆ เช่น Nature และ Science ชุดมาตรฐานนี้ประกอบด้วย 4,760 จุดหมายทางวิทยาศาสตร์ และสร้างเป็นงานประเมินเฉพาะเจาะจง 17,429 งาน การทดสอบใช้เงื่อนไขการปิดกั้นเพื่อจำกัดข้อมูลที่โมเดลสามารถเข้าถึงได้ และจัดการทดลองเปรียบเทียบ เช่น การค้นหาออนไลน์ก่อนช่วงปิดกั้น เพื่อแยกแยะช่องว่างของความรู้ออกจากช่องว่างของการทำนาย ผลการประเมินแสดงว่า โมเดลขนาดใหญ่ไม่สามารถให้คำแนะนำที่เชื่อถือได้ในกระบวนการค้นคว้าทางวิทยาศาสตร์ที่ไม่มีคำตอบมาตรฐาน อย่างน้อยในด้านการทำนายความก้าวหน้าทางวิทยาศาสตร์ โมเดลปัจจุบันยังไม่สามารถให้การคาดการณ์เชิงอนาคตที่เชื่อถือได้ ในงานที่เกี่ยวกับการให้เหตุผลเชิงกลไก โมเดลแสดงประสิทธิภาพดีเยี่ยม เช่น เมื่อต้องเลือกทิศทางการวิจัยที่สมเหตุสมผลจากตัวเลือก GPT-5.4 มีความแม่นยำถึง 81.9% แต่เมื่อต้องตัดสินความเป็นไปได้—หรือการประเมินว่าข้ออ้างใดสามารถเกิดขึ้นจริงได้—ความแม่นยำของโมเดลต่างๆ อยู่ระหว่าง 45% ถึง 52% ในด้านการทำนายเวลาของการก้าวหน้า โมเดลขนาดใหญ่มักประเมินเกินจริง GPT-5.4 ล่าช้าไป 14 เดือน Claude S4.5 ล่าช้าไป 17 เดือน และ GPT-4o ล่าช้าถึง 26 เดือน ในงานประเภทนี้ LLaMA 3.3 มีข้อผิดพลาดด้านเวลาเล็กที่สุด โดยอยู่ที่ +4 เดือน ในงานออกแบบโซลูชันเชิงสร้างสรรค์ แม้ว่า GPT-5.4 จะได้คะแนนสูงสุดที่ 5.04/10 เส้นทางเทคโนโลยีที่สร้างขึ้นก็ไม่สามารถจับคู่กับเส้นทางทางวิทยาศาสตร์ที่เกิดขึ้นจริงได้ สิ่งนี้แสดงให้เห็นว่าโมเดลสามารถเขียนแผนการที่ดูสมเหตุสมผลได้ แต่ยากมากที่จะคาดการณ์เส้นทางเทคโนโลยีเฉพาะที่จะเกิดขึ้นในอนาคต ในกรณีของการก้าวหน้าเชิงปฏิวัติที่มีผลกระทบสูง ช่องว่างในการทำนายทางวิทยาศาสตร์ยังชัดเจนยิ่งขึ้น (ที่มา: BlockBeats)