ผลการทดสอบ CUSP เปิดเผยว่าโมเดลปัญญาประดิษฐ์ขาดความสามารถในการพยากรณ์ทางวิทยาศาสตร์

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
แพลตฟอร์มข่าว AI และคริปโตกำลังติดตามมาตรฐานใหม่ที่ชื่อว่า CUSP ซึ่งพัฒนาโดยสแตนฟอร์ด ออกซ์ฟอร์ด และสถาบันอัลเลนเพื่อปัญญาประดิษฐ์ การทดสอบแสดงให้เห็นว่าโมเดลชั้นนำเช่น GPT-5.4 และ Claude Sonnet 4.5 ต้องเผชิญกับความยากลำบากในการทำนายความก้าวหน้าทางวิทยาศาสตร์ ความแม่นยำอยู่ใกล้เคียงกับการสุ่ม และการประมาณเวลาผิดพลาดไปหลายเดือน ชุดข้อมูล CUSP ประกอบด้วย 4,760 จุดสำคัญและ 17,429 งาน รายการโทเค็นใหม่มักอิงจากโมเดลการทำนาย แต่การศึกษานี้ได้ตั้งคำถามถึงความน่าเชื่อถือของโมเดลเหล่านี้
ME AI ข่าว ตามการติดตามของ Beating มหาวิทยาลัยสแตนฟอร์ด มหาวิทยาลัยออกซ์ฟอร์ด และสถาบันปัญญาประดิษฐ์อัลเลน ได้ร่วมกันเปิดตัวมาตรฐานเวลา CUSP เพื่อประเมินความสามารถในการทำนายความก้าวหน้าทางวิทยาศาสตร์ของ AI ระบบการประเมินได้ทดสอบอย่างเป็นระบบกับโมเดลขนาดใหญ่ชั้นนำ เช่น GPT-5.4, Claude Sonnet 4.5 และ DeepSeek R1 ผลลัพธ์แสดงว่า โมเดลขนาดใหญ่มีประสิทธิภาพดีในการทำความเข้าใจกลไกต่างๆ เช่น เส้นทางเทคโนโลยีที่มีอยู่แล้ว แต่เมื่อต้องทำนายว่าการค้นพบใหม่จะสามารถเกิดขึ้นจริงได้หรือไม่ ความแม่นยำกลับใกล้เคียงกับการเดาแบบสุ่ม นอกจากนี้ โมเดลขนาดใหญ่ยังแสดงแนวโน้มล่าช้าอย่างเป็นระบบในการทำนายเวลาที่จะเกิดความก้าวหน้าทางวิทยาศาสตร์ การประเมิน AI แบบดั้งเดิมมักพบปัญหาการรั่วไหลของข้อมูล ซึ่งโมเดลอาจแค่ท่องจำผลงานทางวิทยาศาสตร์ที่เผยแพร่ไปแล้วในชุดข้อมูลการฝึกอบรม เพื่อวัดความสามารถในการทำนายที่แท้จริง CUSP จึงใช้ข้อจำกัดด้านเวลาในการปิดกั้นข้อมูลที่ใช้ได้ ทีมวิจัยได้รวบรวมความก้าวหน้าล่าสุดจากวารสารต่างๆ เช่น Nature และ Science ชุดมาตรฐานนี้ประกอบด้วย 4,760 จุดหมายทางวิทยาศาสตร์ และสร้างเป็นงานประเมินเฉพาะเจาะจง 17,429 งาน การทดสอบใช้เงื่อนไขการปิดกั้นเพื่อจำกัดข้อมูลที่โมเดลสามารถเข้าถึงได้ และจัดการทดลองเปรียบเทียบ เช่น การค้นหาออนไลน์ก่อนช่วงปิดกั้น เพื่อแยกแยะช่องว่างของความรู้ออกจากช่องว่างของการทำนาย ผลการประเมินแสดงว่า โมเดลขนาดใหญ่ไม่สามารถให้คำแนะนำที่เชื่อถือได้ในกระบวนการค้นคว้าทางวิทยาศาสตร์ที่ไม่มีคำตอบมาตรฐาน อย่างน้อยในด้านการทำนายความก้าวหน้าทางวิทยาศาสตร์ โมเดลปัจจุบันยังไม่สามารถให้การคาดการณ์เชิงอนาคตที่เชื่อถือได้ ในงานที่เกี่ยวกับการให้เหตุผลเชิงกลไก โมเดลแสดงประสิทธิภาพดีเยี่ยม เช่น เมื่อต้องเลือกทิศทางการวิจัยที่สมเหตุสมผลจากตัวเลือก GPT-5.4 มีความแม่นยำถึง 81.9% แต่เมื่อต้องตัดสินความเป็นไปได้—หรือการประเมินว่าข้ออ้างใดสามารถเกิดขึ้นจริงได้—ความแม่นยำของโมเดลต่างๆ อยู่ระหว่าง 45% ถึง 52% ในด้านการทำนายเวลาของการก้าวหน้า โมเดลขนาดใหญ่มักประเมินเกินจริง GPT-5.4 ล่าช้าไป 14 เดือน Claude S4.5 ล่าช้าไป 17 เดือน และ GPT-4o ล่าช้าถึง 26 เดือน ในงานประเภทนี้ LLaMA 3.3 มีข้อผิดพลาดด้านเวลาเล็กที่สุด โดยอยู่ที่ +4 เดือน ในงานออกแบบโซลูชันเชิงสร้างสรรค์ แม้ว่า GPT-5.4 จะได้คะแนนสูงสุดที่ 5.04/10 เส้นทางเทคโนโลยีที่สร้างขึ้นก็ไม่สามารถจับคู่กับเส้นทางทางวิทยาศาสตร์ที่เกิดขึ้นจริงได้ สิ่งนี้แสดงให้เห็นว่าโมเดลสามารถเขียนแผนการที่ดูสมเหตุสมผลได้ แต่ยากมากที่จะคาดการณ์เส้นทางเทคโนโลยีเฉพาะที่จะเกิดขึ้นในอนาคต ในกรณีของการก้าวหน้าเชิงปฏิวัติที่มีผลกระทบสูง ช่องว่างในการทำนายทางวิทยาศาสตร์ยังชัดเจนยิ่งขึ้น (ที่มา: BlockBeats)
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา