Ang CUSP Benchmark ay nagpapakita na kulang ang mga modelo ng AI sa kakayahang magbawas ng siyentipikong paghuhula

ME AI mensahe, ayon sa pagmamasid ng Beating, ang Stanford University, Oxford University, at ang Allen Institute for Artificial Intelligence ay naglunsad ng panahon-based benchmark na CUSP upang suriin ang kakayahan ng AI na hulaan ang pag-unlad sa agham. Sinuri ng sistema ang mga modernong malaking modelo tulad ng GPT-5.4, Claude Sonnet 4.5, at DeepSeek R1. Ang mga resulta ay ipinakita na ang mga malaking modelo ay may mahusay na pagganap sa pag-unawa sa mga umiiral na teknikal na landas at iba pang mekanismo. Gayunpaman, sa paghula kung ang mga bagong pagkakatuklas ay makakamit nang totoo, ang akurasyon ay malapit sa random guessing. Bukod dito, may sistemang pagkakalate din ang mga malaking modelo sa paghula ng oras ng pagbubukas sa agham. Madalas magkakaroon ng information leakage sa tradisyonal na pag-evaluate ng AI. Maaaring lamang ang modelo ay nag-uulit ng mga agham na nai-publish na sa kanilang training data. Upang masukat ang tunay na kakayahan sa paghula, kinilala ng CUSP ang limitasyon sa panahon ng kaalaman. Ipinangkat ng panel ng mga mananaliksik ang mga unang pag-unlad sa agham mula sa mga journal tulad ng Nature at Science. Ang benchmark na ito ay naglalaman ng 4,760 na mga milestone sa agham, na nagmumula sa 17,429 na espesipikong gawain sa pagsusuri. Ang pagsusulit ay naglalapat ng mga limitasyon sa panahon upang kontrolin ang impormasyon na ma-access ng modelo, at gumagamit ng mga kontrol na eksperimento tulad ng pre-cutoff online search upang ibigay ang pagkakaiba sa pagitan ng gap sa kaalaman at gap sa paghula. Ang mga resulta ay nagpapakita na ang mga malaking modelo ay hindi kayang magbigay ng maaasahang gabay sa mga agham na walang standard na sagot. Sa kalaunan, sa paghula ng pag-unlad sa agham, hindi pa kayang magbigay ng maaasahang pananaw ang umiiral na mga modelo. Sa mga gawain sa mekanismo, malakas ang pagganap ng modelo. Halimbawa, sa pagkilala sa makatotohanang direksyon ng pananaliksik mula sa mga opsyon, nakakuha ang GPT-5.4 ng 81.9% na akurasyon. Ngunit kapag tinukoy ang katotohanan o kaya kung isasagawa ang isang pahayag, ang accuracy ng lahat ng modelo ay nasa pagitan lamang ng 45% hanggang 52%. Sa paghula ng oras ng pagbubukas, sobra-sobra naman ang mga malaking modelo. Ang GPT-5.4 ay may 14-buwan na pagkakalate, ang Claude S4.5 ay 17-buwan, at ang GPT-4o naman ay 26-buwan. Sa ganitong uri ng gawain, mas maliit ang error sa oras ni LLaMA 3.3, na +4 buwan. Sa paggawa ng solusyon gamit ang generative approach, bagaman nakakuha ang GPT-5.4 ng pinakamataas na marka na 5.04/10, ang teknikal na landas na nilikha nito ay hindi nakakatugma sa totoong agham na landas. Ito ay nagpapakita na kahit na kayang isulat ng modelo ang magandang plano, mahirap itong makatugma sa totoong teknikal na landas na naganap mamaya. Sa mga mataas na epekto at makabagong pagbubukas, mas malaki pa ang gap sa paghula sa agham. (Pinagmulan: BlockBeats)