Ang CUSP Benchmark ay nagpapakita na kulang ang mga modelo ng AI sa kakayahang magbawas ng siyentipikong paghuhula

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ang mga platform ng balita sa AI at crypto ay nagtata跟踪 ng isang bagong benchmark na tinatawag na CUSP, na nilikha ng Stanford, Oxford, at ang Allen Institute for AI. Ang pagsubok ay nagpapakita na ang mga pinakamataas na modelo tulad ng GPT-5.4 at Claude Sonnet 4.5 ay nahihirapan sa paghuhula ng scientific progress. Ang akurasyo ay malapit sa random, at ang mga tantiya sa oras ay may pagkakaiba ng ilang buwan. Ang CUSP dataset ay naglalaman ng 4,760 na milestone at 17,429 na gawain. Madalas na nakabatay ang mga bagong listing ng token sa predictive models, ngunit nagtataglay ang pag-aaral na ito ng mga alalahanin tungkol sa kanilang katiyakan.
ME AI mensahe, ayon sa pagmamasid ng Beating, ang Stanford University, Oxford University, at ang Allen Institute for Artificial Intelligence ay naglunsad ng panahon-based benchmark na CUSP upang suriin ang kakayahan ng AI na hulaan ang pag-unlad sa agham. Sinuri ng sistema ang mga modernong malaking modelo tulad ng GPT-5.4, Claude Sonnet 4.5, at DeepSeek R1. Ang mga resulta ay ipinakita na ang mga malaking modelo ay may mahusay na pagganap sa pag-unawa sa mga umiiral na teknikal na landas at iba pang mekanismo. Gayunpaman, sa paghula kung ang mga bagong pagkakatuklas ay makakamit nang totoo, ang akurasyon ay malapit sa random guessing. Bukod dito, may sistemang pagkakalate din ang mga malaking modelo sa paghula ng oras ng pagbubukas sa agham. Madalas magkakaroon ng information leakage sa tradisyonal na pag-evaluate ng AI. Maaaring lamang ang modelo ay nag-uulit ng mga agham na nai-publish na sa kanilang training data. Upang masukat ang tunay na kakayahan sa paghula, kinilala ng CUSP ang limitasyon sa panahon ng kaalaman. Ipinangkat ng panel ng mga mananaliksik ang mga unang pag-unlad sa agham mula sa mga journal tulad ng Nature at Science. Ang benchmark na ito ay naglalaman ng 4,760 na mga milestone sa agham, na nagmumula sa 17,429 na espesipikong gawain sa pagsusuri. Ang pagsusulit ay naglalapat ng mga limitasyon sa panahon upang kontrolin ang impormasyon na ma-access ng modelo, at gumagamit ng mga kontrol na eksperimento tulad ng pre-cutoff online search upang ibigay ang pagkakaiba sa pagitan ng gap sa kaalaman at gap sa paghula. Ang mga resulta ay nagpapakita na ang mga malaking modelo ay hindi kayang magbigay ng maaasahang gabay sa mga agham na walang standard na sagot. Sa kalaunan, sa paghula ng pag-unlad sa agham, hindi pa kayang magbigay ng maaasahang pananaw ang umiiral na mga modelo. Sa mga gawain sa mekanismo, malakas ang pagganap ng modelo. Halimbawa, sa pagkilala sa makatotohanang direksyon ng pananaliksik mula sa mga opsyon, nakakuha ang GPT-5.4 ng 81.9% na akurasyon. Ngunit kapag tinukoy ang katotohanan o kaya kung isasagawa ang isang pahayag, ang accuracy ng lahat ng modelo ay nasa pagitan lamang ng 45% hanggang 52%. Sa paghula ng oras ng pagbubukas, sobra-sobra naman ang mga malaking modelo. Ang GPT-5.4 ay may 14-buwan na pagkakalate, ang Claude S4.5 ay 17-buwan, at ang GPT-4o naman ay 26-buwan. Sa ganitong uri ng gawain, mas maliit ang error sa oras ni LLaMA 3.3, na +4 buwan. Sa paggawa ng solusyon gamit ang generative approach, bagaman nakakuha ang GPT-5.4 ng pinakamataas na marka na 5.04/10, ang teknikal na landas na nilikha nito ay hindi nakakatugma sa totoong agham na landas. Ito ay nagpapakita na kahit na kayang isulat ng modelo ang magandang plano, mahirap itong makatugma sa totoong teknikal na landas na naganap mamaya. Sa mga mataas na epekto at makabagong pagbubukas, mas malaki pa ang gap sa paghula sa agham. (Pinagmulan: BlockBeats)
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.