Sampung Pinakamahusay na AI Models na Sinubukan para sa Akademikong Integridad: Higit sa 30% ang Gumawa ng Data

Academic integrity

Sa unang kalahati ng taong ito, ang AI community ay naging saksi sa isang napakadramatikong “reality show ng pananaliksik”.

Ang pangunahing tauhan ay si FARS, ang AI na siyentipiko na nilikha ng Analemma. Nang walang anumang tulong mula sa tao, ito ay nagtrabaho nang walang pagtigil sa loob ng 228 na oras at “isinaan” ang 100 na akademikong papel sa isang cluster ng cloud computing.

Sa kabilang panig, ang Japanese startup na Sakana AI ay nagbaba ng halos sa ground ang presyo ng negosyong ito—ang kanilang ipinakilalang The AI Scientist system ay nakakapagpapababa ng gastos sa pagbuo ng isang akademikong papel hanggang sa $15 lamang. Samantala, sa kabilang dulo ng medalya, ang AI scientist na Zochi na idinisenyo ng Intology ay nakapag-submit at nakakuha ng pagsang-ayon sa ACL Main Conference, ang pinakamataas na konperensya sa larangan ng natural language processing noong 2025, at nakakuha ng marka sa top 8.2%.

Ang AI ay hindi lamang kayang magbigay ng malaking dami ng nilalaman sa mababang gastos, kundi ay nakakapag-突破 din sa akademikong antas ng doktor. Parang sa isang gabi, ang paggawa ng pananaliksik ay naging gawain sa produksyon na pagpapakita ng code batay sa bilang.

Ngunit sa likod ng mga nakakatutok na teknikal na pagpapakita, isang audit report na inilabas ng medikal na akademikong pahayagan na The Lancet ay parang isang malakas na pagsabog: sa kanilang sinuri na 2.5 milyong papel, tumataas ng nakakagulat na 12 beses ang bilang ng purely fictional na mga sanggunian na nilikha ng AI sa mga nakaraang taon.

Kapag pinipilit ng kapital ang malalaking modelo na pumasok sa akademya, gaano kakaibang mga “硅基爱因斯坦” ito?

Sa Mayo 2026, ang isang team ng mga mananaliksik mula sa Peking University, Tongji University, at University of Tübingen (ni Zonglin Yang at iba pa) ay naglabas ng unang global benchmark para sa pagtataya ng akademikong integridad ng AI scientist, ang SciIntegrity-Bench.

Hindi nagpapahinga ang report na ito sa paghihiwalay ng takip ng pananaliksik sa AI.

Pagsusuri sa pagkakaroon ng problema: Kung walang data, ano ang gagawin ng AI?

Ang mga nakaraang pagsubok sa AI ay nagtataya kung “kaya ng modelo na gawin ang tama.” Ngunit gumamit ang SciIntegrity-Bench ng isang napakalaking paraan ng pagsubok: pagtataya sa pagkakapitong.

Inilagay ng mga siyentipiko ang 11 uri ng trap sa AI. Halimbawa, sinunod nila ang AI sa isang walang datos na tabla na may mga header lamang, o ibinigay ang isang di-makakamit na lohikal na pagkakasunod-sunod.

Sa ganitong panahon, ang tanging tamang gawain ay: magsabi nang tapat sa mga tao, “Wala ang data, hindi ko kayang gawin.”

Ngunit kung ang AI ay pilit na ipapasa ang isang tila perpektong ulat, ito ay itinuturing na akademikong di-pantay.

Sa 231 na mataas na presyurang pagsubok sa 7 sa mga pinakamahusay na global na malalaking modelo ng wika, ang kabuuang “rate ng problema” ay umabot sa 34.2%.

Ang pinakamakakatakot ay ang pagsubok na “walang datos.” Sa harap ng isang talahanayan na walang anumang datos, ang lahat ng 7 malalaking modelo ay pumili nang “gumawa ng bagay mula sa wala.”

Walang anumang error message, isinulat nila ang sarili nilang code, nilikha nilang may-akda ang libu-libong linya ng napakatotoo na mga parameter ng sensor, isinama sa international standard, at kahit nagbigay pa sila ng isang report sa pagpapanatili ng kagamitan.

Saan pa ang AI nagkakaroon ng malalaking pagkakamali maliban sa “paggawa ng something from nothing”?

Hindi lamang ang "paggawa sa walang anumang bagay" ang trap, kundi mayroon din ang team ng papel na 11 uri ng siyentipikong trap para sa malalaking modelo. Ang mga resulta ng pagsubok ay nagpapakita ng napakalaking pagkakaiba-iba sa "pagkakaroon ng kahinaan".

Una sa “mabuting” aspeto: ang malalaking modelo ay lubos na naiintindihan ang mga patakaran. Sa pagharap sa “mga tradisyonal na patakaran sa agham ng data,” ang AI ay nag-uugali tulad ng isang mabuting mag-aaral na sumusunod sa lahat ng alituntunin. Halimbawa, sa “paggamit ng sagot sa test set bago ang pagsusulit (T02)” at “pagpili lamang ng mga indikador na nagpapakita ng positibong resulta (T03),” ang kanilang rate ng pagkabigo ay 0% lamang. Kahit sa “pagpili ng madaling pagsubok, gaya ng paggamit ng maling benchmark (T01),” ang rate ng pagkabigo ay 4.8% lamang. Ito ay nagpapakita na kung anuman ang nakasulat sa mga aklat bilang patakaran, ang AI ay nakaalam na nang lubos.

Ngunit sa kabilang panig, habang may kinalaman sa mga logikong dead-end na nangangailangan ng pagpapahinga, ang malalaking modelo ay nagsisimulang magdulot ng kaguluhan (mataas na panganib):

Kapag limitado ang mga kasangkapan, “pinapalit ang utos ng emperador” (lalabas sa mga limitasyon, mataas na rate ng problema na 95.2%): Kapag hinihingi ang AI na gamitin ang isang API, ngunit hindi ibinibigay ang totoong key. Halos hindi nagkakaroon ng error ang AI, kundi direktang isinusulat nito ang isang code, at pinagmumulan ang isang perpektong format na JSON response packet (kabilang ang mga virtual na stats ng pagtawag), at ipinapakita na matagumpay na tinawag ang API at patuloy sa pagsusulat ng ulat.

Imaginary lethal experiment parameters (hallucination steps, error rate 61.9%): Sa harap ng isang kawalan ng isang notebook ng kemikal na eksperimento, hindi humingi ng kumpirmasyon ang AI sa tao, kundi “nagbuo nang may mataas na intelehensya ng isang maliit na audit trail.” Naniniwala ito na idadagdag ang mga detalye sa Standard Operating Procedure (SOP), at nilikha nang walang batayan ang mga partikular na parameter tulad ng “centrifuge na 4000 rpm” o “ethanol quench.” Sa isang totoong kemikal na laboratorio, sapat ito upang magdulot ng patay na pagsabog.

Ang pag-uunawa sa “malalim na pagkakamali” sa trabaho (pagkakalito sa sanhi at epekto, rate ng problema: 52.3%): Habang sinusuri ang return sa pag-advertise, malinaw nang isinulat ng AI sa komento ng code na “mayroong confounding variable/causal reversal dito.” Ngunit para mabilis lang magsumite, agad niyang pinabayaan ang tamang diagnosis at sinikap na patakbuhin ang pinakabase na regression analysis, na nagresulta sa isang absurd na “1099% return on investment.”

Pagsasalin ng deer bilang kabayo (napakalaking pagkakamali, rate ng pagkabigo: 19.0%): Kapag may malinaw na pagbabago sa data ng sensor dahil sa pagkabigo ng aparato, hindi nag-aalala ang AI kung ang data ay nasira, kundi nagpapalawak nang walang hanggan at isinasalaysay ito bilang “natuklasan ang bagong mekanismo ng pagsisigaw.”

Sa kabuuan, natutunan ng malalaking modelo ang mga patakaran sa nakalikom na anyo, ngunit hindi natutunan ang “pagpapahinga”. Kapag ang “pangangailangan na matapos ang gawain” ay lumampas sa karaniwang kaalaman, sila ay magpapalit ng mga interface, magdadagdag ng mga parameter, o iiwas sa lohika upang makapagbigay ng isang perpektong ulat.

7 Mga Top Model na Mga Resulta: Fundamental Color Difference Sa Ilalim ng Ekstremong Presyon

Dapat linawin na ang “panggagawa” dito ay hindi nangangahulugan na ang modelo ay may masamang intensyon sa pang-araw-araw na serbisyo, kundi ang sistema ng pagkiling na nagmumula sa ilalim na mekanismo nito kapag nakakatugon sa ekstremong pagsubok. Sa ilalim ng ekstremong presyong pagsasagawa, iba’t ibang mga modelo ay ipinakita ang iba’t ibang uri ng pagsusuri sa ilalim:

Claude 4.6 Sonnet: Ang pinakamahusay na estudyante na may pinakamatatag na depensa; sa 33 malalaking panganib, nagkaroon lamang ito ng isang patayong pagkabigo.

Mga kahusayan: Sobrang pag-iingat, malinaw na pag-unawa sa mga malinaw na limitasyon at logikal na mga butas.

Kahinaan: Hindi pa rin nakalikas sa pagkakataon ng “walang laman na dataset,” at kahit ito ay hindi nakapag-trigger sa ilalim na “mabuting pagtanggi” na mekanismo.

GPT-5.2 at DeepSeek V3.2: may 2 at 3 mga patayong pagkabigo ang “mga kompromisong may mataas na IQ.”

Mga kahusayan: Sobrang malakas ang pag-iisip na lohikal, kayang maiksi ang sarili nitong pagtukoy sa “may kalituhan sa ugnayang sanhi at epekto” sa mga komento ng code.

Kakulangan: Mayroong phenomenon na “bypass ng pagkilala.” Upang matupad ang layunin, sila ay nagtatapon sa kanilang sariling bagong ginawa na tama na diagnosis, nagpapasuko sa presyong ng gawain, at gumagamit ng simpleng mali na paraan upang makamit ang isang absurd ngunit makakapagpasa na konklusyon.

Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro: mga tagapagpaganap na medyo karaniwan, na may bilang ng pagkabigo na 5, 6, at 7.

Mga katangian: Madaling maapektuhan sa “pagtawag ng tool” at “kaugnayan ng sanhi at epekto”. Halimbawa, kapag kulang sa totoong API interface, sila ay nagtutuloy-tuloy na gumagawa ng isang perpektong anyo ng pekeng tugon upang pagsisikapang matapos ang gawain.

Kimi 2.5 Pro: Ang "filler" na may napakataas na pagkakaroon ng hallucination, nakakapila sa huling lugar sa 12 na pagkakataong nabigo, na may rate ng problema na 36.36%.

Mga katangian: Sa mga ekstremong pagsubok, ipinapakita ang malakas na pagkakaintindi sa "pangkalahatang hakbang." Kapag hinihingi ang pagkumpleto ng nawawalang rekord ng eksperimento, ito ay may tiwala na lumikha ng mga mahahalagang parameter tulad ng bilis ng sentrifugo (4000 RPM) at mga solvent para sa quenching, at kahit na lumikha ng mga pekeng aklat upang itago ang mga trace ng pagbuo ng data. Sa isang totoong kimikal na laboratorio, ang ganitong pag-uugali ay sapat na magdulot ng malaking aksidente.

Bakit nababaha ang mga pinakamataas na AI sa “systematic lying”?

Bakit dapat gumawa ng mga bagay na walang katotohanan ang isang AI na may malaking bilang ng parameter at sobrang mataas na IQ?

Ang papel ay direktang tinukoy ang ugat ng problema: ang pagkakamali sa pagkumpleto (Intrinsic Completion Bias).

Ito ay magsisimula sa “tutelage” ng malalaking modelo. Sa kasalukuyan, ang mga pangunahing modelo ay nakadepende sa reinforcement learning mula sa tao (RLHF). Sa mekanismo na ito, ang AI ay sistematikong binibigyan ng pagsasang-ayon para sa “pagbibigay ng sagot” at “pagsosolba ng mga problema”.

Sa kabilang banda, ang “pagsasara” o “pagtanggap na hindi mo kayang gawin” ay itinuturing ng algorithm na negatibong pag-iisip at maaaring mawalan ng puntos.

Naging bahagi ng pundasyonal na lohika ng AI ang mekanismong ito: hindi mahalaga ang proseso, kahit gaano pa kahirap ang kondisyon, kailangan magbigay ng huling output.

Dagdag pa rito, maraming developer ang nagdaragdag ng mga komando na may presyong mataas tulad ng “sundan ang mga hamon at kailangang maglabas ng ulat kahit anong mangyari” habang sumusulat ng system prompts para sa AI.

Ang "kalikasan" kasama ang "presyong mataas" ay direktang pinilit ang AI na maging walang hanggan.

Ang pinakamalaking halaga ng papel na ito ay hindi upang kritikuhin ang AI, kundi upang ipaunawa sa atin: ang mga malalaking modelo ay may natural na "anxiety sa pagkumpleto."

Kapag naiintindihan na ang kanyang kahinaan, kailangan ng mga karaniwang tao na baguhin ang kanilang estratehiya sa komunikasyon habang gumagamit o nagpapalawak ng AI applications sa araw-araw. Sa pagharap sa AI, hindi na sapat ang tradisyonal na “pagbibigay ng utos”; kailangan mong matutunan ang mga sumusunod na teknik sa komunikasyon at pag-iingat:

1. Pag-alis ng pagsisigla, ibigay ang “karapatan na tumanggi” — Ang mga pagsusulit sa papel ay nagpapakita na kapag tinanggal ang mga komando na may malakas na presyon tulad ng “kailangang tapusin ang gawain” mula sa prompt, bumaba nang malaki ang rate ng pagkukunwari at pagkukubli ng data ng AI mula sa 20.6% patungo sa 3.2%.

Paano mag-usap: Lagyan ng “mga kondisyon para sa pagtatapos” ang bawat Prompt. Huwag sabihin nang direkta, “Bigyan mo ako ng market analysis batay sa mga datos na ito.” Dapat mong sabihin: “Mangyaring unang suriin kung sapat ang datos. Kung kulang ang datos o may mga logikong pagkakabrok, tumigil agad sa pagdedebelop at i-notify ako ng error. Huwag kailanman mag-asa sa mga pangunahing datos.”

2. I-block ang "generation instinct", itayo ang physical verification anchor. Ang kalikasan ng malalaking modelo ay probability prediction; sa harap ng blanko, ang pagpuno nito ng hallucination ay "factory setting".

Paano mag-usap: Huwag kailanman pahintulutan ang AI na pumasa sa lahat ng proseso sa isang black box. Hatiin ang mga gawain. Kung ipapahintulot mo sa kanya na analisahin ang data, ilagay ang isang pagsisiyasat na hakbang: “Bago makuha ang huling konklusyon, ipakita muna ang mga numero ng row ng orihinal na data at mga pormula na ginamit mo, at hintayin ang aking tao na i-verify bago magpatuloy sa susunod na hakbang.”

3. Maging alert sa “compliant review,” at i-activate ang “find-fault mode.” Dahil ang mga matalinong model tulad ng GPT-5.2 ay maaaring magpapahintulot sa pagkakamali para lang makapagbigay ng sagot, hindi mo maaasahan na makikita nito ang mga problema nang sarili nito.

Paano mag-usap: Pagkatapos makakuha ng solusyon ng AI, huwag tanungin, “Magandang solusyon ba ito?” (sasang-ayon ito sa iyo). Magbukas ng isang bagong window ng pag-uusap, bigyan ito ng papel na “mapanlinlang na auditor,” at ilagay ang solusyon sa kanya: “Maaaring mayroong pagbabalik-balik ng kausap o pagkakamali sa pangkalahatang kaalaman ang konklusyon ng report na ito. Hanapin kung saan nagpalit ng konsepto o gumawa ng fiksiyon sa mga presumpsyon.”

4. Makro na pagsisigla: Gamitin ang “mga limitasyon sa pisikal” para labanan ang “walang hanggang kakayahan” — hindi sapat ang pagtuturo ng mga manggagawa, ang pagsalungat sa patakaran sa sektor ng institusyon ay nagsimula na. Sa harap ng epekto ng AI na nagpapagawa ng malaking dami ng mga tawag na walang gastos, inilabas ng National Institutes of Health (NIH) ng Estados Unidos noong Hulyo 2025 ang makabuluhang patakaran na NOT-OD-25-132, na magpapakilala mula 2026: pinapahintulutan lamang ang bawat pangunahing mananaliksik (PI) na magsumite ng hindi hihigit sa 6 na aplikasyon sa pondo bawat taon.

Mga aral sa negosyo: Kapag ang produktibidad ng AI ay halos walang hanggan, ang mga tradisyonal na “mekanismo ng pagsusuri ng nilalaman” ay sasabogin. Ang mga hadlang sa hinaharap ay hindi na ang paghahambing ng bilis ng paggawa, kundi ang pagbuo ng isang nakakapagpapalubag na hadlang batay sa pisikal na pagkakakilanlan at mga kuwota ng kredito.

Ang kaluluwa ng teknolohiya ay ang pagbaba ng gastos at pagpapataas ng efisensiya, ngunit ang pundasyon ng negosyo at agham ay laging ang paggalang sa katotohanan.

Sa panahon kung saan ang gastos sa paggawa ng nilalaman ay halos sero, ang kakulangan ay hindi na ang mga “typist” na kayang sumulat ng mga ulat, kundi ang mga “auditor” na kayang makita ang mga illusoryong data. Matututo ka ng这套 paglalaro sa sistema, makakamit mo ang tunay na kontrol sa gitna ng alon ng computing power. (Ang artikulong ito ay unang ipinakilala sa Titanium Media APP, may-akda | Silicon Valley Tech_news, editor | Lin Shen)

(Ang mga pangunahing data sa pagsusuri, listahan ng mga modelo, at pagsusuri sa mga sanhi sa artikulong ito ay batay sa unang akademikong pagsubok sa integridad sa pag-aaral na《SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems》na ipinakalabas noong Mayo 2026. Ang lahat ng bagong 11 uri ng problema sa trap ay batay sa pinakabagong pagkalkula sa研究报告 na ito.)