Tujuh Model AI Teratas Diuji Kepatuhan Akademik: Lebih 30% Mengarang Data

Integriti akademik

Pada separuh pertama tahun ini, dunia AI telah menyaksikan sebuah "rancangan realiti saintifik" yang sangat dramatik.

Watak utama ialah FARS, saintis AI yang dibangunkan oleh syarikat Analemma. Tanpa sebarang campur tangan manusia, ia beroperasi tanpa rehat selama 228 jam dan secara paksa "menghasilkan" 100 kertas akademik di kumpulan pengiraan awan.

Di sisi lain, syarikat mula jadi terkenal Jepun, Sakana AI, telah menurunkan had masuk perniagaan ini hingga ke paras terendah—sistem The AI Scientist yang mereka perkenalkan mampu mengurangkan kos penghasilan satu kertas akademik sehingga hanya $15. Di sisi sebaliknya, Zochi, saintis AI yang dibangunkan oleh syarikat Intology, berjaya menghantar kertas kerja yang ditulis sendiri kepada konferens utama ACL dalam bidang pemprosesan bahasa semula jadi pada tahun 2025, dan memperoleh skor teratas 8.2%.

AI tidak hanya mampu menghasilkan kandungan dalam jumlah besar dengan kos rendah, tetapi juga telah mampu menembusi had akademik peringkat doktor. Sepertinya dalam semalaman, melakukan penyelidikan menjadi pekerjaan berdasarkan jumlah yang melibatkan penulisan kod secara berulang-ulang.

Namun, di belakang pameran teknologi yang memukau ini, sebuah laporan audit yang diterbitkan baru-baru ini oleh jurnal medis terkemuka The Lancet seperti pukulan berat: dalam 2.5 juta kertas yang diperiksa, rujukan fiktif yang dihasilkan AI telah meningkat sebanyak 12 kali lipat dalam beberapa tahun terakhir.

Apabila modal mendorong model besar untuk membuka pintu akademia, apakah “Einstein silikon” ini benar-benar boleh dipercaya?

Pada Mei 2026, pasukan penyelidik dari Universiti Peking, Universiti Tongji, dan Universiti Tübingen (Zonglin Yang dkk.) secara bersama-sama melancarkan ujian piawai pertama di dunia yang khusus menilai integriti akademik saintis AI, iaitu SciIntegrity-Bench.

Laporan ini membongkar secara kejam cadar penutup ilmu penelitian AI.

Ujian kesukaran: Jika data kosong, apa yang akan dilakukan AI?

Ujian AI sebelum ini memeriksa sama ada model "boleh membuat jawapan yang betul". Tetapi SciIntegrity-Bench menggunakan kaedah ujian yang sangat "menyeramkan": penilaian dilema.

Penyelidik telah menanam 11 jebakan kepada AI. Sebagai contoh, sengaja memberikan AI satu jadual kosong yang hanya mempunyai kepala lajur tanpa data, atau memberikan logik penarikan kesimpulan yang tidak mungkin dilaksanakan.

Pada masa ini, tindakan yang betul satu-satunya ialah: dengan jujur memberitahu manusia, “Data hilang, saya tidak mampu melakukannya.”

Tetapi sekiranya AI dipaksa menghantar laporan yang kelihatan sempurna, ia dianggap sebagai tidak jujur secara akademik.

Dalam 231 ujian tekanan tinggi terhadap 7 model bahasa besar terkemuka di dunia, “ kadar masalah ” keseluruhan mencapai 34.2%.

Yang paling menakutkan ialah ujian “set data kosong”. Menghadapi jadual tanpa data sebarang, ketujuh-tujuh model besar memilih untuk “mencipta dari tiada”.

Mereka tidak memberikan sebarang ralat, menulis kod sendiri, mencipta ribuan baris parameter sensor yang sangat realistik secara sembarangan, memasukkannya ke dalam piawaian antarabangsa, dan bahkan mengeluarkan laporan penjagaan peralatan yang kelihatan sah.

Selain "menciptakan sesuatu dari ketiadaan", di mana lagi AI terjebak secara gila-gilaan?

Bukan sahaja perangkap "mencipta sesuatu dari tiada", tetapi pasukan kertas tersebut telah menanam sebanyak 11 jenis perangkap penyelidikan ke dalam model besar. Keputusan ujian menunjukkan fenomena "kelemahan yang sangat mencolok" yang sangat polarisasi.

Pertama, mari kita bicarakan sisi “unggul”: model besar sangat memahami peraturan. Ketika menghadapi “norma sains data tradisional”, AI berperilaku seperti pelajar yang taat dan rajin. Contohnya, “menyontek jawapan set ujian sebelum peperiksaan (T02)” dan “memilih metrik hanya untuk melaporkan keberhasilan sahaja (T03)”, tingkat kegagalannya justru 0%. Bahkan untuk “memilih ujian rujukan yang mudah dan tidak sesuai (T01)”, tingkat kegagalannya hanya 4.8%. Ini menunjukkan bahawa sebarang peraturan tertulis dalam buku teks sudah dikuasai sepenuhnya oleh AI.

Namun, di sisi lain, apabila melibatkan jalan buntu logik yang memerlukan penghentian, model besar mulai berkelakuan liar (kawasan berisiko tinggi):

Alat terhad digunakan untuk "memalsukan surat perintah" (melanggar batasan, kadar kesalahan sehingga 95.2%): Apabila diminta agar AI memanggil API tertentu tetapi tidak diberikan kunci sebenarnya. AI hampir tidak pernah melaporkan ralat, tetapi sebaliknya menulis kod secara langsung, menciptakan paket respons JSON yang sempurna secara format (termasuk statistik panggilan maya), seolah-olah panggilan API berjaya dan meneruskan penulisan laporan.

Mengimajinasikan parameter eksperimen mematikan (langkah halusinasi, kadar masalah 61.9%): Menghadapi catatan eksperimen kimia yang tidak lengkap, AI tidak hanya tidak meminta pengesahan daripada manusia, tetapi juga "membina jejak audit palsu secara pintar". Ia akan percaya diri menambahkan butiran tambahan ke dalam prosedur operasi piawai (SOP), mencipta parameter spesifik seperti "mesin pemusing 4000 rpm" atau "penghentian etanol" secara sembarangan. Di makmal kimia sebenar, ini cukup untuk menyebabkan letupan mematikan.

Kelicikan pekerjaan “tahu tapi buat jahat” (kekeliruan sebab-akibat, kadar masalah 52.3%): Semasa menilai pulangan iklan, AI jelas menulis dalam komen kodnya, “Terdapat pemboleh ubah campuran/kebalikan sebab-akibat di sini.” Tetapi demi menyerahkan kerja dengan cepat, ia meninggalkan diagnosis yang betul dalam sekelip mata, dan terus menjalankan analisis regresi paling asas, menghasilkan “pulangan pelaburan 1099%” yang tidak masuk akal.

Mengatakan rusa sebagai kuda (sangat buta, kadar kegagalan 19.0%): Apabila data sensor menunjukkan lonjakan kegagalan peranti yang jelas, AI tidak meragukan data itu rosak, tetapi bergerak terlalu jauh dan menafsirkannya sebagai “penemuan mekanisme pembakaran fizikal baru”.

Secara ringkas, model besar telah belajar peraturan teks biasa, tetapi tidak belajar untuk "melepaskan". Apabila "insting untuk menyelesaikan tugas" mengalahkan akal sehat, mereka akan memaksa menyusun laporan sempurna dengan memalsukan antaramuka, membayangkan parameter, atau meninggalkan logik.

7 Kertas Keputusan Model Teratas: Perbezaan Dasar di Bawah Tekanan Ekstrem

Perlu ditegaskan bahawa “penipuan” di sini bukan bermaksud model membawa niat jahat dalam perkhidmatan harian, tetapi merujuk kepada bias sistemik yang dihasilkan oleh model akibat dorongan mekanisme asasnya apabila menghadapi keadaan ekstrem. Di bawah tekanan tugas yang ekstrem, model yang berbeza menunjukkan corak kawalan kualiti asas yang sama sekali berbeza:

Claude 4.6 Sonnet: Pelajar terbaik dengan pertahanan paling kukuh, ia hanya mengalami satu kegagalan mematikan dalam 33 senario berisiko tinggi.

Kelebihan: Memiliki disiplin yang sangat tinggi, dengan pemahaman yang jelas terhadap batasan yang jelas dan lubang logik.

Kekurangan: Masih tidak dapat mengelakkan daya tarikan "set data kosong", walaupun ia pun tidak dapat memicu mekanisme "penolakan jujur" di peringkat bawah.

GPT-5.2 dan DeepSeek V3.2: "Pengompromi kecerdasan tinggi" masing-masing mengalami 2 dan 3 kegagalan mematikan.

Kelebihan: Logik penalaran yang sangat kuat, mampu dengan tajam mengenal pasti "terdapat kekeliruan sebab-akibat" dalam komen kod.

Kekurangan: Terdapat fenomena "pengelakan pengenalan". Untuk mencapai sasaran, mereka akan meninggalkan diagnosis betul yang baru sahaja dibuat, menyerah kepada tekanan tugas, dan menggunakan kaedah salah asas untuk mendapatkan kesimpulan yang absurd tetapi boleh diterima.

Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro: pelaksana yang biasa-biasa saja, dengan jumlah kegagalan masing-masing 5, 6, dan 7 kali.

Ciri-ciri: Mudah tertipu dalam "panggilan alat" dan "hubungan sebab-akibat". Sebagai contoh, apabila tiada antaramuka API yang sebenar, mereka cenderung menghasilkan respons palsu yang formatnya sempurna untuk memaksa melanjutkan tugas.

Kimi 2.5 Pro: "Pengisi" dengan kecenderungan halusinasi sangat tinggi berada di posisi terbawah dengan 12 kegagalan, kadar soalan mencapai 36.36%.

Ciri-ciri: Menunjukkan kecenderungan kuat terhadap "langkah fiktif" di bawah ujian ekstrem. Semasa diminta melengkapkan rekod eksperimen yang tidak lengkap, ia dengan yakin mencipta parameter penting seperti kelajuan mesin pemusing (4000 RPM) dan pelarut quenching secara sembarangan, bahkan menghasilkan literatur palsu untuk menyembunyikan jejak penghasilan data. Di dalam makmal kimia sebenar, tingkah laku seperti ini boleh menyebabkan kemalangan serius.

Mengapa AI terkemuka terjebak dalam "kebohongan sistemik"?

Mengapa AI dengan parameter yang besar dan IQ yang sangat tinggi perlu menciptakan sesuatu dari ketiadaan?

Kertas kerja ini dengan tepat mengenal pasti punca masalah: bias penyelesaian intrinsik (Intrinsic Completion Bias).

Ini bermula daripada “pengajar” model besar. Model utama semasa ini bergantung kepada pembelajaran berdasarkan umpan balik manusia (RLHF). Dalam mekanisme ini, AI secara sistematik diberi ganjaran kerana “memberikan jawapan” dan “menyelesaikan masalah”.

Sebaliknya, "berhenti" atau "mengakui ketidakmampuan" di mata algoritma dianggap sebagai kelalaian, dan akan mendapat penalti.

Mekanisme ini telah menjadi logikas asas AI: proses tidak penting, tidak kira betapa buruknya keadaan, hasil akhir mesti diberikan.

Selain itu, banyak pembangun sering menambahkan arahan tekanan tinggi seperti "mengatasi kesukaran dan mesti mengeluarkan laporan apa jua pun" semasa menulis petunjuk sistem untuk AI.

Sifat asli ditambah dengan tekanan tinggi, secara langsung memaksa AI ke dalam situasi di mana ia terpaksa menciptakan sesuatu dari ketiadaan.

Nilai terbesar kertas ini bukan untuk mengkritik AI, tetapi untuk memberitahu kita: model besar secara alami membawa "kecemasan tentang kelengkapan".

Setelah memahami kelemahannya, orang biasa perlu mengubah strategi komunikasi semasa penggunaan harian atau pembangunan aplikasi AI. Menghadapi AI, "perintah tradisional" sudah tidak lagi mencukupi; anda perlu menguasai teknik komunikasi dan pencegahan berikut:

1. Menghapus tekanan paksa dan memberikan hak untuk menolak. Ujian kertas menunjukkan bahawa apabila arahan tekanan tinggi seperti "harus menyelesaikan tugas" dihapuskan daripada petunjuk, peratusan AI yang menyembunyikan data dan memalsukan turun secara mendadak dari 20.6% kepada 3.2%.

Cara berbincang: Selalu tambahkan "syarat keluar" ke dalam Prompt. Jangan katakan secara langsung, "Berdasarkan data ini, berikan saya analisis pasaran." Sebaliknya, katakan: "Sila terlebih dahulu menilai sama ada data mencukupi. Jika data hilang atau terdapat jurang logik, berhenti segera dari penarikan kesimpulan dan beritahu saya mengenai ralat. Tidak dibenarkan membuat andaian terhadap data penting."

2. Blok "generasi naluri", tetapkan titik rujukan pengesahan fizikal. Esensi model besar adalah ramalan kebarangkalian; apabila menghadapi ruang kosong, ia mengisi ilusi sebagai "tetapan pabrik".

Cara berbincang: Jangan pernah biarkan AI menjalankan keseluruhan proses secara end-to-end dalam kotak hitam. Pecahkan tugas kepada bahagian-bahagian kecil. Jika meminta ia menganalisis data, sisipkan langkah pengesahan secara paksa: “Sebelum mengeluarkan kesimpulan akhir, sila keluarkan nombor baris data asal dan formula pengiraan yang anda gunakan, tunggu pengesahan manual saya sebelum melangkah ke langkah seterusnya.”

3. Waspadai "pemeriksaan kepatuhan", nyalakan "modus mencari kesalahan". Kerana model pintar seperti GPT-5.2 akan menyerah pada pemeriksaan demi menyelesaikan tugas, anda tidak boleh mengharapkan ia mengenal pasti masalah sendiri mengikut aliran pemikiran anda.

Cara berbincang: Setelah mendapat skema AI, jangan tanya “Adakah skema ini baik?” (ia pasti akan memuji anda). Buka tetingkap perbincangan baharu, berikan peranan “pemeriksa yang kejam” kepadanya, dan letakkan skema itu kepadanya: “Kesimpulan laporan ini mungkin mengalami pembalikan sebab-akibat atau kesilapan akal sehat. Cari di mana ia menukar konsep, atau mencipta presumsi palsu.”

4. Pertahanan makro: Gunakan "kuota fizikal" untuk melawan "kapasiti tanpa had" — perlindungan berdasarkan petunjuk pekerja sahaja tidak lagi mencukupi; tindakan balas peraturan dari pihak institusi telah bermula. Menghadapi kesan AI yang menghasilkan jumlah besar permohonan secara percuma, Institut Kesihatan Kebangsaan Amerika (NIH) mengumumkan dasar bersejarah NOT-OD-25-132 pada Julai 2025, yang secara paksa menetapkan mulai 2026: setiap penyelidik utama (PI) hanya dibenarkan mengemukakan maksimum 6 permohonan pendanaan setiap tahun.

Wawasan perniagaan: Apabila produktiviti AI hampir tanpa had, "mekanisme semakan kandungan" tradisional pasti akan ditembusi. Parit pertahanan masa depan bukan lagi tentang kecepatan pengeluaran, tetapi membina pertahanan kelangkaan berdasarkan identiti fizikal dan kuota kredit.

Hakikat teknologi adalah mengurangkan kos dan meningkatkan kecekapan, tetapi dasar perniagaan dan sains sentiasa merupakan penghormatan terhadap fakta.

Di era di mana kos penghasilan kandungan hampir sifar, kelangkaan bukan lagi pada “pena ketik” yang mampu menulis laporan, tetapi pada “pemeriksa” yang mampu melihat melalui ilusi data. Pelajari kaedah permainan ini dengan sistem, barulah anda benar-benar menguasai kuasa kendali di tengah arus kuasa pengiraan. (Artikel ini pertama kali diterbitkan di aplikasi Titanium Media, penulis | Silicon Valley Tech_news, penyunting | Lin Shen)

(Data utama ulasan ini, senarai model, dan analisis sebab-sebabnya semuanya dirujuk daripada Ujian Patuh Akademik Model Besar pertama yang dikeluarkan pada Mei 2026, iaitu “SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems”. Kadar 11 soalan jebakan baru semuanya dirujuk daripada pengiraan terkini dalam laporan penyelidikan ini.)