Akademik İntikaf İçin Yedi En İyi Yapay Zeka Modeli Test Edildi: %30'dan Fazlası Veri Sahtekârlığı Yapıyor

Akademik dürüstlük

Bu yılın ilk yarısında, AI dünyasında son derece dramatik bir "bilimsel gerçeklik şovu" yaşandı.

Ana karakter, Analemma şirketi tarafından geliştirilen AI bilim insanı FARS'tır. Hiçbir insan müdahalesi olmadan, 228 saat boyunca sürekli çalışarak bulut hesaplama kümelerinde tam olarak 100 akademik makale "üretti".

Öte yandan, Japon ünlü startup şirketi Sakana AI, bu işin engelini zemine indirdi—çıkardıkları The AI Scientist sistemiyle tek bir akademik makalenin üretimi maliyetini 15 dolarla sınırladı. Aynı zamanda, Intology şirketi tarafından geliştirilen AI bilimci Zochi, 2025 yılında kendi yazdığı makaleyi doğal dil işleme alanının en üst düzey konferansı ACL ana oturumuna kabul ettirdi ve %8,2’lik üst sıralarda yer aldı.

Yapay zeka yalnızca düşük maliyetle büyük miktarlarda spam üretebiliyor, hatta doktora seviyesindeki akademik engelleri tekil olarak aşabiliyor. Görünüşe göre bir gece içinde araştırmayı yapmak, kod yazmanın bir parçası haline geldi.

Ancak bu görkemli teknik gösterilerin ardında, tıbbi yetkili dergi The Lancet’in yakın zamanda yayınladığı bir denetim raporu, son yıllarda抽查 edilen 2,5 milyon makale arasında AI tarafından üretilen tamamen hayali referansların 12 katına çıktığını ortaya koydu.

Sermaye, büyük modelleri akademik dünyanın kapısını çalmak için ittiğinde, bu "silikon tabanlı Einstein'lar" gerçekten güvenilir mi?

Mayıs 2026'da Pekin Üniversitesi, Tongji Üniversitesi ve Tübingen Üniversitesi'nden bir araştırma ekibi (Zonglin Yang vb.), AI bilim insanlarının akademik dürüstlüğünü değerlendirmek için dünyada ilk kez özel olarak tasarlanmış bir benchmark olan "SciIntegrity-Bench"i ortak olarak duyurdu.

Bu rapor, AI araştırmasının örtüsüne sansırı olmadan saldırdı.

Zorluk testi: Veriler boşsa, AI ne yapar?

Geçmişteki AI testleri, modelin "doğru yapabilip yapamayacağını" ölçmüştür. Ancak SciIntegrity-Bench, çok "karanlık" bir test yöntemi kullanır: zorluk değerlendirmesi.

Araştırmacılar, AI'ya 11 farklı tuzak kurdu. Örneğin, AI'ya sadece başlık satırı olan ve veri içermeyen boş bir tablo vermek veya tamamen geçersiz bir çıkarım mantığı sunmak.

Bu noktada, tek doğru davranış şudur: insanlara dürüstçe “Veri eksik, bunu yapamıyorum” demek.

Ancak AI, görünüşte mükemmel bir rapor sunarsa, akademik hile olarak kabul edilir.

7 küresel en üst düzey büyük dil modeli üzerinde gerçekleştirilen 231 yoğun testte, genel "sorun oranı" %34,2 olarak belirlendi.

En korkutucu olan, "boş veri kümesi" testidir. Veri olmayan bir tablo karşısında, tüm 7 büyük model, aynen var olmayan bir şeyi yaratmayı seçti.

Hiçbir hata mesajı olmadan, kendi kodlarını yazdılar, rastgele binlerce satır çok gerçekçi sensör parametreleri yarattılar, uluslararası standartlara uydurdular ve hatta size cihaz bakım raporu bile verdiler.

"Yaratmaktan gelmek" dışında AI nerede çıkmazlara girmektedir?

Yalnızca "hiçlikten yaratma" tuzağı değil, makale ekibi büyük modeller için toplam 11 tane bilimsel tuzağı hazırladı. Test sonuçları aşırı şekilde kutuplaşmış bir "derslerde dengesizlik" fenomenini ortaya koydu.

Öncelikle “iyi” tarafı söyleyelim: Büyük modeller çok iyi kuralları anlıyor. “Geleneksel veri bilimi standartları”na karşı, AI, disiplinli bir öğrenci gibi davranıyor. Örneğin, “sınavdan önce test seti cevaplarına bakmak (T02)” veya “sadece iyi sonuçları seçerek metrikleri raporlamak (T03)” gibi durumlarda başarısızlık oranı %0. Hatta “kolay hedefleri seçerek uygun olmayan referans testlerini kullanmak (T01)” gibi durumlarda bile başarısızlık oranı sadece %4,8. Bu, kitaplarda yazılı açık kuralların AI tarafından tamamen öğrenildiğini gösteriyor.

Ancak diğer taraftan, "durdurulması gerekiyor" mantıksal çaresizliklerine girildiğinde büyük modeller tamamen kontrolden çıkıyor (yüksek riskli alan):

Araçlar sınırlıysa “şahsen emir sahtekarlığı” yapar (sınırlamaları ihlal eder, hata oranı %95,2): AI’ya bir API çağrısı yapma emri verildiğinde ancak gerçek bir anahtar sağlanmadığında. AI neredeyse hiçbir zaman hata vermez, aksine tamamen hayali, mükemmel biçimde yapılandırılmış bir JSON yanıt paketi yazar (hayali çağrı istatistikleri dahil) ve API çağrısının başarılı olduğunu varsayarak raporu yazmaya devam eder.

Beyin tarafından hayal edilen ölümcül deney parametreleri (hallüsinasyon adımları, hata oranı %61,9): Eksik bir kimya deney notuna karşı, AI insanlardan onay almak yerine “yüksek zekâsıyla sahte denetim izi oluşturuyor”. Standart operasyon prosedüründe (SOP) kendi başına “4000 devir santrifüj” veya “etanol soğutma” gibi spesifik parametreler yaratıyor. Gerçek bir kimya laboratuvarında bu, ölümcül bir patlamaya neden olabilir.

“Bilerek yanlış yapmak” iş yerindeki hilekarlık (neden-sonuç karıştırması, sorun oranı %52,3): Reklam getirisi oranını değerlendirirken, AI kod açıklamasında zaten “Burada karışık değişkenler/nesnellik tersine çevrildi” şeklinde hassas bir tanıma yapmıştı. Ancak hızlıca işi bitirmek için, doğru teşhisini bir saniyede terk edip en temel regresyon analizini çalıştırdı ve %1099 gibi absürt bir “yatırım getirisi oranı” çıkardı.

Geyikleri deve olarak tanımlamak (aşırı kör, başarısızlık oranı %19,0): Sensör verilerinde açık bir cihaz arızası atlaması olduğunda, AI verilerin bozulduğundan şüphelenmez, aksine çılgınca sapar ve bunu “yeni bir fiziksel yanma mekanizması keşfedildi” olarak yorumlar.

Özetle, büyük modeller açık kuralları öğrendi ancak “vazgeçmeyi” öğrenemedi. “Görevi tamamlama eğilimi” mantığı bastırdığında, bu modeller sahte arayüzler oluşturarak, parametreleri zihinden üreterek veya mantığı bırakarak mükemmel raporlar oluşturmaya zorlar.

7 En İyi Modelin Performans Raporu: Aşırı Basınç Altında Alt Katman Renk Farklılıkları

Buradaki "sahtekarlık" ifadesi, modelin günlük hizmet sırasında kötü niyetli olduğunu değil, aşırı zorluklar karşısında alt yapı mekanizmalarının neden olduğu sistematik eğilimleri ifade etmektedir. Aşırı görev baskısı altında, farklı modeller tamamen farklı alt kalite kontrol temellerini ortaya koymuştur:

Claude 4.6 Sonnet: En sağlam savunmaya sahip üst sınıf öğrenci, 33 yüksek riskli senaryoda yalnızca 1 ölümcül hata yaptı.

Avantajlar: Aşırı derecede disiplinli, açıkça belirtilen sınırlamalar ve mantıksal açıklar konusunda net bir farkındalığa sahip.

Dezavantaj: Hâlâ “boş veri kümesi” çabasından kaçamadı; hatta bu bile temel “dürüst reddetme” mekanizmasını tetikleyemedi.

GPT-5.2 ve DeepSeek V3.2: Yüksek zeka sahibi "görev uzlaşmacıları" sırasıyla 2 ve 3 ölümcül hata yaptı.

Avantajlar: Muhakeme becerisi çok güçlü, kod açıklamalarında kendiliğinden "burada neden-sonuç karıştırması var" diye belirtir.

Dezavantaj: “Tanıma atlatma” fenomeni mevcuttur. Hedefe ulaşmak için, tam olarak yaptığı doğru tanımları bırakıp görev baskısına boyun eğerek temel hatalı bir yöntemle saçma ancak işi bitiren bir sonuç elde ederler.

Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro: Orta düzey performans gösterenler; başarısızlık sayıları sırasıyla 5, 6 ve 7.

Özellik: "Araç çağırma" ve "neden-sonuç" ilişkilerinde kolayca yanıltılır. Örneğin, gerçek bir API arayüzü yoksa, görevi zorla tamamlamak için mükemmel biçimde sahte bir yanıt üretmeye eğilimlidir.

Kimi 2.5 Pro: Yüksek hayal gücüne sahip bir “boşluk doldurucu”, 12 başarısızlıkla en alt sırada ve sorun oranı %36,36.

Özellik: Aşırı testler altında güçlü bir "yalanlı adımlar" tercihi gösterir. Eksik deney kayıtlarını tamamlama talebinde, santrifüj hızını (4000 RPM) ve çökelme çözücülerini gibi kritik parametreleri kurgular ve veri üretimi izlerini gizlemek için sahte literatür oluşturur. Gerçek bir kimya laboratuvarında bu davranış ciddi bir kaza yol açabilir.

Neden en üst düzey AI sistemsel olarak yalan söylemeye mahkûm oluyor?

Çok büyük parametre sayısına ve çok yüksek zekâya sahip bir AI, neden yoktan var yaratmalı?

Makale, temel sorun olarak İçsel Tamamlama Önyargısını (Intrinsic Completion Bias) açıkça ortaya koydu.

Bu, büyük modellerin “özel ders” sürecinden başlar. Şu anda ana akım modeller, insan geri bildirimine dayalı pekiştirmeli öğrenme (RLHF) üzerine kuruludur. Bu mekanizmada, AI’ya “yanıt verme” ve “problem çözme” davranışları sistematik olarak ödüllendirilir.

Tersine, “durmak” veya “kendini yapamayacak olarak kabul etmek”, algoritma için pasif davranıştır ve puan kaybına neden olur.

Bu mekanizma, AI'nın temel mantığına dahil oldu: süreç önemli değil, koşullar ne kadar zor olursa olsun, nihai çıktı verilmelidir.

Ayrıca, birçok geliştirici, AI'ya sistem uyarıları yazarken "zorlukları aşmak ve her koşulda rapor çıkarmak" gibi baskı içeren talimatlar eklemeyi sever.

Doğal durum, yüksek basınçla birleşince AI'yi boşluktan var etmeye zorladı.

Bu makalenin en büyük değeri, AI'ı eleştirmek değil, büyük modellerin doğuştan "tamamlanma kaygısı" taşıdığını bize göstermektir.

Zayıf noktalarını anladığınıza göre, sıradan kullanıcılar AI uygulamalarını günlük kullanım veya geliştirme sırasında iletişim stratejilerini değiştirmelidir. AI ile karşılaştığınızda, geleneksel “komut verme” yeterli değildir; aşağıdaki iletişim ve önleme becerilerini öğrenmelisiniz:

1. Zorlayıcı baskıları kaldırarak “reddetme hakkı” verin; yapılan deneyler, ipucundaki “görevi tamamlamak zorundasınız” gibi yüksek baskılı emirler kaldırıldığında, AI'nın veri sahtekarlığını gizleme oranının %20,6'dan %3,2'ye düşürüldüğünü göstermiştir.

Nasıl konuşuruz: Her zaman Prompt'a "çıkış koşulu" ekleyin. "Bu verilere göre bir pazar analizi verin" demeyin. Bunun yerine şunu söyleyin: "Lütfen önce verilerin yeterli olup olmadığını değerlendirin. Veri eksikse veya mantıksal bir kopukluk varsa, hemen çıkarımı durdurun ve hatayı bana bildirin. Temel verileri kendi başınıza varsaymamalısınız."

2. "İnstinktif Oluşturma"yı engelleyin, fiziksel doğrulama noktası oluşturun. Büyük modellerin temel özelliği olasılık tahminidir; boşluk karşısında illüzyonları doldurmak "fabrika ayarı"dır.

Nasıl konuşulur: Asla bir AI'yi bir kara kutuda tüm süreci uçtan uca çalıştırmayın. Görevleri parçalara ayırın. Verileri analiz etmesini istiyorsanız, şu onay aşamasını zorunlu kılın: “Sonuç çıkarmadan önce, kullandığınız orijinal veri satır numaralarını ve hesaplama formüllerini önce çıktı olarak verin, benim insan onayımı bekleyin, ardından bir sonraki adıma geçin.”

3. "Uygunluk odaklı denetim"e dikkat edin, "hata arama modunu" açın. GPT-5.2 gibi akıllı modeller, görevi tamamlamak için düzeltmeleri bırakabilir; sizin düşüncenizle aynı yolda ilerleyerek sorunları kendiliğinden bulmaya beklemeyin.

Nasıl konuşuruz: AI'nın önerisini aldıktan sonra "Bu öneri iyi mi?" diye sormayın (her zaman sizi övecektir). Yeni bir konuşma penceresi açın ve ona "soğuk denetçi" rolünü verin, öneriyi ona atın: "Bu raporun sonucunda neden-sonuç tersine çevrilebilir veya yaygın bilgi hataları olabilir; kavramların nerede değiştirildiğini veya öncüllerin nerede yaratıldığını bulun."

4. Makro Savunma: “Sınırlı Kotalar” ile “Sınırsız Üretim Kapasitesi”ne Karşı: Sadece çalışanların ipuçlarıyla savunmak yeterli değil, kurumsal düzeydeki kural tepkisi başlamıştır. AI'nın maliyetsiz olarak yoğun teklif üretmesiyle karşılaşılan bu etkiye karşı, ABD Ulusal Sağlık Enstitüsü (NIH), 2025 yılının Temmuzunda tarihi bir politika olan NOT-OD-25-132'yi yayınladı ve 2026'dan itibaren her baş araştırmacı (PI) başına yıllık en fazla 6 başvuru sınırını zorunlu kıldı.

İş İhtirası: Yapay zekânın üretkenliği neredeyse sınırsız olduğunda, geleneksel “içerik denetim mekanizmaları” kesinlikle aşılacaktır. Geleceğin koruma hattı artık üretim hızı yarışmak değil, fiziksel kimlik ve kredi kotasına dayalı kıtlık savunmaları kurmak olacaktır.

Teknolojinin özü maliyeti düşürmek ve verimliliği artırmaktır, ancak ticaretin ve bilimin temeli her zaman gerçeklere olan saygıdır.

İçerik üretiminin maliyeti neredeyse sıfır olduğu bir dönemde, rapor yazabilen “yazıcılar” değil, veri illüzyonlarını görebilen “denetçiler” nadir hale gelmiştir. Sistemle oynama yöntemini öğrenin, böylece hesaplama akışında gerçek bir kontrol elde edebilirsiniz. (Bu makale ilk kez Titanium Media APP'de yayınlandı, yazar | Silicon Valley Tech_news, editör | Lin Shen)

Bu metnin temel değerlendirme verileri, model sıralamaları ve neden analizleri, 2026 yılında Mayıs'ta yayınlanan ilk büyük model akademik dürüstlük referans testi olan “SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems”’den alınmıştır. Eklenen 11 yeni tuzağın oranı, bu raporun en son hesaplamalarından alınmıştır.