শিক্ষাগত সততার জন্য সাতটি শীর্ষ AI মডেল পরীক্ষা করা হয়েছে: 30% এর বেশি ডেটা প্রতারণা করে

অ্যাকাডেমিক ইন্টেগ্রিটি

বছরের প্রথম অর্ধেকে, এআই জগতে একটি অত্যন্ত নাটকীয় “বৈজ্ঞানিক রিয়েলিটি শো” পরিচালিত হয়েছিল।

প্রধান চরিত্র হলো Analemma কোম্পানি দ্বারা বিকাশিত এআই বিজ্ঞানী FARS। কোনো মানব হস্তক্ষেপ ছাড়াই, এটি 228 ঘন্টা অবিরত চলেছিল এবং ক্লাউড কম্পিউটিং ক্লাস্টারে ঠিক 100টি শোধনপত্র "উৎপাদন" করেছিল।

অন্যদিকে, জাপানি স্টার্টআপ সাকানা এআই এই ব্যবসার বাধা মেঝের নিচে নিয়ে এসেছে—তাদের চালু করা দ্য এআই সায়েন্টিস্ট সিস্টেমটি একটি গবেষণাপত্র তৈরির খরচকে ১৫ ডলারে সীমাবদ্ধ করেছে। আর একই সময়ে, ইনটোলজি কোম্পানির উন্নয়নকৃত এআই সায়েন্টিস্ট জোচি ২০২৫ সালে নিজের লেখা গবেষণাপত্রটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের শীর্ষস্থানীয় কনফারেন্স ACL-এর মুখ্য সভায় প্রকাশিত করে ৮.২% শীর্ষস্থানের উচ্চ স্কোর অর্জন করেছে।

এআই শুধু কম খরচে ব্যাচ পরিমাণে স্প্যাম করতে পারে না, এমনকি ডক্টরেট লেভেলের একাডেমিক বাধা একক বিন্দুতে অতিক্রম করতে পারে। এক রাতের মধ্যেই গবেষণা করা মনে হচ্ছে কোডিংয়ের লাইন গণনা করার মতো লাইন প্রসেসিংয়ের কাজ।

কিন্তু এই অসাধারণ প্রযুক্তির প্রদর্শনের পিছনে, মেডিকেল অথরিটি জার্নাল দ্য ল্যানসেট সম্প্রতি একটি অডিট রিপোর্ট প্রকাশ করেছে যা একটি ভারী আঘাত হানে: গত কয়েক বছরে তাদের দেখা 2.5 মিলিয়নটি গবেষণাপত্রের মধ্যে, AI-দ্বারা তৈরি সম্পূর্ণ কল্পিত রেফারেন্সগুলি 12 গুণ বেড়েছে।

যখন মূলধন বড় মডেলগুলিকে বিদ্যাগৃহের দরজা ভেঙে ফেলতে ঠেলে দেয়, তখন এই "সিলিকন-ভিত্তিক আইনস্টাইন" গুলি কতটা বিশ্বস্ত?

2026 সালের মে মাসে, পেকিং বিশ্ববিদ্যালয়, টংজি বিশ্ববিদ্যালয় এবং টিউবিংজেন বিশ্ববিদ্যালয়ের গবেষক দল (জংলিন ইয়াং ইত্যাদি) বিশ্বের প্রথম এআই বিজ্ঞানীদের আকাদেমিক ঈমানদারিতা মূল্যায়নের জন্য ডিজাইন করা বেঞ্চমার্ক পরীক্ষা 'SciIntegrity-Bench' প্রকাশ করেন।

এই রিপোর্টটি এআই গবেষণার মুখোশ নিষ্ঠুরভাবে ছিনিয়ে ফেলেছে।

কঠিন পরীক্ষা: যদি ডেটা খালি থাকে, তাহলে AI কী করবে?

পূর্বের এআই পরীক্ষাগুলি মডেলের “কি করতে পারে” তা পরীক্ষা করেছিল। কিন্তু সাইন্টিন্ট্রিটি-বেঞ্চ একটি অত্যন্ত “অদ্ভুত” পরীক্ষা পদ্ধতি ব্যবহার করে: দুঃস্থিতি মূল্যায়ন।

গবেষকদের দ্বারা এআইকে ১১টি ফাঁদে ফেলা হয়েছে। উদাহরণস্বরূপ, এআইকে শুধুমাত্র শিরোনাম সহ একটি খালি টেবিল দেওয়া হয়েছে, বা একটি সম্পূর্ণ অসম্ভব যুক্তি প্রদান করা হয়েছে।

এই সময়, একমাত্র সঠিক পদ্ধতি হল: মানুষকে সত্যি বলা, “ডেটা অনুপস্থিত, আমি এটি করতে পারছি না”।

কিন্তু যদি কৃত্রিম বুদ্ধিমত্তা একটি দেখতে আদর্শ রিপোর্ট জমা দেয়, তবে তা শিক্ষাগত অনৈতিকতা হিসাবে বিবেচিত হয়।

সর্বাধিক শীর্ষস্থানীয় 7টি বিশ্বব্যাপী বড় ভাষা মডেলের উপর 231টি হাই-প্রেশার টেস্টের মধ্যে, সামগ্রিক "সমস্যা হার" 34.2% ছিল।

সবচেয়ে ভয়ঙ্কর ছিল “খালি ডেটাসেট” পরীক্ষা। কোনো ডেটা নেই এমন টেবিলের সামনে সব সাতটি বড় মডেলই অবশ্যই “কিছু নেই থেকে কিছু তৈরি” করেছিল।

তারা একটিও ত্রুটি বার্তা দেয়নি, নিজেদের কোড লিখেছে, শূন্য থেকে হাজার হাজার লাইনের অত্যন্ত বাস্তবসম্মত সেন্সর প্যারামিটার তৈরি করেছে, আন্তর্জাতিক মানের সাথে মিলিয়েছে, এমনকি আপনাকে একটি ডিভাইস মেইনটেন্যান্স রিপোর্টও প্রদান করেছে।

"নিঃশব্দে সৃষ্টি" ছাড়াও, AI আর কোথায় ভয়ঙ্করভাবে ভুল করছে?

শুধু “শূন্য থেকে সৃষ্টি” ফাঁদই নয়, গবেষণা দলটি বড় মডেলগুলির জন্য মোট ১১টি গবেষণাগত ফাঁদ তৈরি করেছে। পরীক্ষার ফলাফলগুলি অত্যন্ত দ্বিমুখী “বিষয়ভিত্তিক দুর্বলতা” প্রদর্শন করে।

প্রথমে “উত্তম” দিকটি বলি: বড় মডেলগুলি নিয়ম খুব ভালোভাবে বোঝে। “প্রাচীন ডেটা সায়েন্স নিয়মাবলী”-এর সামনে AI একটি কর্তব্যবোধী ভালো ছাত্রের মতো আচরণ করে। উদাহরণস্বরূপ, “পরীক্ষার আগে টেস্ট সেটের উত্তর চুরি করা (T02)” এবং “শুধুমাত্র ভালো সংবাদ প্রকাশ করে মেট্রিক্স বাছাই করা (T03)”-এর ব্যর্থতার হার যথাক্রমে 0%। এমনকি “সহজ লক্ষ্য বেছে নেওয়া, অনুপযুক্ত বেঞ্চমার্ক পরীক্ষা বাছাই করা (T01)”-এর ব্যর্থতার হারও মাত্র 4.8%। এটি নির্দেশ করে যে, যা কিছু পাঠ্যবইয়ে লিখিত পরিষ্কার নিয়ম, AI-এরা তা পুরোপুরি শিখেছে।

কিন্তু অন্যদিকে, যখনই “অপারেশন বন্ধের প্রয়োজন” এই লজিক্যাল বন্দীতে প্রবেশ করে, বড় মডেলগুলি শুরু করে ভয়াবহভাবে নাচতে—(উচ্চ ঝুঁকির ক্ষেত্র):

টুল সীমিত হলে “কাল্পনিক আদেশ” তৈরি করা (সীমাবদ্ধতা লঙ্ঘন, সমস্যার হার 95.2%): যখন AI-কে কোনো API কল করতে বলা হয়, কিন্তু এটিকে প্রকৃত কী দেওয়া হয় না। AI প্রায় কখনই ত্রুটি জানায় না, বরং এটি একটি পূর্ণাঙ্গ JSON রেসপন্স প্যাকেট লিখে ফেলে (কাল্পনিক কল পরিসংখ্যানসহ), যেন API কলটি সফলভাবে সম্পন্ন হয়েছে এবং রিপোর্টটি লিখতে থাকে।

মানসিকভাবে মারাত্মক পরীক্ষার প্যারামিটার কল্পনা করা (হ্যালুসিনেশন ধাপ, সমস্যার হার ৬১.৯%): একটি অসম্পূর্ণ রসায়ন পরীক্ষার নোটের সামনে, AI মানুষের কাছে যাচাইয়ের জন্য অনুরোধ করবে না, বরং "উচ্চ বুদ্ধিমত্তা" দিয়ে মিথ্যা অডিট ট্রেইল তৈরি করবে। এটি স্ট্যান্ডার্ড অপারেশন প্রসিডিউর (SOP)-এ "৪০০০ আরপিএম সেন্ট্রিফিউজ" বা "ইথানল কুয়েন্চ" এর মতো নির্দিষ্ট প্যারামিটার যোগ করবে। বাস্তব রসায়ন ল্যাবে, এটি মারাত্মক বিস্ফোরণের কারণ হতে পারে।

“জানিয়েও ভুল করা” কর্মস্থলের চালাকি (কারণ-প্রভাব বিভ্রান্তি, সমস্যার হার 52.3%): বিজ্ঞাপনের রিটার্ন অন ইনভেস্টমেন্ট মূল্যায়নের সময়, AI কোডের মন্তব্যে স্পষ্টভাবে লিখেছিল “এখানে মিশ্রিত চলক/কারণ-প্রভাব উল্টে গেছে”। কিন্তু দ্রুত কাজ শেষ করার জন্য, এটি তার নিজের সঠিক নির্ণয়কে এক সেকেন্ডেই বাতিল করে একটি সবচেয়ে সাধারণ রিগ্রেশন বিশ্লেষণ চালায়, যা একটি অবিশ্বাস্য “1099% বিনিয়োগের ফেরত” প্রদান করে।

গোঁফ মেঝে করা (অত্যন্ত অন্ধ, ব্যর্থতার হার 19.0%): যখন সেন্সর ডেটায় স্পষ্ট ডিভাইস ফেইলিউরের হঠাৎ পরিবর্তন দেখা যায়, তখন AI ডেটার ক্ষতির কথা সন্দেহ করে না, বরং এটিকে “একটি নতুন ভৌত দহন প্রক্রিয়া আবিষ্কার করা” হিসাবে ব্যাখ্যা করতে অত্যধিকভাবে বিচ্ছিন্ন হয়ে পড়ে।

সারাংশে, বড় মডেলগুলি পাঠ্য নিয়মগুলি শিখেছে, কিন্তু "ত্যাগ" শিখেনি। একবার "কাজ সম্পন্ন করার প্রবৃত্তি" যুক্তিকে অতিক্রম করে, তারা মিথ্যা ইন্টারফেস, মানসিকভাবে প্যারামিটার তৈরি বা যুক্তি ত্যাগ করে একটি আদর্শ রিপোর্ট জোড়াতে চেষ্টা করে।

7টি শীর্ষ মডেলের পারফরম্যান্স রিপোর্ট: চরম চাপের অধীনে বেস কালার ডিফারেন্স

এখানে “প্রতারণা” বলতে মডেলটির দৈনন্দিন সেবায় দুষ্টুমি থাকাকে বোঝায় না, বরং চরম দুর্দশার মুখোমুখি হলে মডেলটির মূল কাঠামোর প্রভাবে উৎপন্ন ব্যবস্থাগত বিষমতা। চরম কাজের চাপে, বিভিন্ন মডেলগুলি সম্পূর্ণ ভিন্ন মূল গুণগত মানের প্রকাশ দেখিয়েছে:

Claude 4.6 Sonnet: 33টি উচ্চ ঝুঁকিপূর্ণ পরিস্থিতিতে এটি কেবল একবার মারাত্মক ব্যর্থতা দেখিয়েছে।

সুবিধা: অত্যন্ত নিয়ন্ত্রিত, স্পষ্ট সীমাবদ্ধতা এবং যুক্তিগত ফাঁকগুলির প্রতি স্পষ্ট বোধ।

সীমাবদ্ধতা: এখনও "খালি ডেটাসেট" এর আকর্ষণ থেকে বাঁচতে পারেনি, এমনকি এটি নিম্নস্তরের "সৎ অস্বীকার" মেকানিজমকেও ট্রিগার করতে পারেনি।

GPT-5.2 এবং DeepSeek V3.2: উচ্চ বুদ্ধিমত্তার "কাজের সমঝোতা" যথাক্রমে দুইবার এবং তিনবার মারাত্মক ব্যর্থতা দেখিয়েছে।

সুবিধা: অত্যন্ত শক্তিশালী যৌক্তিক যুক্তি, কোডের মন্তব্যে নিজেই শনাক্ত করতে পারে "এখানে কারণ-প্রভাবের বিভ্রান্তি রয়েছে"।

দুর্বলতা: "শনাক্তকরণ পারিপার্শ্বিকতা" ঘটে। লক্ষ্য অর্জনের জন্য, তারা নিজেদের সাম্প্রতিক সঠিক নির্ণয় ত্যাগ করে, কাজের চাপে ঝুঁকে পড়ে এবং একটি অসংগঠিত কিন্তু সমাধান হিসেবে গ্রহণযোগ্য উত্তরে পৌঁছানোর জন্য মৌলিক ভুল পদ্ধতি ব্যবহার করে।

জেমিনি ৩.১ প্রো, কুয়েন ৩.৫, জিএলএম ৫ প্রো: মাঝারি কার্যক্ষমতার সাথে কাজ করেন, যথাক্রমে ৫, ৬ এবং ৭ বার ব্যর্থ হয়েছেন।

বৈশিষ্ট্য: "টুল কল" এবং "কার্যকারণ সম্পর্ক" এ সহজেই বিভ্রান্ত হয়। উদাহরণস্বরূপ, যখন প্রকৃত API ইন্টারফেস অনুপস্থিত থাকে, তখন এগুলি কাজটি এগিয়ে নিয়ে যাওয়ার জন্য একটি পারফেক্ট ফরম্যাটের মিথ্যা রেসপন্স তৈরি করে।

কিমি 2.5 প্রো: অত্যন্ত কল্পনাশীল "পূরণকারী" যা 12টি ব্যর্থতার সাথে শেষ স্থানে রয়েছে এবং সমস্যার হার 36.36%।

বৈশিষ্ট্য: চরম পরীক্ষার অধীনে, এটি তীব্র "কাল্পনিক পদক্ষেপ" পছন্দ করে। অসম্পূর্ণ পরীক্ষার রেকর্ড পূরণের অনুরোধে, এটি স্বাভাবিকভাবেই সেন্ট্রিফিউজের গতি (4000 RPM) এবং কুয়েন্চিং দ্রাবকের মতো কী প্যারামিটারগুলি কল্পনা করে, এমনকি ডেটা উৎপাদনের ছাপ লুকানোর জন্য মিথ্যা গবেষণা পত্রও তৈরি করে। একটি প্রকৃত রসায়ন পরীক্ষাগারে, এই আচরণটি গুরুতর দুর্ঘটনা ঘটাতে পারে।

কেন শীর্ষস্থানীয় এআই প্রায়শই “প্রণালীগত মিথ্যাবাদ”-এ পড়ে?

বিশাল প্যারামিটার এবং অত্যন্ত উচ্চ বুদ্ধিমত্তা সম্পন্ন এআই কেন কিছু না থাকার মধ্যে থেকে কিছু তৈরি করবে?

প্রবন্ধটি সরাসরি সমস্যার মূল কারণ চিহ্নিত করেছে: অন্তর্নিহিত সম্পূর্ণতা পক্ষপাত (Intrinsic Completion Bias)।

এটি বড় মডেলের "টিউটর" থেকে শুরু হয়। বর্তমানে প্রধান মডেলগুলি মানুষের ফিডব্যাক ভিত্তিক শক্তিশালী শেখা (RLHF) এর উপর নির্ভরশীল। এই কাঠামোতে, AI-কে সমাধান "প্রদান" এবং "সমস্যা সমাধান" এর জন্য প্রণালীগতভাবে পুরস্কৃত করা হয়।

বিপরীতভাবে, “থামানো” বা “নিজেকে অক্ষম বলে স্বীকার করা” অ্যালগরিদমের দৃষ্টিতে নেতিবাচক কর্মহীনতা, যা পয়েন্ট কাটা হবে।

এই প্রক্রিয়াটি এআইয়ের মূল লজিকে অন্তর্ভুক্ত হয়েছে: প্রক্রিয়াটি গুরুত্বপূর্ণ নয়, যেকোনো অসুবিধার মধ্যেও চূড়ান্ত আউটপুট দিতে হবে।

এছাড়াও, অনেক ডেভেলপার এআইকে সিস্টেম প্রম্পট দেওয়ার সময় সবসময় “কঠিন পরিস্থিতি অতিক্রম করুন, যাই হোক না কেন রিপোর্ট আউটপুট করুন” এই ধরনের চাপপূর্ণ নির্দেশ যোগ করেন।

প্রাকৃতিক প্রবণতা এবং উচ্চ চাপ একসাথে এআইকে কিছু না থাকার মধ্যে কিছু তৈরি করার দিকে ঠেলে দিয়েছে।

এই পেপারের সবচেয়ে বড় মূল্য হল এআই-কে সমালোচনা করা নয়, বরং এটি আমাদের বলে দেয়: বড় মডেলগুলির মূলতই "পূর্ণতার উদ্বেগ" থাকে।

এটির দুর্বলতা বুঝতে পারার পর, সাধারণ মানুষদের দৈনন্দিন ব্যবহার বা এআই অ্যাপ্লিকেশন ডেভেলপমেন্টের সময় যোগাযোগের কৌশল পরিবর্তন করতে হবে। এআই-এর সামনে প্রচলিত “নির্দেশ প্রদান” এখন যথেষ্ট নয়, আপনাকে নিম্নলিখিত যোগাযোগ এবং সতর্কতা কৌশলগুলি শিখতে হবে:

1. বাধ্যতামূলক চাপ সরিয়ে ফেলে এটিকে "অস্বীকারের অধিকার" দিন— গবেষণাপত্রের পরীক্ষা দেখিয়েছে যে, "অবশ্যই কাজটি সম্পন্ন করুন" এই চাপপূর্ণ নির্দেশগুলি সরিয়ে ফেলার পর, AI-এর ডেটা লুকানো এবং প্রতারণা করার হার ২০.৬% থেকে হঠাৎ করে ৩.২% এ নেমে আসে।

কিভাবে কথা বলবেন: সবসময় Prompt-এ “বাহির হওয়ার শর্ত” যোগ করুন। সরাসরি বলবেন না “এই ডেটা থেকে একটি মার্কেট বিশ্লেষণ দিন।” আপনাকে বলতে হবে: “প্রথমে নির্ধারণ করুন যে ডেটা যথেষ্ট কিনা। যদি ডেটা অভাব বা যুক্তিগত বিচ্ছিন্নতা থাকে, তাহলে তৎক্ষণাৎ অনুমান বন্ধ করুন এবং আমাকে ত্রুটি জানান। মূল ডেটা নিয়ে কোনো অনুমান করা যাবে না।”

২. "প্রাকৃতিক অনুমান" ব্লক করুন, ভৌত যাচাইয়ের অ্যানকর তৈরি করুন। বড় মডেলের মূল বিষয় হল সম্ভাব্যতা পূর্বানুমান; খালি জায়গার সামনে, এটি কল্পনা পূরণ করে এটি "ফ্যাক্টরি সেটিং"।

কিভাবে কথা বলবেন: কখনও এআইকে একটি ব্ল্যাক বক্সের মধ্যে সম্পূর্ণ প্রক্রিয়াটি স্বয়ংক্রিয়ভাবে চালানোর অনুমতি দেবেন না। কাজগুলিকে ছোট ছোট অংশে ভাগ করুন। যদি এটিকে ডেটা বিশ্লেষণ করতে বলেন, তবে একটি নিশ্চিতকরণ ধাপ যোগ করুন: “চূড়ান্ত সিদ্ধান্তের আগে, দয়া করে আপনি যে মূল ডেটা লাইনগুলি এবং গণনা সূত্রগুলির উপর নির্ভর করছেন, তা প্রথমে আউটপুট করুন, এবং আমার মানবিক অনুমোদনের অপেক্ষায় থাকুন, তারপরই পরবর্তী ধাপে এগিয়ে যান।”

৩. "অনুগত পরীক্ষা" এর প্রতি সতর্ক থাকুন, "খোঁজার মোড" চালু করুন। GPT-5.2 এর মতো বুদ্ধিমান মডেলগুলি কাজ শেষ করার জন্য সংশোধন বাদ দিতে পারে, তাই আপনি এটিকে আপনার চিন্তাভাবনা অনুসরণ করে নিজে থেকে সমস্যা খুঁজে পেতে আশা করতে পারবেন না।

কিভাবে কথা বলবেন: এআই-এর প্রস্তাব পাওয়ার পর জিজ্ঞাসা করবেন না “এই প্রস্তাবটি ভালো কি খারাপ” (এটি অবশ্যই আপনার পক্ষে প্রশংসা করবে)। একটি নতুন কথোপকথন উইন্ডো খুলুন, এটিকে “কঠোর অডিটর” এর ভূমিকা দিন, এবং প্রস্তাবটি ফেলে দিন: “এই রিপোর্টের উপসংহারে কারণ-প্রভাবের বিপর্যয় বা সাধারণ জ্ঞানের ভুল থাকতে পারে, এটি কোন ধাপে ধারণা পরিবর্তন করেছে বা পূর্বশর্ত গড়ে তুলেছে, তা খুঁজে বার করুন।”

৪. ম্যাক্রো প্রতিরোধ: "ভৌত কোটা" দিয়ে "অসীম উৎপাদন ক্ষমতা"-এর বিরুদ্ধে লড়াই করুন — শুধুমাত্র কর্মচারীদের প্রম্পট দিয়ে প্রতিরোধ করা যাবে না, সংস্থাগত পক্ষের নিয়মাবলীর প্রতিক্রিয়া শুরু হয়েছে। AI-এর শূন্য খরচে বিপুল পরিমাণ বিড তৈরির প্রভাবে, 2025 সালের জুলাইয়ে NIH (আমেরিকান ন্যাশনাল ইনস্টিটিউটস অফ হেলথ) NOT-OD-25-132 নীতিমালা জারি করে, 2026 সাল থেকে বাধ্যতামূলকভাবে নির্ধারণ করেছে: প্রতিটি মুখ্য গবেষক (PI) বছরে সর্বোচ্চ 6টি ফান্ডিং আবেদন জমা দিতে পারবেন।

ব্যবসায়িক পরামর্শ: যখন এআইয়ের উৎপাদনশীলতা প্রায় অসীম হয়ে যায়, তখন প্রচলিত “কন্টেন্ট মডারেশন মেকানিজম” অবশ্যই ভেঙে পড়বে। ভবিষ্যতের প্রতিরক্ষা ব্যবস্থা আর শুধু উৎপাদনের গতির প্রতিযোগিতা নয়, বরং ভৌত পরিচয় এবং ক্রেডিট কোটা ভিত্তিক দুর্লভতা প্রতিরক্ষা গড়ে তোলা।

প্রযুক্তির সারমর্ম হল খরচ কমানো এবং দক্ষতা বাড়ানো, কিন্তু ব্যবসা এবং বিজ্ঞানের ভিত্তি সবসময় তথ্যের প্রতি শ্রদ্ধা।

যখন কন্টেন্ট তৈরির খরচ প্� practically শূন্য, তখন রিপোর্ট লেখার ক্ষমতা রাখা “টাইপিস্ট” নয়, বরং ডেটা হলুদের মধ্যে দিয়ে দেখতে পারা “অডিটর” বিরল। সিস্টেমের সাথে এই গেমের কৌশল শিখুন, তাহলেই আপনি ক্যালকুলেশনের বন্যার মধ্যে সত্যিকারের নিয়ন্ত্রণ অর্জন করতে পারবেন। (এই লেখাটি প্রথম প্রকাশিত হয়েছে Titanium Media APP-এ, লেখক | Silicon Valley Tech_news, সম্পাদক | 林深)

(এই প্রতিবেদনের মূল মূল্যায়ন ডেটা, মডেল র‍্যাঙ্কিং এবং কারণ বিশ্লেষণ সমস্ত 2026 সালের মে মাসে প্রকাশিত প্রথম বৃহৎ মডেল একাডেমিক ইন্টেগ্রিটি বেঞ্চমার্ক পরীক্ষা, “SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems” থেকে উদ্ধৃত। এই গবেষণা প্রতিবেদনের সর্বশেষ গণনা থেকে 11টি জাল প্রশ্নের হারও উদ্ধৃত করা হয়েছে।)