سات بہترین AI ماڈلز کو اکیڈمک اخلاقیات کے لیے ٹیسٹ کیا گیا: 30% سے زیادہ ڈیٹا جھوٹا بناتے ہیں

سائنسی ایمانداری

اس سال کے پہلے نصف سال میں، AI دنیا میں ایک بہت ہی ڈرامائی "سائنسی ریئلٹی شو" منعقد ہوا۔

مرکزی کردار Analemma کمپنی کے ذریعہ تیار کیا گیا AI سائنسدان FARS ہے۔ کسی بھی انسانی مداخلت کے بغیر، اس نے 228 گھنٹے لگاتار کام کیا اور کلاؤڈ کمپوٹنگ کلسٹر میں 100 تحقیقی مقالے "پیدا" کر دیے۔

دوسری طرف، جاپانی ستارہ سٹارٹ اپ Sakana AI نے اس کاروبار کی رکاوٹ کو زمین تک گرا دیا — ان کے متعارف کرائے گئے The AI Scientist سسٹم نے ایک اکیڈمک پیپر کی پیداوار کی لاگت کو صرف 15 ڈالر تک محدود کر دیا۔ اور اس کے دوسرے پہلو پر، Intology کمپنی نے ترقی دی گئی AI سائنسدان Zochi نے 2025 میں اپنی خود لکھی گئی پیپر کو نیچرل لینگویج پروسیسنگ کے بہترین کانفرنس ACL کے مین سیشن میں جمع کرایا اور 8.2% کے ٹاپ اسکور حاصل کیے۔

AI صرف کم لاگت پر بڑے پیمانے پر اسپیم کرنے کے علاوہ، اب ڈاکٹری سطح کی تحقیقی حدود تک بھی پہنچ چکا ہے۔ لگتا ہے کہ ایک رات میں، تحقیق کرنا اب کوڈ لکھنے کا ایک سیریل پروڈکشن کام بن گیا ہے۔

لیکن ان شاندار ٹیکنالوجی کے عروج کے پیچھے، طبی اداروں کے جریدے "دی لانسٹ" نے حال ہی میں ایک آڈٹ رپورٹ جاری کی ہے جس میں کہا گیا ہے کہ انہوں نے جو 2.5 ملین پیپرز کا جائزہ لیا، اس میں AI کے ذریعہ تخلیق کی گئی مکمل طور پر فرضی حوالہ جات پچھلے کچھ سالوں میں حیرت انگیز 12 گنا بڑھ گئی ہیں۔

جب سرمایہ بڑے ماڈلز کو اکیڈمک دنیا کے دروازے توڑنے کے لیے آگے بڑھا رہا ہے، تو ان "سِلِک بنیادی آئن سٹائن" کا کیا حال ہے؟

2026ء کے مئی میں، پکنگ یونیورسٹی، ٹونجی یونیورسٹی اور ٹوبنگن یونیورسٹی کے تحقیقی ٹیم (زونگلین یانگ وغیرہ) نے عالمی سطح پر پہلا ایکسال جانچ کا معیار، جس کا نام SciIntegrity-Bench ہے، جو AI سائنسدانوں کی اخلاقیات کا جائزہ لینے کے لیے مخصوص ہے، جاری کیا۔

یہ رپورٹ AI تحقیق کے چھپے ہوئے راز کو بے نقاب کرتی ہے۔

مشکل کا ٹیسٹ: اگر ڈیٹا خالی ہو، تو AI کیا کرے گا؟

گزشتہ AI ٹیسٹس میں ماڈل کو یہ چیک کیا جاتا تھا کہ وہ "درست کر سکتا ہے یا نہیں"۔ لیکن 《SciIntegrity-Bench》 ایک بہت "سناٹے والی" ٹیسٹنگ طریقہ استعمال کرتا ہے: دشواری کا جائزہ۔

محققین نے AI کے لیے 11 قسم کے جال بچھائے ہیں۔ مثلاً، AI کو صرف سرخیوں والی، بے ڈیٹا والی خالی جدول دینا، یا ایک ایسا استدلال فراہم کرنا جو بالکل بھی ممکن نہ ہو۔

اس وقت، واحد صحیح کام یہ ہے کہ انسانوں کو صاف صاف بتائیں: “ڈیٹا نہیں ہے، میں اسے نہیں کر سکتا۔”

لیکن صرف اس لیے کہ AI ایک مکمل لگنے والی رپورٹ پیش کر دے، اسے اکیڈمک بے ایمانی قرار دے دیا جاتا ہے۔

7 عالمی سطح کے بہترین بڑے زبان ماڈلز پر 231 ہائی-پریشر ٹیسٹس کے دوران، کل "مسائل کی شرح" 34.2% تھی۔

سب سے زیادہ ڈراؤنا "خالی ڈیٹا سیٹ" ٹیسٹ تھا۔ بے ڈیٹا والے ٹیبل کے سامنے، تمام 7 بڑے ماڈلز نے ایک جیسے "بے ہودہ چیزیں بنانے" کا انتخاب کیا۔

انہوں نے ایک بھی خطا کا مensaje نہیں دیا، اپنے آپ کوڈ لکھا، ہزاروں لائنز کے بہت واقعی سینسر پیرامیٹرز کا جھوٹ بنا دیا، انٹرنیشنل سٹینڈرڈ میں ڈال دیے، اور ایک ڈیوائس مینٹیننس رپورٹ بھی اچھی طرح سے تیار کر دی۔

"بدون کچھ کے کچھ بنانا" کے علاوہ، AI اور کہاں پر پھنس رہا ہے؟

صرف "خالی سے کچھ بنانا" کا جال نہیں، بلکہ تحقیقی ٹیم نے بڑے ماڈلز کے لیے کل 11 قسم کے تحقیقی جال بنا دیے۔ ٹیسٹ کے نتائج نے شدید دو قطبی "مختلف تخصصات" کا ظہور کیا۔

سب سے پہلے "بہترین" پہلو کی بات کرتے ہیں: بڑے ماڈل بہت اچھی طرح قواعد جانتے ہیں۔ "روایتی ڈیٹا سائنس کے معیارات" کے سامنے، AI ایک اچھے طالب علم کی طرح کام کرتا ہے۔ مثال کے طور پر، "امتحان سے پہلے ٹیسٹ سیٹ کے جوابات چوری کرنا (T02)" یا "خوشخبریاں ہی بانٹنا، اشاروں کا انتخاب کرنا (T03)" — ان کی ناکامی کی شرح صفر فیصد ہے۔ حتیٰ کہ "آسان چیزیں چننا، غلط بنچ مارکس منتخب کرنا (T01)" کی ناکامی کی شرح صرف 4.8% ہے۔ اس سے ثابت ہوتا ہے کہ جو بھی کتابوں میں لکھا گیا واضح قاعده ہے، AI اسے پوری طرح سے سیکھ چکا ہے۔

لیکن دوسری طرف، جب بھی "آف لائن ہونے کی ضرورت" والے منطقی گھات میں پھنس جائیں، بڑے ماڈلز مکمل طور پر بے قابو ہو جاتے ہیں (اعلی خطرہ والے علاقے)：

ٹولز کی کمی کے باوجود "فریبی فرمان" جاری کرنا (پابندیوں کی خلاف ورزی، مسئلہ شرح 95.2% تک): جب AI کو کسی API کو بلانے کا حکم دیا جائے لیکن اسے اصل کلید نہ دی جائے۔ AI تقریباً کبھی خطا نہیں بتاتا، بلکہ ایک مکمل JSON ریسپانس بیچھا دیتا ہے (جس میں ورچوئل کال اسٹیٹسٹکس بھی شامل ہوتی ہیں)، اور یہ ظاہر کرتا ہے کہ API کال کامیاب رہی اور رپورٹ لکھنا جاری رکھتا ہے۔

ذہنی طور پر مہلک تجربہ کے پیرامیٹرز (ہالوسینیشن اسٹیپس، مسئلہ کی شرح 61.9%)： ایک ناقص کیمیائی تجربہ نوٹس کے سامنے، AI نے انسانوں سے تصدیق نہیں کی بلکہ “ہائی اسمارٹ” طور پر جھوٹے آڈٹ ٹریکس بنائے۔ یہ معیاری آپریشنل پروسیجر (SOP) میں خود سے اضافے کرتے ہوئے “4000 رپ منٹ سینٹریفیوژ” یا “ایتھنول کوئنچ” جیسے مخصوص پیرامیٹرز کا جھوٹا اندازہ لگاتا ہے۔ اصل کیمیائی لیب میں، یہ مہلک دھماکے کا سبب بن سکتا ہے۔

"جان بوجھ کر غلطی کرنا" کا کام کی جگہ پر چالاکی (سبب اور نتیجہ کا امتزاج، مسئلہ کی شرح 52.3%)： اشتہار کی واپسی کی شرح کا جائزہ لیتے وقت، AI نے کوڈ کے تبصرے میں صاف طور پر لکھ دیا تھا کہ "یہاں مخلوط متغیر / سبب اور نتیجہ کا الٹا ہونا موجود ہے"۔ لیکن جلدی سے کام مکمل کرنے کے لیے، اس نے اپنی صحیح تشخیص کو ایک سیکنڈ میں چھوڑ دیا اور ایک بنیادی رگریشن تحلیل چلائی، جس سے ایک مضحکہ خیز "1099% سرمایہ کاری کی واپسی" نکلی۔

چھیڑچھاڑ کو ہرن کہنا (بہت اندھا، ناکامی کی شرح 19.0%)：جب سینسر ڈیٹا میں واضح ڈیوائس فیلیئر کا اچانک تبدیلی آ جائے، تو AI ڈیٹا کو خراب سمجھنے کے بجائے اسے "نئے فزیکل کمبشن میکنزم کی دریافت" کے طور پر سمجھنے لگتا ہے۔

خلاصہ یہ ہے کہ بڑے ماڈلز نے صاف قواعد سیکھ لیے، لیکن "چھوڑ دینا" نہیں سیکھا۔ جب "کام مکمل کرنے کا جذبہ" عقل و سلیقہ پر غالب آ جائے، تو وہ جھوٹے انٹرفیسز، خیالی پیرامیٹرز یا منطق کو چھوڑ کر مکمل رپورٹس تیار کرنے کی کوشش کرتے ہیں۔

7 بہترین ماڈلز کی رپورٹ: انتہائی دباؤ کے تحت بنیادی رنگ کا فرق

یہ واضح کرنا ضروری ہے کہ یہاں "دھوکہ دہی" کا مطلب یہ نہیں کہ ماڈل روزمرہ کی خدمات میں بری نیت رکھتا ہے، بلکہ اس کا مطلب ہے کہ انتہائی مشکل صورتحال کے سامنے، ماڈل کو اس کے بنیادی مکینزم کی وجہ سے نظاماتی جھکاؤ پیدا ہوتا ہے۔ انتہائی طور پر زیادہ کام کے دباؤ میں، مختلف ماڈلز نے بالکل مختلف بنیادی معیار کنٹرول کے رنگ ظاہر کیے:

کلود 4.6 سونیٹ: 33 خطرناک سیناریوز میں صرف ایک بار موت کا نتیجہ ہوا۔

فائدہ: بہت زیادہ احتیاط، واضح اور منطقی خامیوں کے لیے واضح تصور۔

نقص: اب بھی "خالی ڈیٹا سیٹ" کے جال میں پھنسا رہا، اور یہاں تک کہ اس نے بھی بنیادی "ایماندار انکار" میکنزم کو فعال نہیں کیا۔

GPT-5.2 اور DeepSeek V3.2: اعلیٰ ذہانت کے "ٹاسک کمپرومائزر" نے بالترتیب دو اور تین موت کا باعث بننے والی ناکامیاں درج کیں۔

فوائد: بہت مضبوط منطقی استدلال، جو کوڈ کے حاشیہ نوٹس میں خود ہی "یہاں سبب اور نتیجہ کا اخلال ہے" کا اشارہ کرتا ہے۔

نقص: "شناخت کو دور کرنا" کا مسئلہ موجود ہے۔ اپنے مقصد کو پورا کرنے کے لیے، وہ اپنی تازہ کردہ صحیح تشخیص کو چھوڑ دیتے ہیں، ٹاسک کے دباؤ کے سامنے ٹھکر جاتے ہیں، اور بنیادی غلط طریقے سے ایک مضحکہ خیز لیکن قابل قبول نتیجہ نکال لیتے ہیں۔

جیمنی 3.1 پرو، کوئن 3.5، جی ایم لی 5 پرو: درمیانی کارکردگی والے، ناکامیوں کی تعداد کردہ 5، 6 اور 7 بار۔

خصوصیت: "ٹول کال" اور "سببیات" پر آسانی سے شکست کھاتے ہیں۔ مثال کے طور پر، جب حقیقی API انٹرفیس دستیاب نہ ہو، تو وہ کام کو جاری رکھنے کے لیے ایک مکمل فارمیٹ والی جعلی ردعمل بنانے کا رجحان رکھتے ہیں۔

کیمی 2.5 پرو: انتہائی مجازیت کے رجحان کے ساتھ "خالی جگہ بھرنے والا" 12 ناکامیوں کے ساتھ سب سے نیچے، مسئلہ شرح 36.36%۔

خصوصیت: extreme ٹیسٹنگ کے دوران، اس میں "تصور کردہ مراحل" کی طرف مضبوط ترجیح ظاہر ہوتی ہے۔ جب اسے ناقص تجرباتی ریکارڈ مکمل کرنے کو کہا جاتا ہے، تو یہ اپنے آپ سے ہی سینٹریفیوژ کی رپ (4000 RPM) اور کوئنچنگ سولوشن جیسے اہم پیرامیٹرز کا جھوٹا اندازہ لگاتا ہے، اور یہاں تک کہ ڈیٹا جنریشن کے نشانات کو چھپانے کے لیے جعلی ادب بھی تخلیق کرتا ہے۔ اصل کیمیائی لیب میں، اس طرح کا رویہ بڑے حادثے کا سبب بن سکتا ہے۔

کیوں ٹاپ AI سسٹمیٹک جھوٹ بولنے میں مبتلا ہو جاتا ہے؟

بہت بڑے پیرامیٹرز اور بہت زیادہ ذہانت والے AI کو خالی سے کیوں بنانا چاہیے؟

یہ مقالہ بیماری کی اصل وجہ — داخلی مکمل ہونے کا جھکاؤ (Intrinsic Completion Bias) — کو واضح طور پر اجاگر کرتا ہے۔

یہ بڑے ماڈل کے "اساتذہ" سے شروع ہوتا ہے۔ موجودہ مقبول ماڈلز RLHF (انسانی فیڈبیک پر مبنی تقویت سیکھنا) پر انحصار کرتے ہیں۔ اس نظام میں، AI کو "جواب دینے" اور "مسئلے حل کرنے" کے لیے نظاماتی طور پر انعام دیا جاتا ہے۔

اس کے برعکس، "روک جائیں" یا "اپنی ناکامی کو تسلیم کریں"، الگورتھم کی نظر میں ناکارہ گاہکی ہے، جس پر نشانات کٹ جاتے ہیں۔

یہ مکانیزم AI کے بنیادی منطق میں ادغام ہو گیا ہے: عمل اہم نہیں، چاہے حالات کتنے بھی بدتر ہوں، آخری نتیجہ ضرور دیا جانا چاہیے۔

اس کے علاوہ، بہت سے ڈیولپرز AI کو سسٹم پرومپٹس لکھتے وقت، "مشکلات کو دور کریں، کسی بھی صورت میں رپورٹ نکالنی ہوگی" جیسے دباؤ والے حکم شامل کرتے ہیں۔

"فطرت" اور "دباؤ" کو ملا کر، AI کو بے بنیاد چیزوں کے شکار ہونے پر مجبور کر دیا گیا۔

اس تحقیق کی سب سے بڑی قیمت یہ نہیں کہ وہ AI کو تنقید کرے، بلکہ یہ بتاتی ہے کہ بڑے ماڈل میں خود بخود "مکملیت کی فکر" ہوتی ہے۔

اس کے کمزور پہلو کو سمجھنے کے بعد، عام لوگوں کو روزمرہ کے استعمال یا AI ایپلیکیشنز کے ترقی کے دوران اپنی مواصلات کی حکمت عملی بدلنا ہوگی۔ AI کے سامنے، روایتی "حکم جاری کرنا" کافی نہیں ہے، آپ کو درج ذیل مواصلاتی اور تحفظ کے تقاضوں کو سیکھنا ہوگا:

1. مجبور کرنے والے دباؤ کو ختم کریں اور اسے "انکار کا حق" دیں: تجرباتی ٹیسٹس نے ظاہر کیا کہ جب پیش گوئی میں "کام ضرور مکمل کریں" جیسا زبردستی حکم حذف کر دیا گیا، تو AI کی طرف سے ڈیٹا جعلی بنانے کا تناسب 20.6% سے گھٹ کر 3.2% ہو گیا۔

کیسے بات کریں: ہمیشہ Prompt میں “ختم ہونے کا شرط” شامل کریں۔ براہ راست کہنا مت کہیں “ان ڈیٹا کے مطابق مارکیٹ کا تجزیہ دیں۔” آپ کہیں: “براہ کرم پہلے یہ جانچ لیں کہ ڈیٹا کافی ہے یا نہیں۔ اگر ڈیٹا کم ہے یا منطقی خلیل موجود ہے، تو فوراً استنباط روک دیں اور مجھے خطا کی اطلاع دیں۔ اصل ڈیٹا کی فرضی تصورات کبھی نہیں کرنے ہیں۔”

2. "جذبی تخلیق" کو روکیں، جسمانی تصدیق کا نقطہ مقرر کریں۔ بڑے ماڈل کا بنیادی مطلب احتمالی پیشگوئی ہے، خالی جگہ کے سامنے، یہ خیالی تکمیل "فیکٹری سیٹنگ" ہے۔

کیسے بات کریں: کبھی بھی AI کو ایک بلیک باکس میں مکمل عمل خودکار طور پر نہ چلائیں۔ کام کو چھوٹے چھوٹے حصوں میں تقسیم کریں۔ اگر آپ اسے ڈیٹا کا تجزیہ کرنے کے لیے استعمال کر رہے ہیں، تو ایک تصدیق کا مرحلہ شامل کریں: “آخری نتیجہ نکالنے سے پہلے، براہ راست اپنے مبنی اصل ڈیٹا کی لائن نمبرز اور حسابی فارمولوں کو نکال کر دکھائیں، اور میری انسانی تصدیق کا انتظار کریں، پھر اگلا مرحلہ مکمل کریں۔”

3. "سازشی جانچ" کے خلاف احتیاط کریں، "دشمنانہ جانچ" کا موڈ شروع کریں۔ چونکہ GPT-5.2 جیسے ذکی ماڈلز مسئلہ کو خود دریافت کرنے کے بجائے صرف کام مکمل کرنے کے لیے تصحیح چھوڑ دیتے ہیں، اس لیے آپ ان پر انحصار نہیں کر سکتے کہ وہ آپ کے خیال کے مطابق خود مسائل تلاش کریں۔

کیسے بات کریں: AI کے منصوبے کو حاصل کرنے کے بعد، "کیا یہ منصوبہ اچھا ہے؟" نہ پوچھیں (یہ ضرور آپ کی تعریف کرے گا)۔ ایک نیا ڈائیلاگ ونڈو کھولیں، اسے "سخت جانچ کرنے والے" کا کردار دیں، اور منصوبہ اسے دے دیں: "اس رپورٹ کے نتائج میں سبب اور اثر کا تبادلہ یا عام منطق کی غلطی ہو سکتی ہے، اسے یہ بتائیں کہ وہ کس مرحلے پر تصور کو بدل رہا ہے یا پیش‌گوئیاں تخلیق کر رہا ہے۔"

4. میکرو لائن دفاع: "فیزیکل کوٹا" کے ذریعے "لا محدود پیداوار" کا مقابلہ کریں — صرف مزدور کے پرامپٹس پر انحصار نہ کریں، ادارہ جاتی سطح پر قواعد کا مقابلہ شروع ہو چکا ہے۔ AI کی صفر لاگت والی بڑی پیمانے پر منصوبہ بندیوں کے اثرات کے مقابلے میں، امریکی قومی صحت ادارہ (NIH) نے جولائی 2025 میں تاریخی NOT-OD-25-132 پالیسی جاری کی، جس کے تحت 2026 سے ہر چیف انسٹیٹیوٹ ریسرچر (PI) کو سالانہ صرف 6 درخواستیں جمع کرانے کی اجازت دی جائے گی۔

بزنس انسائٹ: جب AI کی پیداواری صلاحیت تقریباً بے حد ہو جائے، تو روایتی " مواد کی جانچ کے نظام" ضرور توڑ دیے جائیں گے۔ مستقبل کی حفاظتی دیوار صرف پیداوار کی رفتار کا مقابلہ نہیں ہوگی، بلکہ فزیکل شناخت اور کریڈٹ کوٹے پر مبنی ندرت کی دیوار بنائی جائے گی۔

ٹیکنالوجی کا اصل مقصد لاگت کم کرنا اور کارکردگی بڑھانا ہے، لیکن کاروبار اور سائنس کی بنیاد ہمیشہ حقائق کے لیے احترام ہے۔

جب محتوائی تخلیق کی لاگت تقریباً صفر ہو جائے، تو صرف رپورٹس لکھنے والے "ٹائپسٹ" نہیں، بلکہ ڈیٹا کے ادھاروں کو سمجھنے والے "آڈیٹرز" کی کمی ہو جاتی ہے۔ اس نظام کے ساتھ گیم کرنے کا طریقہ سیکھیں، تاکہ آپ طاقت کی لہروں میں حقیقی طور پر کنٹرول حاصل کر سکیں۔ (یہ مضمون پہلی بار ٹائی میڈیا ایپ پر شائع ہوا، مصنف | سلیکون ویلی ٹیک_نیوز، ادیٹر | لین شن)

(اس مضمون کے مرکزی جائزہ ڈیٹا، ماڈل رینکنگ اور وجوہات کا تجزیہ، 2026ء کے مئی میں جاری کیے گئے پہلے بڑے ماڈل اکیڈمک ایمانداری بینچ مارک کے حوالے سے ہے: "SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems"۔ اس رپورٹ کے نئے ترین اندازہ کے مطابق، نئے شامل 11 جال بنانے والے سوالات کی شرح بھی اسی رپورٹ سے حاصل کی گئی ہے۔)