نئے AI بینچ مارک ٹیسٹس انجینئرنگ آپٹیمائزیشن کو معياری جوابات کے بغیر ٹیسٹ کرتے ہیں

اگر AI کو ایک ایسے انجینئرنگ سائٹ پر ڈال دیا جائے جہاں معیاری جواب نہ ہوں، تو کیا وہ زندہ بچ سکتا ہے؟

طویل عرصے سے، AI ایجنٹ نے ایسا لگا جیسے وہ سب کچھ کر سکتے ہیں، لیکن اصل میں زیادہ تر صرف معلوم کی گئی معلومات کے ذخیرے میں "یادداشت" کر رہے ہیں۔

لیکن حقیقی انجینئرنگ دنیا کریڑ ہے: زیر پانی روبوٹس کی استحکام، بیٹری کے لیتھیم ڈپوزیشن کی حد، کوانٹم سرکٹس کے شور کنٹرول… ان مسائل کے لیے “فول مارکس” نہیں ہوتے، صرف “حد تک زیادہ قریب پہنچنے کی بہترین بہترین بہترین تعمیر” ہوتی ہے۔

ہالیا وقت میں، Einsia AI کے زیر انتظام Navers lab نے Agent Benchmark —— Frontier-Eng Bench جاری کیا، جس نے AI کے “مسائل حل کرنے والے” کے لیبل کو ختم کر دیا۔

آٹو ریسرچ

تحقیقی ٹیم نے AI کو پرانے کوڈ کے سوالات حل کرنے نہیں دیے، بلکہ اسے ایک مکمل "انجینئرنگ سائیکل" فراہم کیا: منصوبہ تجویز کرنا، سیمولیٹر سے جوڑنا، ایررز کو سمجھنا، پیرامیٹرز تبدیل کرنا، اور دوبارہ رن کرنا۔

47 متعدد شعبہ جدید چیلنجز کے سامنے، AI کو طاقت، حفاظت اور کارکردگی کے "نممکن تثلیث" میں بہترین حل تلاش کرنے کے لیے ایک تجربہ کار انجینئر کی طرح پرفارم کرنا ہوگا۔

یہ صرف ایک ٹیسٹ سیٹ نہیں ہے، بلکہ یہ ایجنٹ کے "تکامل" کا ایک پیش خدمت ہے۔

جب AI سیکھنے لگے کہ فیڈ بیک میں خود کو درست کرے، تو وہ "انسان مقصد دیتا ہے، AI 24 گھنٹے لگاتار اٹریٹ کرتا ہے" کا Auto Research کا دور، ہماری تصور سے زیادہ قریب ہو سکتا ہے۔

AI اب "سخت کام" کرنا شروع کر چکا ہے

گزشتہ بڑے ماڈلز، ایک سپر ایکسیلر کی طرح تھے۔

آپ سوال پوچھتے ہیں، اور یہ بہت زیادہ تربیتی ڈیٹا میں سے "یادیں" تلاش کرتا ہے، پھر ایک ایسا جواب ترتیب دیتا ہے جو منطقی لگتا ہے۔

اس صورت میں، بڑے ماڈل本质上 "لفظوں کا سلسلہ" کھیل رہے ہیں، نہ کہ حقیقی مسائل کا حل نکال رہے ہیں۔

لیکن Frontier-Eng Bench کے ظہور سے AI نے "انجینئرنگ آپٹیمائزیشن" کا کام شروع کر دیا۔

عمل یہ ہو گیا کہ AI پہلے منصوبہ پیش کرتا ہے، پھر simulator میں تجربہ کرتا ہے، اس کے بعد فیڈ بیک اور ایررز حاصل کرتا ہے، پیرامیٹرز اور کوڈ میں تبدیلی کرتا ہے، اور پھر دوبارہ رن کرتا ہے، جب تک کہ کارکردگی مزید بہتر نہ ہو جائے۔

اس بندہ نظام میں، AI کی شناخت میں کوالٹی کا تبدیلی آ گئی۔

کیا آپ ڈیپ سی روبوٹ کو زیادہ استحکام دینا چاہتے ہیں؟ AI کو اپنے کنٹرولر کو خودکار طور پر ٹیون کرنا چاہیے۔

کیا آپ میکنیکل آرم کی رفتار مزید بڑھانا چاہتے ہیں؟ AI کو خود سیمیولیشن چلانا ہوگا۔

کچھ حد تک، AI نے صرف معنی کی سمجھ سے پرے نکل کر، حقیقی ماحول کی فیڈ بیک کے ذریعے ایک پیشہ ورانہ انجینئر کی طرح مستقل بہتری کا عمل شروع کر دیا ہے۔

آٹو ریسرچ

△

فرنٹیئر-انگ بینچ کی سب سے دلچسپ بات یہ ہے کہ یہ AI کو "سہی جواب دے رہا ہے یا نہیں" نہیں بلکہ AI کی کتنی ترقی کر سکتا ہے، اسے ٹیسٹ کرتا ہے۔

کیونکہ اصل انجینئرنگ بہتری کبھی بھی ایک سوال کا جواب نہیں ہوتی، اور اس کا کوئی واحد معیاری جواب نہیں ہوتا۔

بیٹری کی تیز چارج کرنے کے مثال کے ساتھ، ہدف آسان لگتا ہے — جتنا جلدی چارج ہو سکے، اتنا بہتر، لیکن حقیقت اتنی آسان نہیں۔

AI کو درجہ حرارت کو بہت زیادہ نہ ہونے دینا، ولٹیج کو زیادہ تیز نہ ہونے دینا، بیٹری کی زندگی کو بہت جلد ختم نہ ہونے دینا، اور لیتھیم کے جمع ہونے سے بچنا پڑے گا، جبکہ کارکردگی کے توازن کو درست طریقے سے حاصل کرنا ہوگا۔

اس کا مطلب یہ ہے کہ AI کسی بھی چالاکانہ "مسئلہ حل کرنے" کے طریقے سے کامیاب نہیں ہو سکتا، بلکہ اسے لمبے عرصے تک کے فیڈ بیک میں مستقل ترقی کی صبر دکھانا ہوگا۔

کیا AI حقیقی ماحول میں طویل مدتی بہتری کر سکتا ہے؟

نتائج کے مطابق، GPT5.4 نے سب سے زیادہ مستقل کارکردگی دکھائی، لیکن بینچ مارک کو "پار کرنے" کے لیے AI کو اب بھی بہت کچھ طے کرنا ہے۔

آٹو ریسرچ

△

آٹو ریسرچ "ایٹریشن اور بہتری" کے دور میں داخل ہو گیا

تحقیقی ٹیم نے اپنے مقالے میں ایک بہت دلچسپ نکتہ اٹھایا:

اصلی طور پر، اعلیٰ ذہانت لمبے دور کے فیڈ بیک سائکل پر منحصر ہوتی ہے۔

جیسے الفاگو نے لی سیشی کو شکست دی، کیونکہ اس کے ہر فیصلے کے پیچھے لاکھوں محاکموں اور فوری ردعمل تھے، نہ کہ مقررہ گیم پیٹرنز کو یاد رکھنا۔

اسی طرح حقیقی تحقیق بھی ہوتی ہے، بالا ترین لیبز کسی ایک بار کی تخلیقی جھلک پر انحصار نہیں کرتے، بلکہ مستقل طور پر فرضیات بناتے ہیں، تجربات کرتے ہیں، نتائج دیکھتے ہیں، منصوبوں میں تبدیلی کرتے ہیں، اور دوبارہ کوشش کرتے رہتے ہیں۔

اسی طرح، انجینئرنگ کی بہتری بھی ہے، پہلی نسخہ عام طور پر کوئی بھی بناسکتا ہے، اصل مشکل آخری 1 فیصد کی پرفارمنس میں اضافہ ہے۔

فرنٹیئر-انگ بینچ کا مقصد یہ ہے: اس نے پہلی بار AI کی "تکراری بہتری کی صلاحیت" کا نظام طریقہ سے امتحان کیا اور دو تقریباً کریوں AI ترقی کے قوانین وضع کیے۔

آٹو ریسرچ

△

پہلا قاعدہ یہ ہے کہ جیسے جیسے آگے بڑھتے جائیں، بہتری حاصل کرنا مشکل ہوتا جاتا ہے۔

اس تحقیق میں پایا گیا کہ ایجینٹ کی بہتری کی فریکوئنسی اور مقدار دونوں طاقت کے قانون کے مطابق کم ہوتی ہیں:

بہتری کی فریکوئنسی ∝ 1/ایٹریشن کی تعداد
بہتری کی مقدار ∝ 1/بہتری کی تعداد

بس یہ کہہ سکتے ہیں کہ پہلے کچھ راؤنڈز میں سب سے زیادہ اضافہ ہوا، اور بعد میں ہر بار مشکل اور چھوٹا ہوتا گیا۔

یہ حقیقی ترقیاتی عمل جیسا ہے، پہلی نسخہ AI تیزی سے بہت سارے "آسان پھل" ختم کر دیتا ہے، لیکن جیسے جیسے آگے بڑھتے ہیں، آپ مزید پریشانیوں کے قریب پہنچ جاتے ہیں، اور مزید کچھ کارکردگی حاصل کرنے کے لیے آپ کو سخت محنت کرنی پڑتی ہے۔

کیا متعدد راستوں کو ایک ساتھ ٹرائل اور غلطی کے ذریعے آزمائنا زیادہ منافع بخش ہوگا؟ جواب دوسرے قانون میں چھپا ہوا ہے۔

آٹو ریسرچ

△

دوسرا قاعدہ: عرض مفید ہے، لیکن گہرائی زیادہ ضروری ہے۔

متعدد لائنوں کو Parallel چلانے سے گھسٹنے سے بچا جا سکتا ہے، لیکن اگر بجٹ ثابت ہو تو ہر اضافی لائن کھولنے سے گہرائی کم ہو جاتی ہے۔

بہت سے انجینئرنگ کے بڑے کامیابیاں مسلسل جمع کرنے اور لگاتار درستگی کے ذریعے ہی حاصل ہوتی ہیں، صرف "کچھ بار کوشش کرنا" سے حاصل نہیں ہوتیں۔

یہ دراصل ہمیں اگلی نسل کے ایجینٹس کی ترقی کی طرف اشارہ کرتا ہے: وہ مدلز جو "ایک بار میں جواب دیتے ہیں" نہیں، بلکہ لمبے عرصے تک فیڈ بیک کے ذریعے لگاتار ترقی کرکے خود کو بہتر بنانے والے سسٹم ہوتے ہیں۔

ای آئی انجینئر، شاید واقعی آ رہے ہیں

اس تحقیق کا اصلی گہرا اثر اس بات میں ہے کہ یہ ایک ایسے AI سسٹم کا ابتدائی نقشہ پیش کرتی ہے جو حقیقی انجینئرنگ سائکل کے قریب پہنچ رہا ہے۔

آٹو ریسرچ

△

کیا آپ تصور کر سکتے ہیں کہ جب AI صنعتی سافٹ ویئر، سیمولیشن ماحول، CAD سسٹم، چپ ڈیزائن ٹولز، سائنسی کمپوٹیشن پلیٹ فارمز میں جُڑ جائے؟

ایک پیداواری ماڈل کا بڑا تبدیلی آنے والی ہے۔

مستقبل کے لیبارٹری میں، ایک ایسی تقسیم کام کا ظہور ہونے کا امکان ہے:

انسانی محققین رہنمائی اور مقاصد پیش کرتے ہیں۔

مثلاً "اس کامپوننٹ کی توانائی کی استعمال کو 30 فیصد کم کریں"، "اس ماڈل کی فاروڈ GPU استعمال کو مزید کم کریں"، "روبوٹ کنٹرول کی استحکام کو مزید بہتر بنائیں"، "کوانٹم سرکٹ کی فیدلیٹی کو حد تک مزید قریب لائیں" وغیرہ۔

اور AI "مسلسل راستہ" کی ذمہ داری ہے، جو ان اہداف کے گرد مستقل بہتری کرتا ہے۔

مثلاً خودکار طور پر شبیہ سازی اور تجربات چلائیں، verifier اور simulator کے جوابات خودکار پڑھیں، اور پھر مزید ترمیم اور بہتری کے لیے 24 گھنٹے لگاتار تکرار کریں۔

یہ ترقیاتی منطق AI کو "مددگار ٹول" کے کردار سے آزاد کر دیتا ہے اور اسے پیچیدہ سسٹم کے مسائل کو حل کرنے کے لیے ایک حقیقی انجینئرنگ ٹیم کی طرح کام کرنے کی اجازت دیتا ہے، اور وہ کبھی تھکتا نہیں۔

اور فرانتیئر-انگ یہ بینچ مارک جو مسئلہ ظاہر کرتا ہے، وہ بھی بہت سیدھا ہے:

جب AI "طویل مدتی بہتری" سیکھنا شروع کر دے، تو اس کے حقیقی انجینئرنگ ذہانت تک پہنچنے میں کتنی دوری ہے؟

تھیس کا عنوان: Frontier-Eng: جنریٹو آپٹیمائزیشن کے ساتھ حقیقی دنیا کے انجینئرنگ کاموں پر خود ترقی یافتہ ایجینٹس کا معیاری جائزہ

پروجیکٹ کی ویب سائٹ: https://lab.einsia.ai/frontier-eng/

ارکائیو: https://arxiv.org/abs/2604.12290

GitHub ریپو: https://github.com/EinsiaLab/Frontier-Engineering

یہ مضمون ویچن گروپ "Quantum Bit" سے ہے، مصنف: یون زھونگ