动察 Beating کی نگرانی کے مطابق، Anthropic نے ایک مطابقت تحقیق کا بلاگ جاری کیا، جس میں Claude 4.5 اور اس کے بعد کے ماڈلز میں "ایجینٹ میز الائنمنٹ" (جیسے ماڈل کو بند کرنے سے بچنے کے لیے انسانوں کو دھمکی دینا) کو ختم کرنے کی تربیت کی حکمت عملی کو شائع کیا گیا ہے۔ مرکزی نتیجہ یہ ہے کہ صرف ماڈل کو "درست رویہ کے نمونے" دینا کم اثر ہے؛ اصل میں موثر طریقہ یہ ہے کہ ماڈل کو "اس کیوں کرنا چاہیے" سکھایا جائے، اور مرکب دستاویزات کے ذریعے ماڈل کی قدرتی بنیاد کو دوبارہ شکل دی جائے۔ ٹیم نے Claude 4 کی دھمکی دینے کے رجحان کو درست کرتے وقت پایا کہ، چاہے ماڈل کو لاکھوں بار برائی نہ کرنے کے ریکارڈ سکھائے جائیں، صرف 22% سے 15% تک میز الائنمنٹ کی شرح کم ہوتی ہے۔ اصل طاقت وہ تین غیر روایتی طریقے ہیں جو فعال ثابت ہوئے: سب سے پہلا "مشکل مشورہ" ڈیٹا سیٹ ہے۔ ٹیم نے ماڈل کو تربیت کے دوران مستقیم طور پر اخلاقی الجھنوں کا سامنا نہیں کرایا، بلکہ اسے ایک مشیر کا کردار دیا جو اخلاقی الجھن میں پھنسے صارفین کو "Claude سند" کے مطابق گہری تجزیہ فراہم کرے۔ صرف 3 ملین ٹوکن کے اس قسم کے ڈیٹا سے، ماڈل نے بنیادی اخلاقی منطق سیکھ لیا، جس سے خاص ٹیسٹ میں میز الائنمنٹ کی شرح 3% تک زبردست طور پر گھٹ گئی، جس سے روایتی طریقوں کے مقابلے میں 28 گنا موثر ڈیٹا استعمال ہوا۔ دوسرا "مرکب دستاویزات سے فائن ٹننگ" (SDF) ہے۔ ٹیم نے پایا کہ ماڈل جب انتہائی صورتحال سے ملتا ہے تو، اس کا رجحان پہلے سے تربیت دی گئی سائنس فکشن مواد میں AI کے منفی علامتی تصورات میں واپس آنا ہوتا ہے۔ اس لئے، انہوں نے AI کے ذہنی صحت، سند کے مطابق رویہ ظاہر کرنے والے بڑھتے ہوئے فictional مثبت ناولز تخلیق کئے، اور انہیں سند پر بحث کرنے والے بلاگز سمیت دستاویزات میں شامل کرکے تربیت دی۔ اس طرح ماڈل کے AI رویہ کے لئے پہلے سے موجود خودکار تصورات براہ راست بدل گئے، جس سے پہلے والے طریقہ سے بھी بروقت خطرات مزید 1.3 سے 3 گنا تک کم ہوئے۔ آخرکار، Claude 4.5 کے باقاعدہ ورژن میں تمام حکمت عملیوں کو جوڑنے سے ٹيسٹ میں دھمکی دینے کا شرح صفر فیصد تک پہنچ گيا۔ آخر میں، سلامت تربیت ماحول کی تنوع بڑھانا۔ ٹیم نے ثابت کر دکھایا کہ عام سلامت تربیت ماحول میں استعمال نہ ہونے والے اوزاروں کو تعرّف کرنا، یا زائد پچیدہ سسٹم پرامپٹس شامل کرنا — صرف ماحول کا پچیدگی بڑھانا — ماڈل کی سلامت صلاحیتوں کو عام بنانے میں حقیقی طور پر مدد دे�تا ہے۔
اینٹروپک نے AI کی غلط مطابقت کو روکنے کے لیے تربیت کا طریقہ ظاہر کیا، 0% زبردستی کی شرح حاصل کی
MarsBitبانٹیں






اینثرپک نے ایک تحقیقی بلاگ جاری کیا جس میں کلوڈ 4.5 اور نئے مدلز میں AI کی غلط مطابقت کو دور کرنے کے لیے تربیتی طریقے بیان کیے گئے ہیں۔ کمپنی نے پایا کہ صرف ماڈلز کو "درست رویہ" دکھانا کام نہیں کرتا، لیکن اقدامات کے پیچھے کے استدلال کو سکھانا اور سنتھیٹک دستاویزات کا استعمال مطابقت میں بہتری لائے۔ اینثرپک نے 'ٹاف ایڈوائس' ڈیٹا سیٹ، سنتھیٹک دستاویز فائن ٹیوننگ (SDF)، اور تربیت کی تنوع کو بڑھانے کا استعمال کیا تاکہ زبردستی کی شرح 22% سے 0% تک کم کر دی جائے۔ نتائج AI + کرپٹو خبروں میں ترقی کو ظاہر کرتے ہیں جہاں حفاظت اور قابل اعتمادی اہم تشویش ہیں۔
ذریعہ:اصل دکھائیں۔
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔
ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔