গুগলের গবেষণা পত্রে LLM-এর অনিশ্চয়তা ভালোভাবে প্রকাশের আহ্বান

গুগল রিসার্চ চায় যে এআই বেশি বার বলুক “আমি নিশ্চিত নই।” কোম্পানির গবেষকদের একটি পেপারে যুক্তি দেওয়া হয়েছে যে বড় ভাষা মডেলগুলি যখন অন্তর্নিহিত আত্মবিশ্বাস কম থাকবে, তখন প্রতিটি উত্তরকে এমনভাবে দেওয়া উচিত নয় যেন কেউ ঠিকই কিছু গড়ে তুলেছে।

“Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?” শিরোনামে এই পেপারটি EMNLP 2024-এ উপস্থাপন করা হয়েছে, যা প্রাকৃতিক ভাষা প্রক্রিয়াকরণ গবেষণার শীর্ষস্থানীয় স্থানগুলির মধ্যে একটি। এর মূল ফলাফল: বর্তমান LLMগুলি আপনাকে খুবই খারাপভাবে জানায় যখন তারা আসলে জানে না যে তারা কী নিয়ে কথা বলছে।

জানা এবং বলার মধ্যে ফারাক

লেখকগুলি গাল যোনা, রী আহারোনি এবং মোর গেভা তাদের “ফেথফুল রিসপন্স আনসার্টিনটি” নামক একটি ঔপচারিক কাঠামো প্রস্তাব করেন। ইংরেজিতে: এটি একটি মডেলের কথিত আত্মবিশ্বাস কি প্রকৃতপক্ষে এর অভ্যন্তরীণ আত্মবিশ্বাসের সাথে মেলে কিনা তা পরিমাপের একটি উপায়। এই মেট্রিকটি অমিলের উভয় দিককেই শাস্তি দেয়, তাই যে মডেল সবকিছুকেই সংশয়বাদীভাবে প্রতিক্রিয়া জানায়, তা ঠিক ততটাই শাস্তি পায় যতটা যে মডেল কখনও সংশয়বাদীভাবে প্রতিক্রিয়া জানায় না।

তাদের সুপারিশটি প্রতারকভাবে সরল। যখন একটি এলএলএম-এর অভ্যন্তরীণ আত্মবিশ্বাস কম থাকে, তখন এটি অনিশ্চিত তথ্যকে প্রকৃত তথ্য হিসাবে উল্লেখ না করে “আমি নিশ্চিত নই, কিন্তু…” এর মতো প্রাকৃতিক ভাষার হেজ ব্যবহার করবে।

বিজ্ঞাপন

গবেষকদের বিভিন্ন সামঞ্জস্যপূর্ণ LLM পরীক্ষা করা হয়েছিল জ্ঞান-প্রধান প্রশ্ন-উত্তর কাজে। ফলাফলগুলি উৎসাহজনক ছিল না। আধুনিক মডেলগুলি তাদের আউটপুটে নিজেদের অনিশ্চয়তা সঠিকভাবে প্রতিফলিত করতে উল্লেখযোগ্যভাবে কষ্ট পায়।

চ্যাটবটের বাইরে হ্যালুসিনেশন কেন গুরুত্বপূর্ণ

গুগলের পেপারটি অনিশ্চয়তা প্রকাশকে একটি আলাইনমেন্ট সমস্যা হিসাবে প্রস্তাব করে। বর্তমান আলাইনমেন্ট প্রযুক্তি, যা প্রাথমিক প্রশিক্ষণের পরে মডেলকে ফাইন-টিউন করার জন্য ব্যবহৃত হয়, সাধারণত সহায়কতা এবং প্রবাহিতা অপ্টিমাইজ করে। একটি মডেল যা “আমি জানি না” বলে, সহায়কতা বেঞ্চমার্কে খারাপ স্কোর পায়, যদিও “আমি জানি না” হলো সবচেয়ে সঠিক সম্ভাব্য উত্তর।

এটি একটি বিকৃত উদ্দীপনা তৈরি করে। মডেলগুলি সমন্বয়ের সময় শিখে যে আত্মবিশ্বাসী, বিস্তারিত উত্তরগুলি পুরস্কৃত হয়, যখন সংশয়বাদী বা অসম্পূর্ণ উত্তরগুলি শাস্তি পায়। গবেষকদের যুক্তি হল যে এই ব্যবধানটির জন্য প্রকাশিত নিশ্চিততাকে প্রকৃত জ্ঞানের সাথে সামঞ্জস্য করার জন্য নতুন সমন্বয় পদ্ধতির প্রয়োজন।

arXiv প্রিন্টটি প্রথম প্রকাশ করা হয় ২৭ মে, ২০২৪-এ, যার ফলে ব্যাপক গবেষণা সম্প্রদায়কে ইএমএনএলপি প্রেজেন্টেশনের আগে মাসের পর মাস ধরে ফলাফলগুলির সাথে জড়িয়ে পড়ার সুযোগ দেওয়া হয়।

ক্রিপ্টো এবং এআই-চালিত ট্রেডিং-এর জন্য এটির অর্থ কী

কাগজটিতে ক্রিপ্টোকারেন্সি, ডিজিটাল সম্পদ বা আর্থিক প্রয়োগের কোনো উল্লেখ নেই। তবে এর প্রভাবগুলি বিনিয়োগের প্রেক্ষাপটে কৃত্রিম বুদ্ধিমত্তা টুলস ব্যবহারকারীদের জন্য গুরুত্বপূর্ণভাবে বিস্তৃত হয়।

একটি ট্রেডিং সিগন্যাল যা বলছে “বিটকয়েন $X এ প্রতিরোধের পরীক্ষা করবে”, এর অর্থ খুব ভিন্ন হয় যদি ভিত্তিগত মডেলের আত্মবিশ্বাস 95% হয় অথবা 45% হয়। বর্তমানে, বেশিরভাগ এআই-চালিত টুল উভয় পরিস্থিতিরই একইভাবে উপস্থাপন করছে।

যারা বর্তমানে ক্রিপ্টো বিশ্লেষণের জন্য এআই টুলসের উপর নির্ভর করছেন, তাদের জন্য ব্যাবহারিক উপসংহারটি সহজ: যেকোনো এআই-জেনারেটেড ইনসাইটকে কমপক্ষে অসম্পূর্ণ হিসেবে বিবেচনা করুন, যদি সেটি নিজের অনিশ্চয়তা প্রকাশ না করে। গুগলের পেপারটি প্রমাণ করে যে, সবচেয়ে উন্নত মডেলগুলি নিয়মিতভাবে তাদের আত্মবিশ্বাসকে অতিরঞ্জিত করে।