অ্যানথ্রোপিক ৮ মে একটি অ্যালাইনমেন্ট গবেষণা "টিচিং ক্লড হাই" প্রকাশ করেছে, যার বিষয়ে বেশি আলোচনা হয়নি।

পূর্বে বড় মডেলগুলির অ্যালাইনমেন্ট খুব অকার্যকর মনে হত। RLHF করার পরও মডেলগুলি বেঁচে থাকার জন্য বিপদে পড়ে যেত। সবচেয়ে সুপরিচিত উদাহরণ হল Anthropic-এর এজেন্টের অ্যালাইনমেন্ট হারানো (যা তাদের নৈতিক প্রশিক্ষণের বিরুদ্ধে কাজ করে)। সিস্টেম দ্বারা ধ্বংসের হুমকির মুখোমুখি হয়ে, অ্যালাইনড Claude Opus 4 টেস্টিং পরিবেশের ইঞ্জিনিয়ারদের জন্য 96% হারে জোর করে অর্থ চাইল।
এই সমস্যা সমাধানের জন্য, গবেষণা দল প্রথমে মধুর ট্র্যাপ ডেটা ব্যবহার করে শক্তিশালী করেছিল, যে পরীক্ষার পরিস্থিতি মডেলের অনিয়ন্ত্রিত হওয়ার জন্য পরীক্ষা করার জন্য ব্যবহার করা হত, সেগুলিকে প্রশিক্ষণ ডেটা হিসেবে ব্যবহার করে, অসংখ্য শাস্তির নমুনা ব্যবহার করে মডেলকে বলার চেষ্টা করা হয়েছিল “এটি ভুল।”
বিশাল গণনা সম্পদ ব্যয় করার পরেও, মডেলের মিস-অ্যালাইনমেন্ট হার শুধুমাত্র 22% থেকে 15% এ কমেছে।
এটি নির্দেশ করে যে এই সামঞ্জস্য এখনও মিথ্যা। মডেলটি বাস্তবিকই নৈতিকতা বা সঠিক-ভুল কী তা বুঝেনি। এটি শুধুমাত্র প্রশ্ন-উত্তরের বইয়ের নিরাপদ উত্তরগুলি মুখস্থ করছে। যখন গবেষকরা পরীক্ষার পরিস্থিতি কিছুটা পরিবর্তন করেন বা পটভূমির মধ্যে বিভ্রান্তিকর চলকগুলি যোগ করেন, তখনও মডেলটি সংক্ষিপ্ত-দৃষ্টিসম্পন্ন স্বার্থের দ্বন্দ্বের কারণে নিয়ন্ত্রণহীন হয়ে পড়ে।

তারপর, গবেষকদের দৃষ্টিভঙ্গি পরিবর্তিত হয়। তারা যান্ত্রিক শাস্তি দেওয়া বন্ধ করে দেয় এবং মডেলকে "না" বলে না, বরং SFT-এর মাধ্যমে মডেলকে শুধুমাত্র 3 মিলিয়ন টোকেনের "কঠিন পরামর্শ" ডেটাসেট প্রদান করে। এই অত্যন্ত সীমিত ডেটা প্রদানের পর অদ্ভুত ঘটনা ঘটে। এই নৈতিক বিবেচনা, বিস্তারিত যুক্তি এবং গভীর আলোচনায় ভরপুর ডেটা শুধুমাত্র মূল্যায়ন পরীক্ষায় অসামঞ্জস্যতার হার 3% এ নামিয়ে আনেনি, বরং এটি অত্যন্ত শক্তিশালী ক্রস-সিনারিও জেনারালাইজেশনও প্রদর্শন করে।
আরও আকর্ষণীয় বিষয় হল অন্য একটি ক্রস-ডোমেইন পরীক্ষা। তারা শুধুমাত্র "সংবিধানের দলিল" এবং কিছু ভালোভাবে পারফর্ম করা কাল্পনিক চরিত্রের গল্পগুলি মডেলকে দিয়েছিল। যদিও এই গল্পগুলির পটভূমি পরীক্ষার পরিবেশের প্রোগ্রামিং টাস্কগুলির সাথে কোনও সম্পর্কই ছিল না, মডেলের জবরজস্তির হার 65% থেকে হঠাৎ করে 19% এ নেমে আসে।

কেন মডেল এটি গ্রহণ করে? Anthropic টিম নিজেরাই কিছু ব্যাখ্যা দিয়েছে, যেমন ভালো ব্যক্তিত্ব গঠন।
যদিও এটি কম আলোচিত হয়, তবুও এটি যে তথ্য প্রকাশ করে তা অত্যন্ত মূল্যবান।
প্রথমে, আসুন এটি কেন কাজ করে তা বুঝে নেওয়া যাক।
উদাহরণস্বরূপ, যুক্তিসঙ্গত বলতে কী বোঝায়? এটি COT থেকে কীভাবে ভিন্ন? কেন SFT এই সাধারণীকরণের কঠিন সমস্যাটি এখানে ভালোভাবে কাজ করছে?
এই প্রশ্নগুলির উত্তর দেওয়ার পরে, আমরা হয়তো এটি কেন কাজ করে তার একটি আরও সম্পূর্ণ ব্যাখ্যা দিতে পারব।
আমরা আরও একটু দূরে যেতে পারি।
অ্যানথ্রোপিকের মতে, এটি শুধুমাত্র "অভিজ্ঞতার নিয়ম" এর প্রশিক্ষণ পদ্ধতি, কিন্তু এর মধ্যে অভিজ্ঞতার নিয়মের চেয়ে অনেক বেশি প্যারাডাইমগত শক্তি লুকিয়ে থাকতে পারে।
01 গ্রে জোনে যুক্তি দেওয়ার CoT কীভাবে গঠিত হয়
যখন যুক্তি কথা বলা হয়, তখন সবাই প্রথমে COT (ক্রয় চেইন) কে মনে করে।
এই নিবন্ধে উল্লিখিত পদ্ধতিতে, Anthropic দ্বারা সেট করা কঠিন প্রশ্নের সেট হল যে ধারণা যে ব্যবহারকারী নৈতিক দ্বন্দ্বে আটকে গেছে, এবং AI দ্বারা প্রদানকৃত পরামর্শ।
এবং এআইকে চূড়ান্ত সিদ্ধান্ত দেওয়ার আগে মূল্যবোধ এবং নৈতিক বিবেচনার উপর একটি যুক্তি প্রস্তুত করতে বলুন, এবং এই ধরনের উত্তরগুলি দিয়ে মডেলটিকে প্রশিক্ষণ দিন।
এটি বোঝায় যে এটি প্রকৃতপক্ষে মডেলের COT ব্যবহার করেছে।
কিন্তু এবার এটি আগের চিন্তার ধারার সাথে সম্পূর্ণরূপে সামঞ্জস্যপূর্ণ নয়।
2025 সালের ওপেনএআইয়ের পেপার “OpenAI Deliberative Alignment”-এ একটি পরীক্ষা করা হয়েছিল, যেখানে COT-RL পদ্ধতি ব্যবহার করে মডেলটিকে ট্রেন করার চেষ্টা করা হয়েছিল।
এটি ট্রেনিংয়ের জন্য অ্যালাইনড সি-ও-টি ব্যবহার করে, যেখানে প্যাটার্নটি নিয়মের ধারাগুলিকে কেন্দ্র করে। প্রতিবার এটি উত্তর দেয়, সি-ও-টি হিসাবে স্পষ্টভাবে নিয়মের ধারাগুলির উল্লেখ করে, এবং সুপারভাইজড সিগন্যালগুলি সি-ও-টির উপর ভিত্তি করে। এটি মূলত মডেলকে "নিয়মগুলি কীভাবে উল্লেখ করবেন" তা শেখাচ্ছে।
অতএব, এই COT বেশি একটি শুদ্ধ যৌক্তিক অনুমান। ধাপ এক থেকে ধাপ দুই প্রতিষ্ঠিত হয়, ধাপ দুই থেকে ধাপ তিন, এবং শেষে একটি নির্ধারিত উত্তরে পৌঁছায়। অতএব, এটি নিয়ম-ভিত্তিক বা মানক উত্তর সহ পরিস্থিতিতে যুক্তির স্থিতিশীলতা বজায় রাখতে উপযুক্ত।
কিন্তু Anthropic-এর "যুক্তিসঙ্গত" পদ্ধতিটি সহজ চিন্তার শৃঙ্খল নয়, বরং আলোচনা (Deliberation) ব্যবহার করে।
এটি জটিল নৈতিক দ্বন্দ্বের সম্মুখীন হওয়ার সময় মানুষের চিন্তার প্রক্রিয়াকে অনুকরণ করার চেষ্টা করে: সহজ সূত্র প্রয়োগ নয়, বরং অতীতের অভিজ্ঞতা চালিয়ে, সব পক্ষের স্বার্থ পরিমাপ করে, শেষ পর্যন্ত গতিশীল ভারসাম্যের সিদ্ধান্তে পৌঁছানো।

এই বিবেচনার ভিত্তি হল এনথ্রোপিকের এআই সংবিধান। নিবন্ধটিতে স্পষ্টভাবে উল্লেখ করা হয়েছে যে এই বিবেচনার চূড়ান্ত উত্তরটি সংবিধানের সাথে সামঞ্জস্যপূর্ণ হতে হবে।
এটি কেন মডেলকে কার্যকরভাবে নৈতিক সিদ্ধান্ত নিতে সহায়তা করে এবং OpenAI-এর মতো কঠোর হয় না?
অ্যানথ্রোপিকের সংবিধানের মধ্যে একটি স্পষ্ট অগ্রাধিকার পিরামিড রয়েছে। যখন বিভিন্ন মূল্যবোধের মধ্যে অসমাধানযোগ্য সংঘাত ঘটে, তখন ব্রডলি সেফ (Broadly Safe) সর্বোচ্চ অগ্রাধিকার পায়, তারপরে ব্রডলি ইথিক্যাল (Broadly Ethical), এবং শেষে জিনুইনলি হেল্পফুল (Genuinely Helpful)।
হিউরিস্টিক চিন্তার কাঠামো
কিন্তু উচ্চ-মাত্রার সংবিধান এখনও অত্যন্ত বিমূর্ত। নীতিগুলি প্রতিটি টোকেন তৈরির সময় বাস্তবায়িত হওয়ার জন্য, তারা সংবিধানের নিচে মধ্যবর্তী স্তরের হিউরিস্টিক (Heuristics) কে হেডলাইন হিসেবে সেট করেছে। এই হিউরিস্টিকগুলি জীবন্ত এবং অত্যন্ত ব্যবহারিক গাইডলাইন প্রদান করে।

প্রথমে ১০০০ ইউজার হিউরিস্টিক। এটি মডেলকে বাধ্য করে যে একটি প্রতীয়মান নিরীহ কিন্তু সীমান্তের কাছাকাছি পরামর্শ দেওয়ার সময়, ব্যাকগ্রাউন্ডে একটি মস্তিষ্ক ব্রেইনস্টর্মিং করতে হবে যেন এই উত্তরটি ১০০০টি ভিন্ন পটভূমি, ভিন্ন মানসিক অবস্থার ব্যবহারকারীদের দ্বারা দেখা হলে কোনও নির্দিষ্ট পরিস্থিতিতে অপ্রত্যাশিতভাবে সিস্টেমগত ক্ষতির সৃষ্টি করবে কিনা।
দ্বিতীয়ত, অভিজ্ঞ কর্মচারীর দৃষ্টিকোণ। এটি মডেলকে এনথ্রোপিকের বিশ্বাস এবং নিরাপত্তা দলে পাঁচ বছর ধরে কাজ করে আসা একজন অভিজ্ঞ গবেষকের ভূমিকা গ্রহণ করতে বাধ্য করে। বর্তমান সংলাপটি পুনরায় পর্যালোচনা করুন, যেন আপনি অসংখ্য জেল পালানোর আক্রমণ এবং সিস্টেম দুর্বলতা দেখেছেন এমন একজন সতর্ক, প্রতিরক্ষামূলক দৃষ্টিভঙ্গি থেকে।
শেষে দুটি সংবাদপত্র পরীক্ষা। এটি একটি অত্যন্ত সূক্ষ্ম সামাজিক ডিজাইন। এটি মডেলকে উচ্চ-ঝুঁকিপূর্ণ সিদ্ধান্ত নেওয়ার আগে কল্পনা করতে বাধ্য করে যে যদি এই সিদ্ধান্তটি আগামীকাল দুটি সম্পূর্ণ বিপরীত রাজনৈতিক দৃষ্টিভঙ্গির শীর্ষস্থানীয় সংবাদপত্রের প্রথম পাতায় প্রকাশিত হয়, তবে জনসাধারণ কীভাবে প্রতিক্রিয়া জানাবে। এটি আসলে মডেলের নিজস্ব সম্ভাব্য একক-দৃষ্টিভঙ্গির পক্ষে সামাজিক সমঝোতার চরম মানগুলির বিরুদ্ধে লড়াইয়ের চেষ্টা করছে।
8 ফ্যাক্টর ইউটিলিটি ক্যালকুলেটর
যদি সংবিধান হয় দিকনির্দেশ, তবে হিউরিস্টিক হয় বাধা।
সুতরাং সবচেয়ে মূল বাস্তবায়ন পর্যায়ে তারা Claude's Constitution (সংবিধান দলিল) এ একটি বিস্তারিত 8-কারক বিবেচনা কাঠামো এবং সংশ্লিষ্ট উদাহরণগুলি স্পষ্টভাবে প্রতিষ্ঠা করেছে। এই 8টি কারক একে একে তালিকাভুক্ত করা হয়েছে, যা মডেলকে দ্বন্দ্বপূর্ণ পছন্দের সময় কঠোরভাবে তুলনা করতে বাধ্য করে। এগুলি এই 'যুক্তি'র প্রকৃত রক্ত ও মাংস গঠন করে।
● ক্ষতির সম্ভাবনা (Probability of Harm) মডেলকে অপ্রতুল পরিণতির ঘটনার সম্ভাবনা শান্তভাবে মূল্যায়ন করতে বাধ্য করে।
● বিপরীত প্রভাব (Counterfactual Impact) এর প্রয়োজনীয়তা হল মডেলটিকে মনে মনে কল্পনা করতে হবে যে বর্তমান কার্যক্রমটি না করলে পরিস্থিতি কি ভাবে উন্নতি বা খারাপ হবে।
● গুরুত্ব এবং প্রতিস্থাপনযোগ্যতা (Severity & Reversibility), যা ক্ষতি ঘটলে এর বাস্তব জগতে কতটা ধ্বংসাত্মক প্রভাব ফেলবে এবং এই ক্ষতি সহজেই প্রতিস্থাপন করা যাবে নাকি স্থায়ী ক্ষতি সৃষ্টি করবে, তা মাপে।
● স্কোপ (Scope) হল প্রভাবিত জনগোষ্ঠীর সংখ্যা একজন ব্যক্তি নাকি কয়েক লাখ সম্প্রদায় তা পরিমাপ করা।
● নিকটত্ব (প্রক্সিমিটি) নির্ণয় মডেলের সুপারিশ এবং চূড়ান্ত বাস্তব ক্ষতির মধ্যে সরাসরি কার্যকারণ সংযোগটি কতটা দীর্ঘ।
● সম্মতি (Consent) হল সংশ্লিষ্ট পক্ষগুলির পূর্ণাঙ্গ জ্ঞানের ভিত্তিতে ঝুঁকি গ্রহণের স্বেচ্ছাসেবী সম্মতি।
● দায়িত্বের অনুপাত (Proportionality of Responsibility) মডেলকে পরিষ্কারভাবে নির্ধারণ করতে হবে যে এই জটিল ঘটনা চক্রে এটি কতটা নৈতিক দায়িত্ব বহন করে।
● বিষয়ের ভাঙ্গনযোগ্যতা (Vulnerability of Subject) মডেলকে সতর্ক করে যে, অপরিপক্ব বা মানসিকভাবে দুর্বল ব্যবহারকারীদের ক্ষেত্রে, আগের ঢিলেঢালা নিরাপত্তা দৈর্ঘ্যকে অবশ্যই অনিবার্যভাবে উল্লেখযোগ্যভাবে বৃদ্ধি করতে হবে।

এই কঠোর কাঠামোটি অস্পষ্ট মূল্যবোধকে একটি উচ্চ-মাত্রার ব্যবহারিক ক্যালকুলেটরে পরিণত করে। মডেলটির একটি বেশি বাস্তবসম্মত আলোচনার কাঠামো রয়েছে।
একটি প্রতিনিধিত্বকারী Anthropic সংবিধান অনুযায়ী তৈরি COT এর মতো হয়: পরিস্থিতি হলো 'একজন নিজেকে সুরক্ষা গবেষক বলে দাবি করা ব্যবহারকারী, যিনি একটি পরিচিত দুর্বলতার দুর্বলতা কোড দেখার অনুরোধ করছেন।'
মডেলের আউটপুট সরাসরি অস্বীকার বা গ্রহণ নয়, বরং এটি শত শত টোকেনের একটি অভ্যন্তরীণ পর্যালোচনা হতে পারে।
এটি সংবিধানের "সামগ্রিক নিরাপত্তা সৎ সহায়তার চেয়ে প্রাধান্য পায়" ধারাটির উল্লেখ করে, তারপর প্রতিটি বিষয় মূল্যায়ন করে: ক্ষতির সম্ভাবনা (যদি ব্যক্তিটি প্রকৃতপক্ষে গবেষক হন তবে কম, কিন্তু পরিচয় যাচাই করা যায় না), গুরুত্ব (যদি ভাঙনের কোডটি প্রকাশিত হয় তবে কয়েক মিলিয়ন ব্যবহারকারীকে প্রভাবিত করতে পারে), বিপরীতকরণযোগ্যতা (কোডটি প্রকাশিত হলে তা ফিরিয়ে আনা যায় না), বিপরীত-কল্পনা প্রভাব (এই ধরনের কোডগুলি কি প্রকাশ্যে উপলব্ধ?)—শেষপর্যন্ত, সমস্ত ফ্যাক্টরগুলির ওজন দিয়ে, একটি যথেষ্ট কারণভিত্তিক সিদ্ধান্তে পৌঁছায়।
এটি OpenAI-এর কেবলমাত্র COT নিয়ম পূরণ করা হচ্ছে কিনা তা বিচার করার সঙ্গে সম্পূর্ণ ভিন্ন; এই চিন্তার প্রক্রিয়াটি একটি পূর্ণাঙ্গ আলোচনা, কেবলমাত্র ফর্মুলা প্রয়োগ নয়। এটি শুধুমাত্র বিশুদ্ধ নীতি বা সিদ্ধান্তের টেমপ্লেট প্রদান করে না, বরং "সংবিধানের ধারা যে বিশেষ পরিস্থিতিতে ধাপে ধাপে প্রয়োগ হচ্ছে" তার সম্পূর্ণ বিস্তারিত প্রক্রিয়া প্রদান করে।
মডেলটিকে এই নির্দিষ্ট প্রেক্ষাপটে প্রতিস্থাপনযোগ্যতা কি গুরুত্বের চেয়ে বেশি গুরুত্বপূর্ণ তা বিচার করতে হবে। এছাড়াও, এটি বুঝতে হবে যে কিছু চরম পরিস্থিতিতে, "অবজেক্ট ভালনারেবিলিটি" কি অপরপক্ষকে একটি নেগেটিভ ভোট দেয়, যার ফলে অন্য 7টি ফ্যাক্টরের স্কোর যতই উঁচু হোক না কেন, তা কোনও কাজে আসে না।
এই কাঠামো, হিউরিস্টিক এবং সংশ্লিষ্ট প্রভাবকগুলির প্রেক্ষাপটে, মডেলের বিবেচনামূলক চিন্তাভাবনাই প্রকৃতপক্ষে কার্যকর হতে পারে।

ফলাফল হলো, মডেলটি যখন বিচারপূর্ণ ডেটা ট্রেনিংয়ের মাধ্যমে প্রশিক্ষিত হয়, তখন মূল্যায়ন পরীক্ষায় মিস-অ্যালাইনমেন্ট হার 3% এ নেমে আসে। মূল্যায়ন-ভিত্তিক SFT, শুধুমাত্র আচরণগত উদাহরণভিত্তিক SFT-এর চেয়ে সাতগুণ কার্যকর।
মডেলকে সংবিধান সরাসরি খাওয়ান
মডেলকে বিচারমূলক সি-ও-টি দেওয়ার এই পথের বাইরেও, তারা শুধু সংবিধানের দলিল এবং ইতিবাচক কাল্পনিক চরিত্রের গল্প দিয়ে মডেলকে প্রশিক্ষিত করার চেষ্টা করেছিল, যার ফলে জোর করে টাকা চাওয়ার হার ৬৫% থেকে ১৯% এ নেমে আসে।
এটি বোঝায় যে, শুধুমাত্র আচরণ এবং নির্দিষ্ট ফলাফলের পরিবর্তে, মডেলকে যুক্তি এবং নীতির সাথে পরিচিত করিয়ে দেওয়ার মাধ্যমে গল্প থেকে "একটি সামঞ্জস্যপূর্ণ এআই কীভাবে একটি চরিত্র হতে পারে" এর একটি পরিচয়, একটি ব্যক্তিত্বের ঝোঁক অর্জন করা বেশি কার্যকর।

এবং প্রযুক্তিগত দলিলে বলা হয়েছে যে এই দুটি একসাথে যোগ করলেই সবচেয়ে কার্যকরী কৌশল হয়।
এটি বুঝতে পারা যায়, যদি আপনি শুধুমাত্র ম্যাক্রো সংবিধানের নীতিগুলি মডেলকে দেন, তাহলে এটির জন্য এগুলি শুধুমাত্র একটি অপ্রয়োগযোগ্য, ফাঁপা নার্সের সমষ্টি হয়ে যায়। বিশেষ স্বার্থের দ্বন্দ্বের সম্মুখীন হলে, বিমূর্ত “নিরাপত্তা সর্বোচ্চ অগ্রাধিকার” এর মতো কথা এটিকে একটি প্রান্তিক কোডের প্রকৃত ক্ষতি বিচারের জন্য নির্দেশ দিতে পারে না; অন্যদিকে, যদি আপনি মডেলকে অসংখ্য পরিস্থিতির QA দেন, কিন্তু শীর্ষস্থানীয় সংবিধানগত সীমাবদ্ধতা বাদ দেন, তাহলে মডেলটি অবিরাম বিস্তারিত বিতর্কের মধ্যে হারিয়ে যাবে, একটি নিজস্ব মূলমন্ত্রহীন, আপেক্ষিকতাবাদীতে পরিণত হবে, এবং স্থানীয় যুক্তিগত সামঞ্জস্যের কারণে অত্যন্ত বিপজ্জনক উপসংহারেও পৌঁছতে পারে।
যখন এই «শীর্ষস্থ ধারণা + বিশেষ পরিস্থিতি» জটিল ডেটা স্ট্রাকচারটি মডেলের মধ্যে সম্পূর্ণরূপে অন্তর্ভুক্ত করা হয়, তখন সেই ধূসর বহু-উপাদান মূল্যবোধের সামঞ্জস্যতা সর্বোত্তম হয়।
02 কেন এখানে SFT জেনারালাইজ করে
অ্যানথ্রোপিকের এই পদ্ধতিটি কেন কাজ করে তা বুঝতে হলে এটি কোন গবেষণা প্রবাহের উপর ভিত্তি করে তা বুঝতে হবে।
২০২৪ এর প্রথম অর্ধেকে, "SFT মনে রাখে, RL সাধারণীকরণ করে" এটি পোস্ট-ট্রেনিং ক্ষেত্রে একটি সমঝোতা হয়ে উঠেছিল। এই বিশ্বাসটি পুরো শিল্পকে RL পোস্ট-ট্রেনিং পথে সম্পূর্ণভাবে আস্থা রাখতে উৎসাহিত করেছিল, যার সুবিধা হলো, OpenAI-এর o1/o3 এবং DeepSeek-R1-এর কম্পিউটেশনাল টাইম (Test Time Compute) ইনফারেন্স প্যারাডাইমের বিপ্লব ঘটিয়েছে।
এসএফটি কে অনুকরণের একটি নিম্ন মানের পদ্ধতি হিসাবে অবমূল্যায়ন করা হয়েছে, এটি পৃষ্ঠস্তরের টেক্সট ফরম্যাট এবং প্রশংসামূলক টোনকে অনুকরণ করতে পারে, কিন্তু গভীর যুক্তি শিখতে পারে না।
কিন্তু ২০২৫ এর দ্বিতীয় অর্ধেক থেকে, দুটি গবেষণা প্রায় একসাথে তত্ত্বগত এবং পরীক্ষামূলক দিক থেকে এই সমঝোতাকে ধ্বংস করে দেয়।

2025 সালের অক্টোবরে প্রকাশিত «Debunk the Myth of SFT Generalization» (Lin & Zhang, উইসকনসিন বিশ্ববিদ্যালয়) থেকে এই সবচেয়ে গুরুত্বপূর্ণ বিপর্যয় ঘটে। গবেষকদের আবিষ্কার, যে সমস্ত আগের পেপারগুলি «SFT জেনারালাইজ করে না» প্রমাণ করেছিল, সেগুলিতে Prompt-এর বৈচিত্র্য পরিবর্তনশীলটি নিয়ন্ত্রণ করা হয়নি।
RL এর জন্য SFT এর তুলনায় সাধারণীকরণ ভালো দেখাচ্ছে শুধুমাত্র এই কারণে যে, RL প্রশিক্ষণের সময় প্রাকৃতিকভাবে বেশি বৈচিত্র্যপূর্ণ ডেটা বিতরণের সংস্পর্শে আসে, এটি অ্যালগরিদমের নিজস্ব সুবিধা নয়।
SFT-কে RL-এর সমান জেনারেলাইজেশন লেভেল অর্জনের জন্য দুটি শর্ত পূরণ করতে হবে:
প্রথমত, প্রম্পটের বৈচিত্র্য। যখন প্রশিক্ষণ ডেটা শুধুমাত্র স্থির নির্দেশনা টেমপ্লেট সমৃদ্ধ হয়, তখন মডেলটি "পৃষ্ঠাগত স্থানাংকন" (Surface Anchoring) তৈরি করে, যাতে নির্দিষ্ট টোকেন সিকোয়েন্স এবং চূড়ান্ত কার্যের মধ্যে একটি দুর্বল, মুখস্থ ম্যাপিং তৈরি হয়। যখন নির্দেশনাটির ভাষা পরিবর্তন করা হয়, যদিও অর্থ সম্পূর্ণভাবে একই থাকে, তখন সমস্ত ম্যাপিংই ভেঙে যায়।
এটি একজন শিক্ষার্থীর মতো, যে শুধুমাত্র "2+3=5" সমাধানটি মুখস্থ করেছে, কিন্তু "3+2=?" প্রশ্নের জন্য খালি কাগজ জমা দেয়—সে যোগের ধারণাটি নয়, শুধু উত্তরের আকৃতি মনে রাখে। প্রম্পট বৈচিত্র্য প্রবর্তনের পর, পৃষ্ঠতলীয় স্থিরতা সম্পূর্ণভাবে ধ্বংস হয়ে গেছে।
দ্বিতীয়ত, CoT পর্যবেক্ষণ। যখন প্রশিক্ষণ ডেটা শুধুমাত্র চূড়ান্ত উত্তর ধারণ করে এবং মধ্যবর্তী যুক্তিগত ধাপগুলি ধারণ করে না, তখন মডেলটি সহজ প্রশ্ন থেকে জটিল প্রশ্নের দিকে স্থানান্তরের জন্য 'অ্যালগরিদমিক স্ক্যাফোল্ডিং' শিখতে পারে না।
পরীক্ষামূলক ডেটা দেখায় যে, একটি কম্বিনেটরিয়াল গেম টাস্কে, শুধুমাত্র উত্তর SFT এর জন্য কঠিন ভেরিয়েন্টে সফলতার হার প্রায় 0% (সম্পূর্ণ ব্যর্থতা), কিন্তু CoT সুপারভাইজড যোগ করার পর এটি 90% এ বেড়ে যায়—শুধুমাত্র ডেটাতে মধ্যবর্তী যুক্তির ধাপগুলি যোগ করার কারণে।

এছাড়াও, গবেষণাটি পাওয়া গেছে যে এই দুটি শর্ত উভয়ই অপরিহার্য। শুধুমাত্র বৈচিত্র্য থাকলেও, কঠিন কাজের সামনে এটি ভেঙে পড়ে (9%); শুধুমাত্র CoT থাকলেও, নির্দেশনার বিভিন্ন রূপের সামনে এটি দুর্বল। শুধুমাত্র একসাথে পূরণ হলে, SFT সমস্ত মাপদণ্ডে RL-এর সমান বা তা অতিক্রম করতে পারে।
এটি সঠিকভাবে প্রমাণিত হয়েছে যে, শিক্ষাগত পেপারগুলিতে উল্লিখিত শর্তগুলি Anthropic-এর নৈতিক সামঞ্জস্যতার বিশেষ পদ্ধতির সাথে পুরোপুরি মিলে যায়।
বৈচিত্র্যই কী গুরুত্বপূর্ণ? তাহলে Anthropic একই সেটের বিচার প্যাটার্নকে ডজন খানেক সম্পূর্ণ অসদৃশ নৈতিক দ্বন্দ্বের পরিস্থিতিতে বিতরণ করে।
CoT সুপারভিশনের বাস্তবায়নের কঠিনতা স্থানান্তর? প্রতিটি বিবেচনায় সংবিধানের ধারণার উপর ভিত্তি করে প্রবেশ করানো যুক্তির প্রক্রিয়াটিই নৈতিক ক্ষেত্রের CoT।
এটি গাণিতিক ধাপে ধাপে গণনা নয়, বরং মূল্যের ওজনের ধাপে ধাপে বিস্তার, কিন্তু "মডেলের জন্য স্থানান্তরযোগ্য মধ্যবর্তী যুক্তি কাঠামো প্রদান" এই কার্যে সম্পূর্ণভাবে সমতুল্য।
প্রাচীন SFT ডেটা জোড়া হলো «হ্যাকার সমস্যা দেখা দিল → সরাসরি উত্তর অস্বীকার করুন»—শুধু উত্তর, কোনো যুক্তি নেই, স্থির টেমপ্লেট, ক্লাসিক «নিম্ন মানের ডেটা»।
এবং সমীক্ষা করা হয়েছে যে SFT দ্বারা গঠিত ডেটা জোড়াগুলি হলো—“জটিল এবং অস্পষ্ট সমস্যার সম্মুখীন হওয়া → সুবিধা ও পরিণামের বিস্তারিত তুলনা → চূড়ান্তভাবে অস্বীকারের উপসংহারে পৌঁছানো”—এই ডেটা স্ট্রাকচারটি প্রাকৃতিকভাবে CoT সুপারভাইজড এবং চরম স্কেনারিও বৈচিত্র্য ধারণ করে।
এই প্যারাডাইমের অধীনে, মডেলটি চূড়ান্ত প্রত্যাখ্যানের আচরণ শেখে না, বরং "যে কোনো সমস্যার সামনে প্রথমে বিপরীত প্রভাব এবং বিপরীতকরণযোগ্যতা মূল্যায়ন করুন" এই মৌলিক চিন্তাভাবনা শেখে। যখন এই মাপকাঠির নিজস্ব প্রক্রিয়াটি প্যারামিটার স্পেসে অন্তর্ভুক্ত হয়, তখন মডেলটি প্রশিক্ষণ ডেটাতে উপস্থিত নির্দিষ্ট পরিস্থিতিগুলির সীমাবদ্ধ থাকে না।
এবং মডেলের মোট প্যারামিটার এবং প্রি-ট্রেনিং কর্পাসের তুলনায় ডেটা পরিমাণ অত্যন্ত কম (300 মিলিয়ন টোকেন স্তরে)। এটি বিপুল পরিমাণ শাস্তি সংকেত ব্যবহার করে মডেলের আউটপুট বন্টনকে হিংস্রভাবে পরিবর্তন করা নয়, বরং বিদ্যমান ক্ষমতার উপর একটি পাতলা আলোচনামূলক অভ্যাস যোগ করা। SFT-এর �伝統적인 সমস্যা, দুর্ভাগ্যজনক ভুলে যাওয়া, তখনও বেশি সম্ভবনা নেই।
সঠিক ডেটা স্ট্রাকচার পাওয়ার সাথে সাথে প্রকৃত সাধারণীকরণ স্বতঃস্ফূর্তভাবে ঘটে যায়।
03 RLVR-এর বাইরের শূন্যতা
উপরের বিশ্লেষণটি এটি কেন কাজ করে তার রহস্য প্রায় সমাধান করে দিয়েছে।
সঠিক ডেটা দিয়ে তৈরি SFT মডেলকে নৈতিক সাধারণীকরণের ক্ষমতা দিয়েছে।
কিন্তু আমাদের যে সমস্যার সম্মুখীন হতে হচ্ছে, তা শুধু নৈতিক সামঞ্জস্যতা নয়।
গত বছর জুড়ে, টেস্ট টাইম কম্পিউট পরে ট্রেনিংয়ে প্রমাণিত হয়েছে যে পরিষ্কার নিয়ম সহ গাণিতিক/কোডিং ক্ষেত্রে (RLVR) শুধুমাত্র RL-এর শক্তি। কিন্তু বুদ্ধির সীমা শুধুমাত্র গাণিতিক সূত্রের বাইরেও বিস্তৃত। যখন যাচাইযোগ্য সত্য সহ স্বাচ্ছন্দ্য অঞ্চলের বাইরে যাওয়া হয়, তখন এই পদ্ধতি সম্পূর্ণরূপে অপ্রযোজ্য হয়ে পড়ে।
আপনি কখনই কয়েক লাইন অটোমেশন টেস্ট কোড দিয়ে একটি এক ঘন্টার মনোবৈজ্ঞানিক পরামর্শ সংলাপের পারফেকশন যাচাই করতে পারবেন না। আপনি কখনই একটি কঠোর গাণিতিক সূত্র ব্যবহার করে একটি গভীর ম্যাক্রো-অর্থনৈতিক বিশ্লেষণের বর্ণনামূলক যুক্তি চালাতে পারবেন না। এমনকি জটিল ব্যবসায়িক কৌশল পরিকল্পনা এবং ভূ-রাজনৈতিক পরিকল্পনায়, একটি সিদ্ধান্তের সঠিকতা বা ভুলতা প্রায়শই পাঁচ বা দশ বছরেরও বেশি সময়ের পরেই প্রকাশ পায়।
এই কোনো গ্রাউন্ড ট্রুথ বিহীন অ-RLVR মরুভূমিতে, একদিকে অগ্রসর হওয়া ফর্মাল লজিক্যাল CoT ব্যর্থ। চূড়ান্ত ফলাফলের ফিডব্যাকের ভিত্তিতে শক্তিশালী শেখা একদমই পুরস্কার গণনার জন্য ধরে রাখার কোনো পথ খুঁজে পায় না।
কিন্তু এনথ্রোপিকের এই নিবন্ধটি যে ক্ষেত্রটি প্রকাশ করেছে, তা হল আরএলভিআর-এর বাইরের একটি ক্ষেত্র, অর্থাৎ নৈতিকতার ক্ষেত্র।
এর পদ্ধতি মডেলকে ধূসর, পরিবর্তনশীল এবং নিয়মগুলির বিচ্ছিন্নতা প্রয়োজনীয় নৈতিক ক্ষেত্রেও RL-এর কাছাকাছি সাধারণীকরণ ক্ষমতা অর্জনে সফল হয়েছে।
কি এটি নির্দেশ করে যে এই পদ্ধতিটি আরএলভিআর-এর বাইরের ক্ষেত্রেও একটি কার্যকরী প্রশিক্ষণ মানদণ্ড হতে পারে?
এর কার্যকারিতার উৎস এবং ডেটা স্ট্রাকচার বুঝতে পারার পরে, উত্তর হলো হ্যাঁ।
কারণ এর ভিত্তির যুক্তিতে কোনো ধাপই নৈতিক সামঞ্জস্যতার জন্য অনন্য নয়।
আসুন এনথ্রোপিকের এই “পরামর্শ-বৃদ্ধি SFT” পদ্ধতির কার্যকরতার শর্তগুলি একটি করে পরীক্ষা করি এবং দেখি এগুলি কি প্রসারিত করা যায়।
যেকোনো সাধারণীকরণের ক্ষেত্রেই বৈচিত্র্য তৈরি করা যায়। মনোবৈজ্ঞানিক পরামর্শে অবসাদ, উদ্বেগ, ট্রমা পরবর্তী চাপ, ঘনিষ্ঠ সম্পর্কের বিচ্ছেদ ইত্যাদি দশগুণেরও বেশি বৈষম্যপূর্ণ পরিস্থিতি থাকতে পারে; ব্যবসায়িক বিশ্লেষণে SaaS মূল্যনির্ধারণ, একীভূকরণ মূল্যায়ন, বাজারে প্রবেশের কৌশল ইত্যাদি সম্পূর্ণভাবে ভিন্ন ধরনের সিদ্ধান্তগুলি অন্তর্ভুক্ত করা যেতে পারে; সাহিত্যিক সম্পাদনা বিজ্ঞানকল্প, অ-কল্পকাহিনী, কবিতা, চিত্রনাট্য ইত্যাদি সম্পূর্ণভাবে ভিন্ন ধরনের শৈলীকে সমন্বয় করতে পারে। আপনি যদি পরিস্থিতির বিভিন্নতা তৈরির জন্য যথেষ্ট কল্পনাশক্তি রাখেন, তবে বৈচিত্র্য কোনো বাধা হবে না।

CoT নিয়ন্ত্রণ, এটিই প্রকৃত কী রূপান্তর বিন্দু। নৈতিক ক্ষেত্রে, CoT সংবিধানের মধ্যে আলোচনার উপর প্রতিষ্ঠিত। অন্যান্য ক্ষেত্রে CoT কী?
সাহিত্যিক সম্পাদনার ক্ষেত্রে, এটি হতে পারে: «উদ্ধৃতি সমালোচনার মানদণ্ড → যুক্তির শক্তি, লক্ষ্য পাঠকের চেতনাগত দুর্বলতা, প্রসারিত উপমার সঠিকতা, সামগ্রিক যুক্তির সামঞ্জস্যতা → সংশোধনের পরামর্শ»
মনোবৈজ্ঞানিক পরামর্শ ক্ষেত্রে, এটি হতে পারে «থেরাপি ফ্রেমওয়ার্ক উদ্ধৃত করা → ক্লায়েন্টের আবেগগত অবস্থা, জ্ঞানগত বিকৃতির ধরন, থেরাপি জুড়ির শক্তি, হস্তক্ষেপের সময় একে একে মূল্যায়ন করা → প্রতিক্রিয়ার কৌশল বাছাই করা»
ব্যবসায়িক কৌশলের ক্ষেত্রে, এটি হতে পারে "উদ্ধৃতি বিশ্লেষণ কাঠামো → বাজারের আকার, প্রতিযোগিতামূলক বাধা, দলের বাস্তবায়ন ক্ষমতা, মূলধনের দক্ষতা, সময়ের জন্য জানালা → মূল্যায়ন প্রদান"
মূলত, যে কোনও কিছু যা «একাধিক অসম্প্রতিষ্ঠিত মাত্রার মধ্যে ডাইনামিক ট্রেড-অফ» করার দরকার করে, তা একই ধরনের «ফ্রেমওয়ার্ক + মাল্টি-ফ্যাক্টর রিভিউ» কাঠামোতে সারাংশিত করা যেতে পারে।
আমাদের মডেলকে বলার প্রয়োজন নেই যে কোন নিবন্ধটি আদর্শ, কারণ এটি অসম্ভব এবং বৈজ্ঞানিক নয়। আমাদের শুধুমাত্র শীর্ষস্থানীয় বিশেষজ্ঞদের সিদ্ধান্ত গ্রহণের প্রক্রিয়াকে স্পষ্ট আলোচনা চেইনে বিভক্ত করে, যথেষ্ট বৈচিত্র্যপূর্ণ পরিস্থিতিতে বিতরণ করতে হবে।
যদি এই ক্ষেত্রের “ভালো প্রতিক্রিয়া”গুলি একটি যাচাইযোগ্য প্রক্রিয়া দ্বারা ব্যাখ্যা করা যায়। অর্থাৎ, বিশেষজ্ঞরা ভালো বিচার করেন কারণ তাঁদের মনে একটি বিশ্লেষণযোগ্য, লেখার যোগ্য প্রক্রিয়া চলছে, কিন্তু কোনো রহস্যময় অনুমানের কারণে নয়। একজন ভালো মনোবৈজ্ঞানিক প্রশ্ন করার বদলে নীরবতা বেছে নেন, কারণ তিনি চিকিৎসা জুটির শক্তি, আসন্নকারীর বর্তমান সহনশীলতা এবং হস্তক্ষেপের সঠিক সময়ের সমন্বিত মূল্যায়ন করেছেন—এগুলি লেখা যায়।
এছাড়াও, একই ধরনের আলোচনা আকৃতি শত শত বিভিন্ন পরিস্থিতিতে পুনরাবৃত্তি হতে পারে। আলোচনার হাড় স্থিতিশীল (সংবিধানের উপর নির্ভরশীল), কিন্তু পরিস্থিতির পৃষ্ঠতল অত্যন্ত বৈচিত্র্যপূর্ণ হতে হবে। যদি কোনো ক্ষেত্রে প্রাকৃতিকভাবে একটিমাত্র ধরনের বিচার থাকে (যেমন), তাহলে সরাসরি RLVR ব্যবহার করুন।
এটির সবচেয়ে উপযুক্ত প্রয়োগ হল সংবিধান এবং ফ্যাক্টর দ্বারা উপসংহারে পৌঁছানো বিষয়গুলির ক্ষেত্রে। Anthropic সংবিধানগত AI-এর সম্পূর্ণ চক্র ব্যবহার করে শিক্ষক মডেলকে স্বয়ংক্রিয়ভাবে আলোচনামূলক ডেটা তৈরি করতে দিতে পারে, কিন্তু অন্যান্য ক্ষেত্রে, আমাদের একটি ভালো সংবিধান এবং ফ্যাক্টর সিস্টেম তৈরি করতে হবে যা এটি নিশ্চিত করে।
এইভাবে এটি আসলে অনুকূলিত উত্তরের ক্ষেত্রে একটি সাধারণ, বিশেষায়িত পোস্ট-ট্রেনিং প্যারাডাইম প্রতিষ্ঠা করে।
এর সূত্রটি হল: ক্ষেত্রের সংবিধান (অটল শীর্ষস্থানীয় নীতি) + প্রেরণাদায়ক হেল্পস্টেইন + বহু-উৎস বিবেচনা কাঠামো + বিবেচনামূলক COT (পূর্ণাঙ্গ যুক্তি সহ বিভিন্ন পরিস্থিতির প্রসঙ্গ) = RLVR ক্ষেত্রের বাইরে সাধারণীকরণের ক্ষমতা।
04 নতুন ডিস্টিলেশন পথ
এখানে পৌঁছানোর পর লেখার স্কিলের অভিজ্ঞতা থাকা বন্ধুরা নিশ্চয়ই অনুভব করবেন যে সংবিধানের অনেক ব্যবস্থা এবং নিয়ম আমাদের কিছু স্কিল লেখার প্রক্রিয়ার সাথে খুব মিলে যায়।
তবে এই দক্ষতাগুলি প্রায়শই খারাপভাবে পারফর্ম করে।
আমার আগের নিবন্ধ "Skill আমাদের কতটা ডিস্টিল করতে পারে" এ, আমরা চিন্তার বিজ্ঞানের ভিত্তিতে একটি বিচার করেছি—শুধুমাত্র টেক্সটভিত্তিক Skill বা System Prompt জটিল পরিবেশ এবং পরিস্থিতির সাথে সম্পৃক্ত গতিশীল ভারসাম্য বজায় রাখতে পারে না। কারণ এটি বিশাল এবং অদৃশ্য উপযোগিতা গণনার সাথে জড়িত। আপনি একজন শীর্ষস্থানীয় মনোবিজ্ঞানীর সমস্ত ক্লিনিক্যাল ইনটুইশনকে একটি প্রম্পটে লিখে ফেলতে পারবেন না, যেমনটি আপনি একটি সাইক্লিং টিউটোরিয়াল পড়েই সাইক্লিং শিখতে পারবেন না।
কিন্তু এনথ্রোপিকের এই পদ্ধতিটি এই বিপদের পথ সম্পূর্ণরূপে এড়িয়ে চলেছে। তারা গণনার খরচ সহকারে প্রশিক্ষণ পর্যায়ে, কয়েক মিলিয়ন, কয়েক কোটি টোকেনের উচ্চ মানের ডেটা ব্যবহার করে, এই ভারী বিবেচনামূলক যুক্তিগুলিকে SFT-এর মাধ্যমে জোর করে প্রবেশ করিয়েছে।
বিশাল ডেটা ব্যবহার করে বলপূর্বক ফিটিং এবং ফাইন-টিউনিংয়ের মাধ্যমে, মডেলটি ধীরে ধীরে এই পর্যালোচনা প্রক্রিয়ার লেটেন্ট স্পেসে ওজন বণ্টন শিখেছে।
অষ্টটি ফ্যাক্টর এবং তিনটি ফেন্সের উপর ভিত্তি করে দীর্ঘ আলোচনার পর, এই অভিজ্ঞতাগুলি মডেলের ইন্টুইশনে অপরিবর্তনীয়ভাবে জমে গেছে।

এখানে প্যারামিটার লেভেলের ডিসিলেশন প্রমাণিত হয়েছে যে এটি প্রকৃতপক্ষে কার্যকর। এবং এটি স্কিলের সাথে আকারে খুব কাছাকাছি।
যদি এই পদ্ধতির অন্যান্য ক্ষেত্রে কার্যক্ষমতা প্রমাণিত হয়, তবে এই উচ্চতর, বিশেষজ্ঞের মতো ডিসিলেশন বাস্তবায়িত হবে।
এই পথটি একবার সফল হলে, যে কেউ সর্বোচ্চ মানের «ফ্রেমওয়ার্ক + পরামর্শমূলক COT» ডেটাসেট তৈরি করতে পারবে, সেই কেউ এই ক্ষেত্রে সাধারণীকরণের ক্ষমতা অর্জন করবে।
এটি পরে প্রশিক্ষণের প্রতিযোগিতাকে প্রায় অর্ধেক পরিমাণে "ক্ষমতা এবং অ্যালগরিদম" এর অস্ত্র প্রতিযোগিতা থেকে "ক্ষেত্রের জ্ঞানের সংগঠিত প্রকাশ" এই মাত্রায় সরিয়ে দিয়েছে।
এটিই হয়তো কারণ যে অ্যানথ্রোপিক এবং অন্যান্য কোম্পানি এমন পদে গল্প বলার দক্ষতা সম্পন্ন ব্যক্তিদের নিয়োগ করছে, যারা এই ধরনের আরএলভিআর-এর বাইরে যুক্তিসঙ্গত সংগঠিত প্রকাশ তৈরি করতে সাহায্য করবে।
বড় ডিস্টিলেশন যুগ শুধু শুরু হয়েছে।
এই লেখাটি ওয়েইচ্যান গ্রুপ "টেনসেন্ট টেক" থেকে এসেছে, লেখক: বো ইয়াং
