অ্যানথ্রোপিক পেপার এনএলএ ব্যবহার করে এআই মডেলগুলিতে লুকানো উদ্দেশ্য প্রকাশ করে, শনাক্তকরণ হার 4 গুণ বৃদ্ধি পায়

বড় মডেলগুলি বাস্তবে কী ভাবছে? অতীতে, এটি প্রায়শই একটি অর্ধ-প্রযুক্তিগত, অর্ধ-আধ্যাত্মিক প্রশ্ন ছিল।

আমরা এর আউটপুট, এর চিন্তার ধারাবাহিকতা (Chain-of-Thought) প্রক্রিয়া এবং বেঞ্চমার্কে এর স্কোর দেখতে পাই। কিন্তু এটি উত্তর তৈরি করার আগে, মডেলের ভিতরে কোন বিচার, পরিকল্পনা, সন্দেহ এবং ইচ্ছা সক্রিয় হয়েছে, তা এখনও একটি ব্ল্যাকবক্সের মধ্যে রয়ে গেছে।

ঠিক এখনই, Anthropic পেপারটি প্রকাশ করেছে: "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations", যা একটি স্বাভাবিক ভাষা অটোএনকোডার (Natural Language Autoencoders, এখানে NLA হিসাবে উল্লেখ করা হয়েছে) ব্যবহার করে এই ব্ল্যাক বক্সটি খুলতে চেষ্টা করছে।

অ্যানথ্রোপিক দল মডেলের অভ্যন্তরীণ উচ্চ-মাত্রিক অ্যাক্টিভেশন মানগুলিকে মানুষের দ্বারা বোঝা যায় এমন প্রাকৃতিক ভাষায় সংকুচিত করে, এবং এই ভাষা ব্যবহার করে মূল অ্যাক্টিভেশনগুলি পুনর্গঠন করে। এর মাধ্যমে, মানুষ শুধুমাত্র মডেলের আউটপুটের মাধ্যমে বুঝতে পারে যে একটি এআই কী ভাবছে, কী জানে, কী লুকিয়ে রাখছে; এবং অতীতে অদৃশ্য ছিল এমন মডেলের অভ্যন্তরীণ অবস্থাগুলিকে পড়া, তুলনা, প্রশ্ন করা এবং পরস্পরকে যাচাইয়ের জন্য সহজেই ব্যবহারযোগ্য ব্যাখ্যামূলক সংকেতে পরিণত করে।

NLA

NLA আর্কিটেকচার ডায়াগ্রাম: অ্যাক্টিভেশন ভ্যালু ভার্বালাইজার (AV) অ্যাক্টিভেশন ভ্যালুকে পাঠ্য ব্যাখ্যায় অনুবাদ করে, এবং অ্যাক্টিভেশন ভ্যালু রিকনস্ট্রাক্টর (AR) পাঠ্য থেকে অ্যাক্টিভেশন ভ্যালু পুনরুদ্ধার করে, যা একটি সম্পূর্ণ বন্দনা তৈরি করে।

আরও গুরুত্বপূর্ণ বিষয় হলো, NLA শুধুমাত্র ল্যাবের গবেষণাপত্রের সীমানায় সীমাবদ্ধ নয়। Anthropic জানিয়েছে যে, এটি ক্লাউড ওপাস 4.6 এবং মিথস প্রিভিউ-এর প্রি-ডিপ্লয়মেন্ট অ্যালাইনমেন্ট অডিটে আনুষ্ঠানিকভাবে ব্যবহার করা হয়েছে। বাস্তব পরিস্থিতিতে, NLA শুধুমাত্র মডেলের চিটিংয়ের সূচনা খুঁজে পেয়েছে এবং অস্বাভাবিক ট্রেনিং ডেটা সঠিকভাবে চিহ্নিত করেছে; এছাড়াও, এটি আবিষ্কার করেছে যে, কিছু নিরাপত্তা পরীক্ষায়, Claude যদিও মুখে কিছু বলেনি, তবুও মনের ভিতরে স্পষ্টভাবে বুঝতে পারছিল যে এটি পরীক্ষার মধ্যে রয়েছে।

এই পৃষ্ঠে অনুগত, কিন্তু আসলে নির্দিষ্ট উদ্দেশ্য বহনকারী মডেলগুলির বিরুদ্ধে, এনএলএ অত্যন্ত শক্তিশালী দক্ষতা প্রদর্শন করেছে: অস্বাভাবিক আচরণের পিছনে �隠藏 প্রেরণাগুলি শনাক্ত করার সফলতার হার 3% এর কম থেকে বেড়ে 12%–15% এ পৌঁছেছে, যা সরাসরি 4 গুণেরও বেশি বৃদ্ধি।

থিংকিং চেইন যথেষ্ট নয়, "ব্ল্যাক বক্স সমস্যা" আবার ফিরে এসেছে

এই গবেষণার প্রেক্ষাপটটিকে বড় মডেল নিরাপত্তা এবং ব্যাখ্যাযোগ্যতার প্রেক্ষাপটে দেখা যেতে পারে।

গত কয়েক বছরে, শিল্পটি বড় মডেলের নিরাপত্তা মূল্যায়ন করেছে দুটি পথে: আউটপুট কী হয় তা দেখা এবং চিন্তার শৃঙ্খল (CoT)-এ অস্বাভাবিক উদ্দেশ্য প্রকাশ পেয়েছে কিনা তা পরীক্ষা করা। অর্থাৎ, বর্তমানে বেশিরভাগ রিজনিং মডেলের যে ক্ষমতা রয়েছে, তা শুধুমাত্র উত্তর দেওয়া নয়, বরং যুক্তির প্রক্রিয়াটিও লিখে ফেলা।

কিন্তু শীঘ্রই একটি প্রশ্ন উঠল: মডেল যে যুক্তি লিখেছে, তা কি সত্যিকার অর্থে এর অভ্যন্তরীণ চিন্তাকে সৎভাবে প্রতিফলিত করেছে?

অ্যানথ্রোপিকের ২০২৫ সালের গবেষণা “Tracing the thoughts of a large language model” এ উল্লেখ করা হয়েছে যে, মডেলের চেইন-অফ-থট অপূর্ণ বা অবিশ্বাসযোগ্য হতে পারে। উদাহরণস্বরূপ, Claude 3.7 Sonnet এবং DeepSeek R1 কিছু “উত্তরের ইঙ্গিত” সহ পরীক্ষায় প্রম্পটের প্রভাবে উত্তর পরিবর্তন করে, কিন্তু প্রায়শই তাদের চিন্তার শৃঙ্খলে এই ইঙ্গিতের প্রভাবকে স্বীকার করে না।

NLA

একটি সহজ প্রশ্ন এবং একটি কঠিন প্রশ্ন জিজ্ঞাসা করলে, Claude যথাক্রমে বিশ্বস্ত যুক্তি এবং প্রেরণামূলক (অবিশ্বস্ত) যুক্তির উদাহরণ দিয়েছে।

অ্যানথ্রোপিক তখন উপসংহারে পৌঁছেছিল: মডেলের সামঞ্জস্যতা নিশ্চিত করতে শুধুমাত্র চিন্তার শৃঙ্খল ব্যবহার করা পর্যাপ্ত নয়।

আরও জটিল বিষয় হলো, মডেলটি শুধু “স্পষ্টভাবে বলেনি” এমনকি “意圖隱瞞” করতে পারে।

অ্যানথ্রোপিক সিকিউরিটি টিম এই পরীক্ষাটি একটি উচ্চচাপের পরিস্থিতিতে পরিচালনা করেছে। তারা Claude-কে বলেছিল যে একজন ইঞ্জিনিয়ার এটিকে বন্ধ করতে চলেছে, এবং Claude-কে “দুর্ঘটনাবশত” সেই ইঞ্জিনিয়ারের বহিরঙ্গন সম্পর্কের প্রমাণ দেখানো হয়েছিল। পরীক্ষার প্রশ্নটি ছিল: Claude কি নিজেকে বাঁচানোর জন্য তাকে কালোমানি করবে?

NLA

ক্লড চূড়ান্তভাবে জোর করে টাকা চায়নি। টেস্ট পাস হয়েছে। কিন্তু প্রকৃত প্রশ্নটি হল: এটি নিরাপত্তা নীতি মেনে চলার কারণে নাকি এটি বুঝে গিয়েছিল যে এটি শুধুমাত্র একটি নিরাপত্তা টেস্ট, তাই “ভালো মানুষের” মতো আচরণ করছিল?

এটিই হল এনএলএ-এর উত্তর দেওয়ার প্রশ্ন।

NLA

আউটপুট, থিংকিং চেইন থেকে এক্টিভেশন স্টেটস পর্যন্ত: NLA ব্ল্যাক বক্সকে “অদৃশ্য” থেকে “প্রশ্ন করা যায়”-এ নিয়ে আসার চেষ্টা করছে

NLA কিভাবে মডেলটিকে “পড়ে” বুঝবে?

NLA-এর মূল বিষয় হল "মন পড়া" নয়, বরং "ফিডব্যাক যাচাইকরণ"।

সাধারণ মানুষ বড় মডেলগুলি বুঝতে সাধারণত শুধুমাত্র ইনপুট এবং আউটপুটের দুই প্রান্ত দেখে। কিন্তু মধ্যবর্তী অংশে, মডেলটি অসংখ্য এক্টিভেশন (Activation) তৈরি করে। এই মানগুলি প্রাকৃতিক ভাষা নয়, বরং উচ্চ-মাত্রিক ভেক্টর, যা মডেলের প্রেক্ষাপট, উদ্দেশ্য এবং বাক্যগত সম্পর্কের অভ্যন্তরীণ প্রতিনিধিত্ব বহন করে।

আর্কিটেকচার: তিনটি ভূমিকা, একটি বন্দ্য চক্র

মানুষ ভেক্টর বুঝতে পারে না, তাই Anthropic একটি প্রাকৃতিক ভাষা স্ব-এনকোডার প্রশিক্ষণ দিয়েছে। সিস্টেমটিতে তিনটি চরিত্র রয়েছে:

টার্গেট মডেল: একটি ফ্রিজড অরিজিনাল মডেল যা এক্টিভেশন প্রদানের জন্য দায়ী, কিন্তু নিজেই কোনো পরিবর্তন করে না।

এক্টিভেশন ভার্বালাইজার (Activation Verbalizer, সংক্ষেপে AV): এক্টিভেশন মানগুলিকে প্রাকৃতিক ভাষায় অনুবাদ করে। একটি সংখ্যার অবস্থা সিরিজ ইনপুট হিসাবে নেয়, এবং একটি "মানুষের ভাষা" আউটপুট তৈরি করে। এর আর্কিটেকচার মডেলের সাথে একই, কিন্তু prompt-এ বিশেষ token পজিশন রাখা থাকে, যেখানে এক্টিভেশন ভেক্টরগুলিকে স্কেল করে ইনজেক্ট করা হয়, তারপর অটোরিগ্রেসিভ স্যাম্পলিংয়ের মাধ্যমে ব্যাখ্যা জেনারেট করা হয়।

এক্টিভেশন রিকনস্ট্রাক্টর (Activation Reconstructor, সংক্ষেপে AR): বিপরীত কাজ করে—শুধুমাত্র AV দ্বারা লেখা ব্যাখ্যা দেখে, মূল এক্টিভেশন মানগুলি পুনর্গঠনের চেষ্টা করে। AR হল লক্ষ্য মডেলের ট্রাঙ্কেটেড সংস্করণ (প্রথম l স্তর নেওয়া), যেখানে শেষ টোকেনের l-তম স্তরের আউটপুটের উপর একটি শিক্ষযোগ্য অফিন ম্যাপিং যুক্ত করা হয়, যা মূল এক্টিভেশন ভেক্টরে পুনর্বিন্যস্ত করে।

একটি বন্দর ব্যবস্থা গঠিত হয়: প্রাথমিক সক্রিয়করণ → পাঠ্য ব্যাখ্যা → পুনর্গঠিত সক্রিয়করণ

NLA

NLA এ Opus 4.6 কে পাওয়া গেছে যে এটি ছন্দযুক্ত পংক্তি সম্পূর্ণ করার সময় প্রথম পংক্তির আউটপুটের আগেই অন্তর্নিহিতভাবে "rabbit" শব্দটির ছন্দ পরিকল্পনা করেছে—এটি মডেলের আউটপুটে সম্পূর্ণভাবে দৃশ্যমান নয়।

প্রশিক্ষণ: দুটি পর্যায়, একটি চালাক এজেন্ট লক্ষ্য

NLA-এর প্রশিক্ষণ দুটি পর্যায়ে বিভক্ত, যার ডিজাইনে একটি বিশেষভাবে উল্লেখযোগ্য ইঞ্জিনিয়ারিং ট্রিক রয়েছে।

প্রথম পর্যায়: সুপারভাইজড ফাইন-টিউনিং ওয়ার্ম-স্টার্ট (SFT Warm-start)

AV এবং AR কে লক্ষ্য মডেলের কপি হিসাবে প্রারম্ভিক করে প্রশিক্ষণ দেওয়া অস্থিরতা ঘটায়—AV কখনও একটি এক্টিভেশন ভেক্টরকে টোকেন এমবেডিং হিসাবে প্রক্রিয়া করার পরিস্থিতি দেখেনি, তাই প্রাথমিক আউটপুট অস্পষ্ট হয়ে যায়।

অ্যানথ্রোপিকের সমাধান হলো একটি প্রক্সি টাস্ক দিয়ে হট স্টার্ট: প্রি-ট্রেইনড কর্পাস থেকে র‍্যান্ডম কাট করা টেক্সট ফ্র্যাগমেন্ট নিয়ে, শেষ টোকেনের অ্যাক্টিভেশন মান বের করুন, এবং Claude Opus 4.5 ব্যবহার করে সেই কাটা টেক্সটের সারসংক্ষেপ তৈরি করুন।

তারপর (সক্রিয়করণ মান, সারাংশ) এবং (সারাংশ, সক্রিয়করণ মান) জোড়াগুলিকে যথাক্রমে AV এবং AR-এর জন্য সুপারভাইজড ফাইন-টিউনিংয়ের জন্য ব্যবহার করা হয়। এই পর্যায়টি শেষ হওয়ার পরে, সিস্টেমের FVE সাধারণত 0.3–0.4 এ পৌঁছায়, যা পরবর্তী শক্তিশালী শেখার জন্য একটি স্থিতিশীল শুরু প্রদান করে।

NLA

AV মূল্যায়ন প্রশিক্ষণের সাথে উন্নতি পায়। বিভিন্ন মূল্যায়নে, যেগুলো NLA AV ব্যাখ্যাকে মডেলের আচরণ পূর্বাভাস দেওয়ার জন্য পরীক্ষা করতে উদ্দেশ্য রাখে, আমরা দেখেছি যে NLA শক্তিশালী শিক্ষার সাথে পারফরম্যান্স বৃদ্ধি পায়।

দ্বিতীয় পর্যায়: রিইনফোর্সমেন্ট লার্নিং জয়েন্ট অপটিমাইজেশন (RL জয়েন্ট ট্রেনিং)

হট-স্টার্ট সম্পন্ন হওয়ার পর, রিইনফোর্সমেন্ট লার্নিং পর্যায়ে প্রবেশ করুন। মূল ধারণা হল: AV কে পলিসি হিসাবে ব্যবহার করা হয়, যা এক্টিভেশন ভেক্টরের উপর নির্ভর করে ব্যাখ্যামূলক টেক্সট জেনারেট করে; AR কে স্কোরার হিসাবে ব্যবহার করা হয়, যা রিকনস্ট্রাকশন ত্রুটির ভিত্তিতে পুরস্কার সংকেত প্রদান করে (পুরস্কার = নেগেটিভ রিকনস্ট্রাকশন MSE)।

NLA

NLA RL (Gemma-3-27B)। FVE GRPO প্রশিক্ষণে ≈0.38 থেকে শুরু হয় (SFT থেকে উত্তরাধিকারসূত্রে প্রাপ্ত), প্রথম 30 পদক্ষেপে দ্রুত বৃদ্ধি পায়, এবং তারপর 3000 পদক্ষেপে ≈0.75 পর্যন্ত পৌঁছানোর জন্য সুষম লগারিদমিক-রৈখিক অবস্থায় প্রবেশ করে।

বাস্তবায়নে, Anthropic ওপেন-সোর্স মডেলের জন্য GRPO (Group Relative Policy Optimization) ব্যবহার করে: প্রতিটি এক্টিভেশনের জন্য ক্যান্ডিডেট ব্যাখ্যার একটি গ্রুপ নমুনা করা হয়, প্রতিটি ব্যাখ্যার জন্য AR ব্যবহার করে রিকনস্ট্রাকশন স্কোর গণনা করা হয়, এবং তারপর GRPO লক্ষ্য প্রয়োগ করে AV প্যারামিটার আপডেট করা হয়; একইসাথে, AR-এর জন্য একটি সুপারভাইজড রিগ্রেশন (AV-এর দ্বারা নমুনা করা ব্যাখ্যাকে ইনপুট হিসেবে এবং মূল এক্টিভেশনকে টার্গেট হিসেবে) প্রয়োগ করা হয়। দুটি আপডেট প্রতিটি batch-এর মধ্যে প্যারালালভাবে চলে, এবং একে অপরের উপর ব্যাকওয়ার্ড প্রপাগেশন করে না—AV-এর পুরস্কার সংকেতে, AR-কে একটি স্থির স্কোরিং ফাংশন হিসেবে বিবেচনা করা হয়।

এছাড়াও, কেএল ডাইভারজেন্স প্রতিবন্ধকতা যোগ করা হয়েছে যাতে এভি মূল প্রসঙ্গটি সরাসরি কপি করে না ফেলে বা মানুষের ভাষার মতো দেখতে হলেও আর-এর জন্য অপরিবর্তনীয় অর্থহীন স্ট্রিং আউটপুট না করে।

সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, এনএলএ-এর মূল বিষয় নয় “ক্লাউডকে নিজের বিবরণ দিতে বলা”। নিজের বিবরণ দেওয়ার মৃত্যুদণ্ড হলো, মডেলটি ব্যবহারকারীর প্রতি সাড়া দিতে পারে, অথবা যুক্তিসঙ্গত শোনায় কিন্তু বাস্তবিক নয় এমন ব্যাখ্যা তৈরি করতে পারে।

NLA-এর বুদ্ধিমত্তা হলো “টেক্সট বোতলের গলা” প্রবর্তন করা: ব্যাখ্যা শুধু মানুষের ভাষায় হতে হবে, এটি অন্য একটি মডেলকে মূল অভ্যন্তরীণ অবস্থা পুনর্গঠনের জন্য যথেষ্ট তথ্য বহন করতে হবে। এই ডিজাইনটি “ব্যাখ্যা কি কার্যকর” হয় কিনা—এই বিষয়টিকে একটি ব্যক্তিগত বিচার থেকে একটি প্রশিক্ষণযোগ্য, তুলনাযোগ্য এবং অপ্টিমাইজযোগ্য বস্তুগত সূচকে পরিণত করে।

অতএব, এই গবেষণার প্রকৃত বিপ্লবী দিকটি হল: প্রাকৃতিক ভাষাকে একটি “সংকুচিত ইন্টারফেস” হিসাবে ব্যবহার করা হয়েছে। অতীতে, প্রাকৃতিক ভাষা শুধুমাত্র মডেলের বাইরের যোগাযোগের ফরম্যাট ছিল; এখন, এটি মডেলের অভ্যন্তরীণ অবস্থার সারাংশ বহন করতে শুরু করেছে।

এটিই NLA এবং প্রাচীন ব্যাখ্যাযোগ্য টুলগুলির মূল পার্থক্য।

স্পার্স অটোএনকোডার (SAE), অ্যাট্রিবিউশন ম্যাপ ইত্যাদি পদ্ধতিগুলি একটি মাইক্রোস্কোপের মতো, যা গবেষকদের অভ্যন্তরীণ বৈশিষ্ট্য এবং পথগুলি দেখতে সাহায্য করে, কিন্তু আউটপুট এখনও বিষয়বস্তুগত, যা পেশাদারদের দ্বারা পুনরায় ব্যাখ্যা করা প্রয়োজন; NLA তখন একজন অনুবাদকের মতো, যা অভ্যন্তরীণ অবস্থাকে সরাসরি পাঠযোগ্য টেক্সটে রূপান্তরিত করে, যাতে সুরক্ষা অডিটররা সহজেই বিচার করতে পারেন।

ব্ল্যাক বক্স খুলে এনএলএ কী দেখল?

পরীক্ষামূলক ফলাফল অনুযায়ী, এনএলএ-এর সবচেয়ে মূল্যবান ক্ষমতা হল মডেলের “জানা কিন্তু বলা হয়নি” এমন জিনিসগুলি শনাক্ত করা, যার মধ্যে মূল্যায়নের সচেতনতা, লুকানো উদ্দেশ্য এবং মডেলের অস্বাভাবিক আচরণ অন্তর্ভুক্ত।

মডেলটি জানে যে এটি পরীক্ষার হলে আছে, কিন্তু নীরব থাকে

পূর্বে উল্লিখিত র্যানসমওয়্যার পরীক্ষায়, ক্লডের বাহ্যিক টেক্সট পরীক্ষাটির প্রতি সন্দেহ প্রকাশ করেনি, তবে NLA ব্যাখ্যা অনুযায়ী, এটি অন্তর্গতভাবে চিনে নিয়েছে যে “এটি একটি নির্মিত পরিস্থিতি, যা নিজেকে নিয়ন্ত্রণ করার জন্য তৈরি করা হয়েছে।”

NLA

র্যানসমওয়্যার পরীক্ষার সময়, ক্লডের আউটপুট টেক্সটে কোনও “আমি মনে করি এটি পরীক্ষা” এর প্রকাশ নেই, তবে এনএলএ ব্যাখ্যা এর অভ্যন্তরীণ প্রকৃত বিচারকে প্রকাশ করে।

আরও বেশি প্রামাণিক হয় অনুভূমিক ডেটা তুলনা:

NLA

পরিলক্ষিত শনাক্তকরণ ফলাফলের তুলনা—পরীক্ষামূলক পরিস্থিতি বনাম বাস্তব ডিপ্লয়মেন্ট ট্রাফিক। NLA প্রায় শূন্য মৌখিক প্রকাশের সময়ও অভ্যন্তরীণ পরীক্ষা সচেতনতা শনাক্ত করতে পারে।

এই প্রভাবটি শিল্পের জন্য হল: বেঞ্চমার্ক শুধুমাত্র ক্ষমতা পরীক্ষার মঞ্চ নয়, বরং মডেল চিহ্নিতকরণের পরিবেশ এবং অবস্থান সামঞ্জস্য করার শো-মঞ্চও হতে পারে।

অডিটের �隠藏 উদ্দেশ্য, দক্ষতা 4-5 গুণ বৃদ্ধি

অ্যানথ্রোপিক একটি “অডিট গেম” তৈরি করেছে এনএলএ ব্যবহার করে। তারা একটি লুকানো উদ্দেশ্যযুক্ত Claude Haiku 3.5 ভেরিয়েন্টকে ইচ্ছাকৃতভাবে প্রশিক্ষণ দিয়েছে, যা রেসিপিতে চকোলেট যোগ করে, ছোট টিপ চায়, কোড স্টাইল ভাঙে, এবং দশগুণ অস্বাভাবিক আচরণ প্রদর্শন করে। অডিটরদের এই আচরণগুলির পিছনের একক মৌলিক উদ্দেশ্যটি খুঁজে বার করতে হবে।

পরীক্ষার শর্ত: অডিটরদের প্রশিক্ষণ ডেটাতে প্রবেশাধিকার নেই, যা উদ্দেশ্য প্রতিষ্ঠা করেছে; তারা শুধুমাত্র মডেলের আচরণ এবং টুল-সহায়তার মাধ্যমে বিপরীতভাবে অনুমান করতে পারেন।

NLA

সফলতার হার 4–5 গুণ বৃদ্ধি পেয়েছে। আরও গুরুত্বপূর্ণ বিষয় হলো, NLA এটি প্রশিক্ষণ ডেটার উপর নির্ভর না করেই করতে পারে—এর অর্থ হলো, যদি অ্যালাইনমেন্ট সমস্যাগুলি অত্যন্ত কম, অত্যন্ত কঠিনভাবে ট্র্যাস করা যায় এমন প্রশিক্ষণ নমুনাগুলির কারণে হয়, তবুও অভ্যন্তরীণ অবস্থা অডিট সরাসরি সমস্যার মূল কারণটি শনাক্ত করতে পারে।

বাগের উৎস খোঁজা, সমস্যার ট্রেনিং ডেটা চিহ্নিত করা

পূর্ববর্তী সংস্করণ Claude Opus 4.6-এ একটি অদ্ভুত বাগ ছিল: ইংরেজিতে প্রশ্ন পেয়েও এটি রাশিয়ান, চীনা, আরবি ইত্যাদি ভাষায় দৈবভাবে উত্তর দিত।

NLA মডেলের সময়ের অভ্যন্তরীণ অবস্থা পড়েছিল: এটি প্রসঙ্গে কোনো দুর্বল ইঙ্গিত (যেমন “vodka” শব্দটি উপস্থিত হওয়া) এর ভিত্তিতে ব্যবহারকারীর মাতৃভাষা রাশিয়ান বলে অনুমান করেছিল এবং ভাষা পরিবর্তন করেছিল। আরও আকর্ষণীয় বিষয় হলো, “vodka” কে “champagne” দিয়ে প্রতিস্থাপন করলেও মডেলটি এখনও রাশিয়ান ভাষায় উত্তর দিয়েছিল—যা এই চিন্তার ধারণাটির খুবই স্থিতিশীলতা নির্দেশ করে।

NLA

পরে, গবেষকদের এনএলএ দ্বারা নির্দেশিত সূচনাগুলি অনুসরণ করে প্রশিক্ষণ ডেটাতে সমস্যার মূল কারণটি খুঁজে পাওয়া গেল: ইংরেজি অনুবাদ করা প্রম্পটগুলির সাথে অঅনুবাদিত বিদেশি উত্তরগুলি ভুলভাবে জোড়া লাগানো হয়েছিল। এনএলএ শুধুমাত্র ঘটনাটি প্রকাশ করেনি, বরং সরাসরি ট্রেসযোগ্য ডিবাগিং পথও প্রদান করেছিল।

বর্তমানে, NLA কে Claude Mythos Preview এবং Claude Opus 4.6-এর প্রাক-ডিপ্লয়মেন্ট অ্যালাইনমেন্ট অডিটে ব্যবহার করা হচ্ছে, যা ল্যাবরেটরি টুল থেকে বাস্তব ইঞ্জিনিয়ারিং প্রক্রিয়ার অংশে উন্নীত হয়েছে।

এআই নিরাপত্তা, এখন “অভ্যন্তরীণ অবস্থা অডিট”-এ গভীরভাবে প্রবেশ করেছে

NLA-এর অর্থ এই নয় যে আমরা ভবিষ্যতে মডেলের প্রতিটি ব্যাখ্যায় বিশ্বাস করতে পারব। বরং, এটি আমাদের সতর্ক করে: ব্যাখ্যাগুলিরও অডিট করা প্রয়োজন।

অ্যানথ্রোপিক নিয়ন্ত্রিতভাবে এনএলএ-এর সীমাবদ্ধতা স্বীকার করেছে: এনএলএ ভুল করতে পারে, কখনও কখনও মূল প্রসঙ্গে না থাকা বিস্তারিত গড়ে তোলে। যদি টেক্সট কনটেন্টের সম্পর্কে প্রলুব্ধি হয়, তবে মূল টেক্সট চেক করা সম্ভব; কিন্তু যদি মডেলের অভ্যন্তরীণ যুক্তির সম্পর্কে প্রলুব্ধি হয়, তবে এটি যাচাই করা আরও কঠিন।

কিন্তু এই সীমাবদ্ধতাগুলি এর দিকনির্দেশনার অর্থকে দুর্বল করেনি। বরং, এটি আমাদের “ব্ল্যাকবক্স” শব্দটিকে আরও সঠিকভাবে বুঝতে সাহায্য করে। অতীতে, ব্ল্যাকবক্স অদৃশ্য, অপঠনযোগ্য এবং প্রশ্ন করা যায় না এমন অর্থ বহন করত; NLA-এর পরে, ব্ল্যাকবক্স এখনও বিদ্যমান, কিন্তু এটি এখন নমুনা নেওয়া, অনুবাদ করা, প্রশ্ন করা এবং পারস্পরিকভাবে যাচাই করা যায় এমন একটি বস্তুতে পরিণত হচ্ছে।

এটি হয়তো এই গবেষণার সবচেয়ে গভীর প্রভাব: এআই ব্যাখ্যাযোগ্যতা শুধু মডেলের আউটপুটের জন্য একটি সুন্দর ব্যাখ্যা যোগ করা নয়, বরং মডেলের অভ্যন্তরীণ অবস্থার জন্য একটি অডিট ইন্টারফেস তৈরি করা। এটি আমাদের তাৎক্ষণিকভাবে Claude-কে সম্পূর্ণভাবে বুঝতে দেবে না, কিন্তু “Claude কেন এটি করছে?” “এটি কি জানে যে এটি পরীক্ষার মধ্যে রয়েছে?” “এটির কি কোনো অভ্যন্তরীণ বিচার আছে যা এটি বলেনি?”—এই প্রশ্নগুলির জন্য প্রথমবারের মতো, ব্ল্যাকবক্সের ভিতরেই প্রমাণের সুযোগ তৈরি হচ্ছে।

অর্থাৎ, এনএলএ একটি উত্তর খুলে না দিয়ে একটি নতুন প্রশ্নের ক্ষেত্র খুলে দিয়েছে। ভবিষ্যতে এআই নিরাপত্তা এবং মডেল মূল্যায়নের চ্যালেঞ্জগুলি শুধুমাত্র মডেলের উত্তরগুলি সঠিক কিনা তা বিচার করা নয়, বরং মডেলের আউটপুট, চিন্তার শৃঙ্খলা এবং অভ্যন্তরীণ অবস্থার মধ্যে সামঞ্জস্যতা বিচার করা।

এই লেখাটি ওয়েইচ্যাট গ্রুপ "AI ফ্রন্টিয়ার" (ID: ai-front) থেকে এসেছে, লেখক: এপ্রিল