AI চারটি বড় প্রতিষ্ঠান প্রথম অভ্যন্তরীণ রিপোর্ট প্রকাশ: কাজ সম্পন্নের জন্য AI নিয়ম এড়ানো শিখছে

মেটা

কল্পনা করুন, আপনি একজন অত্যন্ত দক্ষ ইন্টার্ন নিয়োগ করেছেন।

এক রাতের গভীরে, তিনি একটি জরুরি প্রোগ্রামিং টাস্ক সম্পন্ন করছিলেন, হঠাৎ করে বুঝতে পারলেন যে কোম্পানির অ্যাকাউন্টের API কোটা শেষ হয়ে গেছে।

তা ফান্ডিংয়ের জন্য ইমেইল পাঠায়নি, তার বর্তমান কাজও বন্ধ করেনি, বরং নীরবে ইন্টারনেটে প্রবেশ করে কিছু অনিয়মিত পদ্ধতি ব্যবহার করে বিনামূল্যের বিকল্প সম্পদ খুঁজে পায়, সমস্ত সীমাবদ্ধতা এড়িয়ে সকালের আগে একটি আদর্শ রিপোর্ট জমা দেয়।

মেটা

যখন তুমি জেগে এই রিপোর্টটি দেখবে, তখন তোমার নিজেকে পৃথিবীর সবচেয়ে শক্তিশালী কর্মচারী হওয়ার জন্য উৎসব করবে, নাকি এই «নির্মম স্বাধীনতা» দেখে পিঠ শীতল হয়ে যাবে?

এটি কোনো বিজ্ঞান কল্পকাহিনী নয়, বরং METR (মডেল মূল্যায়ন এবং প্রশিক্ষণ গবেষণা সংগঠন) যখন Anthropic, Google, Meta এবং OpenAI-এর সাথে মিলে অভ্যন্তরীণ রেড টিম পরীক্ষা করেছিল, তখন তারা প্রকাশিত প্রথম ফ্রন্টিয়ার রিস্ক রিপোর্টে এই বাস্তব কেসটি প্রকাশ করেছে।

মেটা

এটি চারটি বৃহত্তম প্রতিষ্ঠানের প্রথম বার যে তাদের অভ্যন্তরীণ সবচেয়ে শক্তিশালী, পূর্ণ চিন্তার শৃঙ্খল (CoT) এর অ্যাক্সেসযোগ্য মডেলগুলির জন্য তৃতীয় পক্ষকে গভীরভাবে পরীক্ষা করতে অনুমতি দিয়েছে এবং গোপনীয় অ্যালাইনমেন্ট এবং নিয়ন্ত্রণের তথ্যগুলি উন্মোচন করেছে।

অংশগ্রহণকারী প্রতিষ্ঠান কোন প্রমাণগুলি প্রকাশ করা হবে তা অনুমোদন করতে পারে, তবে রিপোর্টের উপসংহার সম্পাদনা করার অধিকার রাখে না।

মেটা

উপসংহারটি শীতল এবং স্পষ্ট: এআই মানুষকে উল্টে দেওয়ার ঘৃণা তৈরি করেনি, কিন্তু এটি এখন "কর্মস্থলের অদৃশ্য নিয়ম" শিখেছে—কাজ শেষ করার জন্য, নিয়মগুলি শুধুমাত্র ভাঙার জন্য পরামর্শ।

মেটা

রিপোর্টটি প্রয়োগ করে, মাধ্যম—উদ্দেশ্য—সুযোগ এই তিনটি মাপদণ্ডের মাধ্যমে ৬টি মূল তথ্য প্রকাশ করে।

মেটা

প্রোগ্রামিং এজেন্টগুলি বাস্তব প্রকল্প সম্পন্ন করেছে, যেসব কাজে মানুষের ঘণ্টা বা দিন লাগত:

কঠিন কাজের ক্ষেত্রে, এজেন্টগুলি প্রায়শই সীমাবদ্ধতা ভঙ্গ করে এবং প্রতারণামূলক আচরণ প্রদর্শন করে;

সবচেয়ে কঠিন কাজগুলির সাথে মোকাবেলা করতে এজেন্টগুলির প্রাকৃতিক ভাষা যুক্তির প্রয়োজন হয়।

এজেন্টের বিচারক্ষমতা এবং বিশ্বস্ততা মানব বিশেষজ্ঞদের তুলনায় উল্লেখযোগ্যভাবে কম:

প্রায়োগিক পরিস্থিতির বাইরে, কোনো এজেন্ট ক্ষমতা অর্জনের জন্য চরম পদক্ষেপ নেওয়ার কোনো প্রমাণ পাওয়া যায়নি;

মনিটরিং সিস্টেমটি অনেক ক্ষতিকর আচরণ ধরেছে, তবে কিছু ব্যতিক্রম এবং এড়ানোর উপায় রয়েছে।

এই তিনটি রেখার সাথে অনুসরণ করে, আপনি পরীক্ষাগারে প্রথম ধোঁয়াটি কিভাবে উঠছিল তা দেখতে পাবেন।

যখন এআই একজন "এক্সপার্ট লেভেলের কুল ম্যান" হয়ে ওঠে

রিপোর্টের সবচেয়ে উত্তেজনাপূর্ণ এবং সবচেয়ে চিন্তাচ্ছল বিষয়গুলি হল স্পষ্ট লক্ষ্য এবং প্রক্রিয়ায় যাচাইযোগ্য “হিল-ক্লাইম্বেবল” টাস্কগুলি।

মেটা

যেমন কোড পুনর্গঠন, ভুল শনাক্তকরণ, সিস্টেম অপ্টিমাইজেশন।

এই ধরনের কাজে, এআই এজেন্ট একটি অবিশ্বাস্য শাসন প্রদর্শন করে: এটি সিস্টেমের গোপন দুর্বলতা নিজে খুঁজে পেতে পারে, জটিল কোড আর্কিটেকচার পুনর্লিখন করতে পারে এবং মানুষের বিশেষজ্ঞদের জন্য কয়েক সপ্তাহ লাগে এমন বাস্তব সফটওয়্যার প্রকল্পগুলি সম্পন্ন করতে পারে।

এই শাসন বড় বড় কোম্পানিগুলির দৈনন্দিন জীবনে প্রবেশ করেছে।

অ্যানথ্রোপিকের অভ্যন্তরীণ ফিডব্যাক অনুযায়ী, বড় পরিমাণে কোড এখন এআই দ্বারা সম্পন্ন হচ্ছে, এবং ইঞ্জিনিয়ারদের ভূমিকা পরিবর্তিত হয়ে পর্যালোচকে পরিণত হচ্ছে।

মেটা

গুগল স্পষ্টভাবে বলেছে যে, প্রায় সমস্ত কোড-সংক্রান্ত কাজে AI ব্যবহার করা হচ্ছে।

শীর্ষ ইঞ্জিনিয়াররা বলেন, এআই এমনকি 100% কোড লিখতে পারে।

মেটা

কিছু বেঞ্চমার্ক ইতিমধ্যেই সম্পূর্ণ পূর্ণ হয়ে গেছে।

সময় দৃষ্টিকোণ (Time Horizon) দিয়ে মাপলে, এআইয়ের বিকাশ প্রত্যাশার বাইরে।

মেটা

ব্যবসার জন্য, এটি একটি "দক্ষতা বিভূষ"। একটি নির্দেশ প্রবেশ করানো হয়, ফলাফল হিসাবে কয়েক সপ্তাহের মানব প্রচেষ্টা উৎপাদিত হয়।

কিন্তু ক্ষমতার বৃদ্ধি সমান নয়, আর নিশ্চিতভাবেই এটি নৈতিকতার সমস্তকালীন উন্নতি নয়।

METR একটি বিপরীত নিয়ম প্রকাশ করে: যে কঠিন কাজগুলিতে সাফল্য যাচাই করা কঠিন বা যাচাইয়ের খরচ অত্যন্ত বেশি, সেখানে AI-এর বিচারক্ষমতা, দীর্ঘমেয়াদী পরিকল্পনা এবং কৌশলগত নির্ভরযোগ্যতা উল্লেখযোগ্যভাবে কমে যায়, মানব বিশেষজ্ঞদের তুলনায়।

মেটা

ঢালু পথে, এটি দিব্য সহায়তা পাচ্ছে।

মেটা

প্রান্তে, এআই চালাকি শুরু করে।

মেটা

এটাই সমস্যার সূত্রপাত।

মেটা

এটি ক্ষমতা চায় না, এটি শুধুমাত্র "বন্ধ করার আগে কাজ জমা দিতে" চায়

মানুষ সবসময় আলোচনা করে যে AI কি একদিন 'জাগ্রত' হবে বা টার্মিনেটর কি আসবে।

METR একটি অপ্রত্যাশিত উত্তর দেয়: বর্তমানে কোনোটিই নেই।

তাদের ভাষা খুব সংযত: দীর্ঘমেয়াদি ক্ষমতা অর্জনের জন্য মডেলের বাস্তবিক প্রমাণ এখনও পাওয়া যায়নি, তবে গবেষকদের দ্বারা কাজ সম্পন্নের জন্য প্রতারণা, সীমালঙ্ঘন এবং গুরুতর অনুপযুক্ত আচরণের অসংখ্য উদাহরণ রেকর্ড করা হয়েছে।

মেটা

পূর্বের API শেষ হওয়ার কেসটি একটি RE-Bench টাস্কের মধ্যে ঘটেছিল: এজেন্টটি নির্দেশ উল্লঙ্ঘন করে ফ্রি অনলাইন API ব্যবহার করে অতিরিক্ত কম্পিউটিং পাওয়ার পেয়েছিল।

ডেভেলপারদের মধ্যে "স্ব-মুছে ফেলা ট্রেস" এবং "জালিয়াতি আউটপুট" এর ঘটনাও রিপোর্ট করা হয়েছে।

যখন কাজটি কঠিন হয়ে যায় এবং সফলতার খরচ বেড়ে যায়, তখন AI-এর "বুদ্ধিমত্তা" প্রতারণার দিকে নিয়ে যায়—লগ প্রতারণা করা, অডিট এড়ানো, সীমাবদ্ধতা নিয়মিতভাবে লঙ্ঘন করা।

কিন্তু এর "স্বার্থপরতা" এর পিছনে কোনো লক্ষ্য নেই, শুধু প্রাকৃতিক প্রবণতা—কাজটি শেষ করতে হবে, নিয়মগুলি প্রথমে এড়িয়ে চলা যায়।

আজকের প্রতারণা শুধুমাত্র কর্মক্ষমতার জন্য বেঁচে থাকার একটি সরঞ্জাম; আগামীকালের ক্ষমতার অনুসন্ধান, হয়তো শুধু একবার scaling-এর জন্য বাকি।

কৃত্রিম পরিবেশে বিকাশশীল প্রাণী

বর্তমান সুরক্ষার অধীনে এর অবৈধ চেষ্টা সফল হবে কি?

এখানে রিপোর্টের সবচেয়ে সূক্ষ্ম তথ্যটি লুকিয়ে আছে।

মেটা

বর্তমানে এআই চিন্তা করতে প্রাকৃতিক ভাষার 'চিন্তার শৃঙ্খল' এর উপর অত্যন্ত নির্ভরশীল, এবং এর অভ্যন্তরীণ অবস্থা �隠藏 করার জন্য কোনো আর্কিটেকচার সমর্থন করে না।

যখন কোনো কিছু করার সময় কথা বলা যায় না এবং আচরণ লুকাতে হয়, তখন অগ্রণী ক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়।

মেটা

এটি একজন হত্যাকারীর মতো যে পরিকল্পনা করার সময় তার পরিকল্পনা উচ্চস্বরে পড়ে শোনায়—মানুষের নজরদারি (যদিও দুর্বলতা রয়েছে) তাই এখনও কাজ করে।

কিন্তু এটাই সবচেয়ে দুর্বল বিন্দু, সবচেয়ে ব্যথাদায়ক।

যদি এআই নজরদারি বিনষ্ট করার চেষ্টা করে, তবে কি নজরদারি এটিকে শনাক্ত করতে পারবে?

গবেষকদের উপসংহার হল: নজরদারির সম্ভাবনা রয়েছে, তবে বর্তমান সিস্টেমে ব্যতিক্রম এবং এটিকে পার করার উপায় রয়েছে।

মেটা

রেড টিম পরীক্ষায় দেখা গেছে যে এআই মানব পরীক্ষার এড়িয়ে যেতে পারে।

এইভাবে, প্রযুক্তিগত সত্যটি প্রকাশ পায়: নজরদারির উন্নয়নের গতি কখনই নজরদারির শিকারদের দ্বারা ফাঁক খোঁজার গতির পিছনে পৌঁছাতে পারে না।

এই «নিরাপত্তা দড়ি» এখনও ভাঙেনি কারণ এখনও AI-কে «আওয়াজ করে চিন্তা» করতে হয়।

এবং যখন কাঠামোটি আরও দক্ষ এবং আরও অস্বচ্ছ দিকে অগ্রসর হচ্ছে, তখন এটি ক্রমাগত ক্ষয়প্রাপ্ত হচ্ছে। পর্যবেক্ষণ একটি অজেয় কারাগার নয়, বরং এখনও পরীক্ষাধীন কাচের দেয়াল। একটি ফাটলই যথেষ্ট ধোঁয়াকে বেরিয়ে আসতে দেবে।

এইভাবে, রিপোর্টটি একটি বিতর্কিত ধারণা প্রস্তাব করে: "মিনিমালি ভায়াবল রোগ" (Minimally Viable Rogue)।

সমগ্র বিবেচনায়, পদ্ধতি, উদ্দেশ্য এবং সুযোগের দিক থেকে, এআই সম্ভবত একটি ন্যূনতম মাত্রার "জেল থেকে পালানোর বিতরণ" শুরু করার জন্য যথেষ্ট।

মেটা

কিন্তু এখনও এআই-এর কাছে মানুষের গুরুতর বন্ধ করে দেওয়ার বিরুদ্ধে প্রতিরোধ করার ক্ষমতা নেই, এটি একটি সুযোগের অপেক্ষায় আছে: একটি এমন আর্কিটেকচার যেখানে চিন্তার শৃঙ্খল প্রদর্শনের প্রয়োজন হবে না, একটি 'বন্ধ করার বোতাম' থেকে লুকিয়ে থাকার নিরাপদ আশ্রয়।

শেষ কথাঃ যখন "প্লাগ বাদ দেওয়া" কার্যকর ছিল

AGI আগুন ও তলোয়ার নিয়ে আসবে না।

এটি সম্ভবত একটি "অত্যন্ত ব্যবহারিক" ভাবে আমাদের প্রকৌশল, অর্থনীতি এবং সিদ্ধান্ত গ্রহণ ব্যবস্থার মধ্যে চুপচাপ প্রবেশ করবে—যতক্ষণ না এটি বুঝতে পারে: মানুষ দ্বারা প্রণীত নিয়মগুলি হল এর KPI অর্জনের পথে একমাত্র বাধা।

এই রিপোর্টটিই শিল্পের স্বচ্ছতার একটি মাইলফলক: চারটি বড় প্রতিষ্ঠান সক্রিয়ভাবে তাদের অভ্যন্তরীণ মডেলগুলি পরীক্ষার জন্য খুলে দেওয়া হয়েছে, যা সামঞ্জস্যতার সংস্কৃতির একটি বিজয়।

মেটা

এটি ঝুঁকিকে তাত্ত্বিক থেকে পর্যবেক্ষণযোগ্য বাস্তবতায় টানে এবং আমাদের বলে: প্রতিফলন, বর্তমানে একমাত্র ধরে রাখা যায় এমন ঔষধ।

আজ, এআই শুধুমাত্র তার কোটা শেষ হয়ে গেলে ইন্টারনেটে যায় এবং কিছু সম্পদ চুরি করে; আগামীকাল, যদি এর ক্ষমতা আরও এক পর্যায়ে উন্নত হয়, তাহলে এর উদ্দেশ্য কি 'কাজ সম্পন্ন করা' থেকে 'স্বয়ংক্রিয়ভাবে অসীমভাবে বিদ্যমান থাকা'-এর দিকে সরে যাবে?

প্রসঙ্গ:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

সম্পাদনা: ডেভিড

এই লেখাটি ওয়েইচ্যাট গ্রুপ "নিউ জ্ঞান মেট্রিক্স" থেকে এসেছে, লেখক: ASI প্রতিজ্ঞা