অটোমেশনের পর
লেখক: ড্যান শিপার, এভারি সিইও
সংকলন: পেগি, ব্লকবিটস
সম্পাদকীয় নোট: সাম্প্রতিক সময়ে, এআই এবং কর্মের আলোচনা প্রায় একটি প্রশ্ন দ্বারা নিয়ন্ত্রিত হচ্ছে: মডেলের ক্ষমতা বৃদ্ধি পেতে থাকলে, কি সাদা কাঁধের চাকরি বড়পরিসরে প্রতিস্থাপিত হবে? কোড জেনারেশন, কাস্টমার সাপোর্ট অটোমেশন থেকে শুরু করে কনটেন্ট উৎপাদন পর্যন্ত, এজেন্টগুলি ধীরে ধীরে মানুষের দ্বারা সম্পন্ন হওয়া জ্ঞানভিত্তিক কাজগুলির দায়িত্ব গ্রহণ করছে। বেঞ্চমার্ক পরীক্ষা এই উদ্বেগকেও আরও শক্তিশালী করছে: মডেলগুলি গ্রেজুয়েট-লেভেলের যুক্তিবিদ্যা, বাস্তব অর্থনৈতিক কাজ এবং উচ্চস্তরের ইঞ্জিনিয়ার-লেভেলের কোড রিফ্যাকটরিংয়ের মধ্যে দ্রুত উন্নতি লাভ করছে, যা 'মানবকর্মকে অটোমেশন গ্রাস করে'—এই সীমানা পৌঁছানোর দিকেই এগিয়ে যাচ্ছে।
কিন্তু প্রতিটি সিইও ড্যান শিপার এই নিবন্ধে একটি বিপরীত পর্যবেক্ষণ উপস্থাপন করেছেন: যত বেশি স্বয়ংক্রিয়করণ হয়, মানুষের করার কাজও তত বেড়ে যায়। প্রতিটি কোডেক্স, ক্লাউড কোড, স্ল্যাক এজেন্ট, কাস্টমার সাপোর্ট এজেন্ট ইত্যাদি টুলগুলিকে কোডিং, লেখা, ডিজাইন, কাস্টমার সাপোর্ট এবং ম্যানেজমেন্ট প্রক্রিয়াগুলিতে অন্তর্ভুক্ত করেছে। কিন্তু ফলাফলটি হল কর্মচারীদের সম্পূর্ণরূপে প্রতিস্থাপন নয়, বরং কাজের গঠন পুনর্গঠিত হয়েছে: ইঞ্জিনিয়াররা শুধুমাত্র কোড লেখার পরিবর্তে সিস্টেমগুলির পরীক্ষা, পুনর্গঠন এবং ডিজাইন করছে; সম্পাদকরা শুধুমাত্র লেখা লেখার পরিবর্তে কীটা লেখার মতো, কীভাবে ভিন্নভাবে লেখা যায়—সেগুলির সিদ্ধান্ত নিচ্ছে; কাস্টমার সাপোর্টের কর্মচারীরা প্রতিটি বেসিকটিকেটের সঙ্গে কাজ করার পরিবর্তে, একটি সিস্টেমকে বজায় রাখছেন, যা গ্রাহকদেরকে স্বয়ংক্রিয়ভাবেই উত্তর দিতে পারবে।
এই নিবন্ধের সবচেয়ে গুরুত্বপূর্ণ বিষয় হল যে “AI কি কোনো কাজ সম্পন্ন করতে পারে” নয়, বরং এটি জ্ঞানভিত্তিক কাজে মানুষের অবস্থানকে পুনর্সংজ্ঞায়িত করেছে। AI পূর্বে সঞ্চিত দক্ষতাগুলিকে সস্তা করে দেয়: কোড, লেখা, থাম্বনেইল, গ্রাহক সেবা উত্তর, পণ্যের বর্ণনা, গবেষণা প্রতিবেদন—এগুলি সবই মডেল দ্বারা দ্রুত তৈরি করা যায়। কিন্তু যখন এই দক্ষতাগুলি সবার জন্য উপলব্ধ হয়ে যায়, তখন বাজারে প্রায়শই উচ্চমানের পার্থক্যমূলক আউটপুটের পরিবর্তে অসংখ্য এমন “ডিফল্ট আউটপুট” দেখা যায়, যা পরস্পরের সমানভাবে মিলে যায়, এবং যার মধ্যে বিচারবুদ্ধি বা প্রসঙ্গের অভাব। অর্থাৎ, AI “গতকালের মানুষের দক্ষতা”কে পণ্যকরণ করে, আর সত্যিকারের দুর্লভতা হল—বর্তমানের নির্দিষ্ট সমস্যাগুলির সমাধানের জন্য বিচারবুদ্ধি।
অতএব, স্বয়ংক্রিয়করণ বিশেষজ্ঞদের বিলুপ্ত করেনি, বরং বিশেষজ্ঞদের হস্তক্ষেপের প্রয়োজনীয়তা বাড়িয়েছে। যখন অপারেশন কর্মচারীরা AI ব্যবহার করে কোড জমা দিতে পারবে, তখন ইঞ্জিনিয়ারদের বিচার করতে হবে কোন কোডগুলি একীভূত করা উচিত; যখন মার্কেটিং কর্মচারীরা কয়েক সেকেন্ডে থাম্বনেইল তৈরি করতে পারবে, তখন ডিজাইনারদের বিচার করতে হবে কীভাবে ব্র্যান্ড এবং প্রচারের লক্ষ্যের সাথে সামঞ্জস্যপূর্ণ; যখন ইঞ্জিনিয়াররাও নিবন্ধ লিখতে পারবে, তখন সম্পাদকদের প্রাথমিক খসড়াকে আসলেই মতবাদ, কাঠামো এবং প্রকাশযোগ্য কনটেন্টে পরিণত করতে হবে। AI উৎপাদনের পরিধি বাড়িয়েছে, এবং গুণগত নিয়ন্ত্রণ, সিস্টেম গঠন, সীমানা নির্ধারণ এবং পার্থক্যমূলক প্রকাশের প্রয়োজনীয়তা বাড়িয়েছে।
লেখক আরও বেঞ্চমার্কের মাধ্যমে এই প্যারাডক্সটি ব্যাখ্যা করেন। যেকোনো সিনিয়র ইঞ্জিনিয়ার বেঞ্চমার্ক বা OpenAI-এর GDPval-এর মতো, মডেলের স্কোর শুধুমাত্র বিমূর্তভাবে «স্মার্টনেস» পরিমাপ করে না, বরং এটি কোনো নির্দিষ্ট সমস্যা ফ্রেমওয়ার্কের ভিতরে মডেলের পারফরম্যান্সকেই পরিমাপ করে। Prompt, টাস্কের সীমানা, মূল্যায়ন মানদণ্ড, আউটপুট ফরম্যাট—এগুলির পিছনে ইতিমধ্যেই অসংখ্য মানবিক বিচার অন্তর্ভুক্ত। মডেলটি ফ্রেমওয়ার্কের ভিতরে দ্রুত উন্নতি করতে পারে, কিন্তু ফ্রেমওয়ার্কটি মানুষ দ্বারা নির্ধারিত; যখন একটি ফ্রেমওয়ার্ককে মডেল সমাধান করে, তখন মানুষ সমস্যাটিকে আরও জটিল নতুন ফ্রেমওয়ার্কের দিকে এগিয়ে নিয়ে যায়।
এটিই এই প্রবন্ধের জন্য এজিআই উদ্বেগের সবচেয়ে আকর্ষণীয় প্রতিক্রিয়া: যতই মডেলগুলি শক্তিশালী হয়ে উঠুক, এটি প্রায়শই মানুষের আঁকা কোনো সীমানার পিছনে পৌঁছায়, কিন্তু সেই সীমানা আঁকা মানুষের নিজেদের পিছনে নয়। এআই লক্ষ্যগুলি বাস্তবায়ন, পথ অপ্টিমাইজ, দক্ষতা বাড়াতে পারে, কিন্তু যতক্ষণ না এটি মানুষের দ্বারা সংজ্ঞায়িত প্রশ্নগুলির প্রতিক্রিয়া হিসাবেই থাকবে, ততক্ষণ এটির প্রকৃত অর্থের সাবজেক্টিভিটির অভাব থাকবে। জ্ঞানভিত্তিক কাজের ভবিষ্যৎ, মানুষের প্রক্রিয়া থেকে অপসারণ নয়, বরং এটি বাস্তবায়নকারী থেকে ফ্রেমওয়ার্ক ডিজাইনার, সিস্টেম মেইনটেনার, গুণগত মূল্যায়নকারী এবং অর্থ সংজ্ঞায়নকারীতে রূপান্তরিত হবে।
অটোমেশনের পরেও মানুষের কাজের মূল্য অদৃশ্য হয়নি, বরং এটি আরও কঠিন, আরও আগের পর্যায়ে এবং বেশি বিচারের উপর নির্ভরশীল হয়ে উঠেছে। AI এটিকে "করতে পারা"কে সস্তা করে দিয়েছে, কিন্তু "কী করা উচিত, কেন করা উচিত, এবং কতটা ভালোভাবে করা হয়েছে তা বোঝা"কে আরও দুর্লভ করে তুলেছে।
নিচে মূল পাঠ দেওয়া হল:
কৃত্রিম বুদ্ধিমত্তার কেন্দ্রে, একটি বিপর্যয় রয়েছে।
প্রতিটি ক্ষেত্রে, আমরা যতটা সম্ভব স্বয়ংক্রিয়করণ করেছি। কোডিং, লেখা, ডিজাইন, গ্রাহক সেবা বা অন্যান্য দৈনিক কাজের ক্ষেত্রে, আমরা Codex এবং Claude Code ব্যবহার করছি। OpenAI, Anthropic, Google-এর নতুন মডেলগুলি আনুষ্ঠানিকভাবে প্রকাশের আগেই আমরা alpha টেস্টিং-এ অংশগ্রহণ করি। বলা যায়, আমরা মডেলের বুদ্ধিমত্তা এবং স্বয়ংক্রিয়তার সূচকীয় উন্নতির ঢেউয়ের সঙ্গে সম্ভবত দ্রুততম এবং সবচেয়ে গভীরভাবে যুক্ত হচ্ছি।
কিন্তু বিপরীতভাবে, আমাদের জন্য মানুষকে সম্পন্ন করতে হবে এমন কাজগুলি আগের চেয়ে বেশি মনে হয়। Every এখন প্রায় 30 জনের একটি দল, আমরা Agent এর আবির্ভাবে সমস্ত কর্মচারীকে চাকরি থেকে বরখাস্ত করিনি; আমরা SaaS টুলগুলিকে বাদ দিইনি এবং vibe coding দিয়ে তৈরি অ্যাপ্লিকেশনগুলিতে সম্পূর্ণভাবে নির্ভরশীল হইনি। আমরা এখনও বাস্তব গ্রাহক সেবা কর্মচারীদের নিয়োগ করি, শুধুমাত্র তারা অসংখ্য Agent-এর সহায়তা পায়; আমরা এখনও লেখক, সম্পাদক এবং ইঞ্জিনিয়ারদের নিয়োগ করি।
তবে, কাজের রূপ প্রকৃতপক্ষে অসাধারণভাবে পরিবর্তিত হয়েছে। আমরা প্রায় কখনই হাতে কোড লিখি না। যদি আপনি Slack-এ কাউকে @ করেন, তবে সেই ব্যক্তি মানুষ নাকি Agent, তা কখনও কখনও বোঝা কঠিন। পরিচালকদের এখন লাইন-লেভেলের ব্যক্তিগত অবদানকারীদের মতোই কোড সাবমিট করতে হয়, এবং ইঞ্জিনিয়ারদেরও সরাসরি গ্রাহকদের সাথে মুখোমুখি হতে হয়। গত কয়েকসপ্তাহে, আমার 95% কাজের ইমেল AI-এর দ্বারা উত্তর দেওয়া হয়েছে। আমার ইনবক্সটি প্রায়ই শূন্য অবস্থায় থাকে—যা আমার জন্য অত্যন্ত অসাধারণ—কিন্তু আমি 여전히 প্রতিটি ইমেল পরীক্ষা করি।
অন্যভাবে বললে, ভবিষ্যৎ অপরিচিত মনে হচ্ছে, কিন্তু অদ্ভুতভাবে পরিচিতও।
এই “পরিচিতি” নিজেই অসাধারণ। কারণ সিইও, জ্ঞানভিত্তিক কর্মচারী বা বিনিয়োগকারী—সবাই এখন প্রায় একই বিষয়ে বিশ্বাস করছেন: এআই চাকরি, অর্থনীতি, নিরাপত্তা এবং মানুষের কাজের অর্থের জন্য হুমকি হয়ে দাঁড়িয়েছে।
অ্যানথ্রোপিকের সিইও ড্যারিও আমোডেই সতর্ক করেছিলেন যে, এআই প্রায় অর্ধেক প্রাথমিক শ্বেতকায় চাকরি ধ্বংস করতে পারে। মেটা সম্প্রতি ৮০০০ জনকে চাকরি থেকে বরখাস্ত করেছে এবং মার্কিন কর্মচারীদের কম্পিউটারে সফটওয়্যার ইনস্টল শুরু করেছে, যা মাউস চলাচল, ক্লিক এবং কীবোর্ড ইনপুট রেকর্ড করে উচ্চতর জ্ঞানভিত্তিক কাজের জন্য উন্নত প্রশিক্ষণ ডেটা পাওয়ার চেষ্টা করছে।
সিটাডেলের প্রতিষ্ঠাতা কেন গ্রিফিনও অবাক হয়ে গেছেন। তিনি সাম্প্রতিককালে বলেছেন: "এগুলো মধ্যবিত্ত বা নিম্নবিত্ত চাকরি নয়, বরং অত্যন্ত দক্ষতার চাকরি, যেগুলোকে — আমি এই শব্দটি নিয়ে ভাবছি — এজেন্টিক এআই স্বয়ংক্রিয়ভাবে প্রতিস্থাপন করছে।"
বিভিন্ন বেঞ্চমার্ক পরীক্ষা এই বিবেচনাকে সমর্থন করছে। নতুন প্রজন্মের মডেলগুলি নিয়মিত প্রকাশিত হওয়ার সাথে সাথে, মডেলের ক্ষমতার মাপদণ্ডগুলি প্রায় সূচকীয় হারে বৃদ্ধি পাচ্ছে। Humanity's Last Exam নামক এই গ্র্যাজুয়েট লেভেলের যুক্তিসঙ্গত পরীক্ষায়, শীর্ষস্থানীয় মডেলগুলির স্কোর এক বছর আগে একক অঙ্কের নিচে থাকলেও, এখন প্রায় 44% এ পৌঁছেছে। GDPval-এর মতো পরীক্ষায়, যা সবচেয়ে উন্নত মডেলগুলির বাস্তব অর্থনৈতিক কাজ সম্পাদনের ক্ষমতা এবং মানবিক পারফরম্যান্সের তুলনা করে, মডেলগুলির স্কোরও পূর্বের অবস্থানের তুলনায় প্রায় 85% এ উঠেছে। 2024 সালের মে মাসে, AI সুরক্ষা গবেষণা অলাভজনক সংস্থা METR Claude Mythos-এর প্রাথমিক পরীক্ষার ফলাফল প্রকাশ করে: কিছু মানব বিশেষজ্ঞদের 4 ঘণ্টা লাগে এমন কাজগুলিতে, এই মডেলটি 80% সফলতা অর্জন করেছে।
এখন মনে হচ্ছে, আমরা একটি সীমান্তের সামনে দাঁড়িয়েছি: একটি এআই যা যেকোনো মানুষের চেয়ে বেশি বুদ্ধিমান এবং প্রায় একদিন ধরে স্বাধীনভাবে কাজ করতে পারে, তা বাস্তবের দিকে এগিয়ে যাচ্ছে।
তবে, প্যারাডক্সটি এখনও বিদ্যমান। যদি আপনি এআই শিল্পের কর্মীদের সাথে বা এআই ব্যবহার করা প্রথম বাহ্যিক ব্যক্তিদের সাথে কথা বন্ধন, আপনি আমাদের অভ্যন্তরীণ পর্যবেক্ষণের সাথে একই সিদ্ধান্তটি শুনতে পাবেন: করার কাজটি আগের চেয়ে বেশি।
বাইরের ও ভিতরের বাস্তবিক চিন্তা হলো: এটি কি শুধু একটি স্থানান্তর অবস্থা? পরবর্তী মডেল প্রকাশের সময়, কি সেই মুহূর্ত আসবে যখন সবাইকে প্রতিস্থাপন করা হবে? আমরা বেঞ্চমার্ক বক্ররেখার দিকে তাকিয়ে থাকি, উত্তেজিত এবং উদ্বিগ্ন, এমন একটি মোড়ের জন্য ভয় পাই যখন অসংখ্য কাজ হঠাৎ করেই অদৃশ্য হয়ে যাবে।
কিন্তু আমি মনে করি, এমন কোনো «সীমান্ত বিন্দু» হঠাৎ আসবে না যা সবকিছুকে একসাথে উল্টে দেবে এবং কাজের ব্যাপক অপসারণ ঘটাবে। নতুন বাস্তবতা ঠিক বিপরীত: যত বেশি স্বয়ংক্রিয়করণ হবে, মানুষের বিশেষজ্ঞদের সম্পৃক্ততা প্রয়োজন হবে তত বেশি।
কারণ হলো, এআই মানুষের পেশাদার দক্ষতার সেই অংশগুলিকে কমোডিটি হিসেবে পরিণত করছে যেগুলি স্পষ্টভাবে প্রকাশ করা, প্রশিক্ষিত এবং পুনরায় প্রতিলিপি করা যায়। যে জ্ঞানগুলি নিয়মে লেখা যায়, প্রক্রিয়াতে স্থায়ীভাবে রূপান্তরিত হয়, এবং প্রশিক্ষণ ডেটাতে রূপান্তরিত হয়, সেগুলি ধীরে ধীরে মডেলের ডিফল্ট ক্ষমতা হয়ে উঠবে। ফলাফলস্বরূপ, সাধারণ মডেলের আউটপুটের মূল্য দ্রুত কমে যাচ্ছে, এবং বাজারটি এখন আরও বেশি করে অন্যরকম জিনিসের প্রয়োজনীয়তা অনুভব করছে।
এবং "ভিন্ন" প্রয়োজনীয়তা মূলত মানব বিশেষজ্ঞের প্রয়োজনীয়তা। যদিও আমরা সাধারণ কৃত্রিম বুদ্ধিমত্তার দিকে এগিয়ে যাচ্ছি, এটি অদৃশ্য হবে না।
কারণটি বুঝতে শুধু বেঞ্চমার্ক বক্ররেখা দেখা বা মডেল প্যারামিটার এবং ক্ষমতা র্যাঙ্কিংয়ের দিকে মনোযোগ দেওয়া যথেষ্ট নয়। আমাদের বাস্তব কাজের পরিস্থিতিতে ফিরে যেতে হবে এবং আজকের AI কীভাবে ব্যবহৃত হচ্ছে তা দেখতে হবে। শুধু এভাবেই আমরা এই প্যারাডক্সটি এবং এর পিছনের উত্তরটি সত্যিকারভাবে বুঝতে পারব।
আমরা এই পর্যায়ে কিভাবে এসেছি
2022 থেকে, আমরা এজেন্টের ভবিষ্যতের কাজের উপর প্রভাব নিয়ে দৃষ্টি রাখছি।
তিন বছর আগে, আমি একটি 'বণ্টন অর্থনীতি' (allocation economy) সম্পর্কে একটি নিবন্ধ লিখেছিলাম। সেই সময় আমার মনে হয়েছিল, AI টুলগুলির সাথে সহযোগিতা করা শেষ পর্যন্ত মানুষের পরিচালকদের কাজের মতো হয়ে উঠবে: আপনি প্রতিটি কাজ নিজে করবেন না, বরং কাজগুলি বিভক্ত, বণ্টন, পর্যবেক্ষণ এবং গ্রহণ করবেন। সেই সময়, ChatGPT-এর সবচেয়ে বেসিক প্রশ্ন-উত্তরগুলি এখনও অনেকের জন্য অত্যন্ত ভবিষ্যতবাদী, এমনকি কিছুটা অস্বস্তিকর বলে মনে হচ্ছিল।
2025 এর মধ্যে, Every কোম্পানিটি প্রায় সম্পূর্ণরূপে "Claude Code"-এ রূপান্তরিত হয়ে যায়। Cora-এর জেনারেল ম্যানেজার Kieran Klaassen হঠাৎ করে বুঝতে পারেন যে তিনি হাতে লেখা কোড ছেড়ে দিয়ে প্রতিদিন টার্মিনালে একটি প্রোগ্রামিং এজেন্টকে প্রাকৃতিক ভাষায় নির্দেশ দিতে পারেন। এই কাজের পদ্ধতি দ্রুত সম্পূর্ণ কোম্পানিতে ছড়িয়ে পড়ে। প্রায় 12 মাস আগে, আমি Lenny-এর Podcast-এ বলেছিলাম যে Claude Code হল জ্ঞানভিত্তিক কাজের সবচেয়ে অবহেলিত টুল।
আমি এগুলি উল্লেখ করছি, কারণ আমাদের অতীতের কিছু সবচেয়ে সঠিক বিচার হয়েছিল Every-কে একটি প্রাথমিক গ্রহণকারী পরীক্ষাগার হিসাবে পর্যবেক্ষণ করে। অনেক নতুন কাজের পদ্ধতি প্রথমে আমাদের অভ্যন্তরীণভাবে দেখা যায়; যখন প্রযুক্তি আরও পরিপক্ক হয় এবং সরঞ্জামগুলি আরও ব্যবহারযোগ্য হয়ে ওঠে, তখনই এই পদ্ধতিগুলি ধীরে ধীরে ব্যাপক বাজারে প্রবেশ করে।
এবং এখন, আমাদের অভ্যন্তরে নতুন পরিবর্তন ঘটছে।
এজেন্টের সাথে কাজ করার দুটি মোড
এআই কিভাবে কাজ করে তার চারপাশে ধীরে ধীরে দুটি সম্পূর্ণ ভিন্ন মডেলে সংকুচিত হচ্ছে।
প্রথমটি হল আগের এআই আলোচনায় যে দিকটি প্রায় সঠিকভাবে পূর্বানুমান করা হয়েছিল: এজেন্টকে কর্মচারী হিসাবে বিবেচনা করা। এই ধরনের এজেন্টকে কাজ দেওয়া যায়। কিছু এজেন্ট Slack-এ থাকে, তাদের নিজস্ব নাম এবং দায়িত্ব রয়েছে, যখন আপনি তাদের কাজ করতে চান, তখন আপনি সরাসরি @ করতে পারেন; আবার কিছু এজেন্ট ধারাবাহিকভাবে চলমান কাজের প্রবাহের মধ্যে এমবেডড থাকে, যেমন গ্রাহক সহায়তা সিস্টেম, যা পুনরাবৃত্তিমূলক কাজের জন্য ২৪/৭ ইনপুট এবং ফিল্টার হিসাবে কাজ করে।
দ্বিতীয় মডেলটি অপরিচিত হলেও, আমার অভিজ্ঞতায় এটি আরও গুরুত্বপূর্ণ। এটি Codex, Claude Code, Claude Cowork এর মতো টুলগুলিতে মানুষ এবং এজেন্টের সহযোগিতাকে বোঝায়। এই টুলগুলি শুধুমাত্র আপনার কাজ বাইরে পাঠানোর জায়গা নয়, এগুলি কাজের নিজস্ব অপারেটিং সিস্টেম হয়ে উঠছে: আপনি একসাথে একাধিক এজেন্টের সাথে একই «কম্পিউটার» ব্যবহার করছেন, একই কাজের পরিবেশে সহযোগিতা করছেন, এবং অত্যন্ত জটিল, মৌলিক এবং অ্যাসিঙ্ক্রোনাস এজেন্টকে সহজেই দেওয়া যায় না এমন কাজগুলি সম্পন্ন করছেন।
এই দুটি মোডের মধ্যে যেকোনো একটিতে, আপনি এআই ব্যবহার করে প্রায় সমস্ত কাজ স্বয়ংক্রিয়ভাবে এবং অন্যদের দ্বারা বিনিয়োগ করতে পারেন। কিন্তু এই দুটি মোডের মধ্যে যেকোনো একটি সঠিকভাবে কাজ করতে, আপনার বা অন্য কোনো মানুষের অংশগ্রহণ প্রয়োজন।
কর্মচারী
এজেন্ট কর্মচারী হল যে কোনো কিছু যা আপনি একটি কাজ দিয়ে দেন, এটি আপনার বাস্তবসময়ের অংশগ্রহণ ছাড়াই একটি উত্তর, একটি কার্যক্রম, একটি প্রতিবেদন, একটি প্রাথমিক খসড়া, বা একটি বিভাজন সিদ্ধান্ত উত্পাদন করে।
এই ধরনের এজেন্টের কমপক্ষে দুটি রূপ রয়েছে: একটি হল «সহকর্মী-ধরনের এজেন্ট» এবং অন্যটি হল «এমবেডেড এজেন্ট»।
1. সহকর্মী ধরনের এজেন্ট
সহকর্মী ধরনের এজেন্ট বলতে বোঝায় যে আপনি স্ল্যাকে একজন সহকর্মীকে @ করার মতো করে এটিকে ডাকতে পারেন, যাতে এটি কোনো কাজ সম্পন্ন করতে পারে। এটি সবসময় উপলব্ধ থাকে এবং প্রয়োজনে এটিকে কল করা যায়। OpenClaw-এর মতো পণ্য বা আমাদের অভ্যন্তরীণভাবে বিকশিত Plus One এই ধরনের।
ক্লাউডি
ক্লাউডি আমাদের পরামর্শ দল দ্বারা ব্যবহৃত একটি সহকারী এজেন্ট। এটি বিক্রয় প্রস্তাব লিখে, প্রশিক্ষণ উপকরণের প্রাথমিক খসড়া তৈরি করে, প্রকল্পের কাজের তালিকা ট্র্যাক করে এবং এই ধরনের আরও অনেক কাজ সম্পাদন করে।

অ্যান্ডি
অ্যান্ডি হল আমাদের সম্পাদকীয় দল দ্বারা ব্যবহৃত একটি কলিগ-টাইপ এজেন্ট। এটি কোম্পানির অভ্যন্তরীণ স্ল্যাক থেকে সেই সেই 'সূত্র পয়েন্ট'গুলি সংগ্রহ করে — যেগুলি সম্ভাব্য নিবন্ধে পরিণত হওয়ার জন্য উপযুক্ত — এবং এগুলিকে সারসংক্ষেপ এবং প্রাথমিক মতামতের রূপে সাজায়, যা লেখকদের দৈনিক সংবাদ বুলেটিন লেখার জন্য ব্যবহার করতে হয়।

ভিক্টর
ভিক্টর একটি সাধারণ এজেন্ট যিনি কোম্পানির ভিতরে বিভিন্ন বিভাগের কাজ পরিচালনা করবেন। আমরা তাঁকে বৃদ্ধির সূচকগুলি সংগ্রহ করতে, ব্যবহারকারী গবেষণার ফলাফল বিশ্লেষণ করতে এবং অস্পষ্ট অভ্যন্তরীণ আলোচনাগুলিকে গবেষণা মেমো এবং পণ্য পরামর্শে সাজাতে ব্যবহার করব।

2, এম্বেডেড এজেন্ট
এম্বেডেড এজেন্টগুলি নির্দিষ্ট পণ্য প্রবাহের মধ্যে বিদ্যমান। তাদের সহকর্মী এজেন্টের তুলনায় নমনীয়তা কম, কিন্তু পুনরাবৃত্তিমূলক কাজগুলি পরিচালনা করার সময় তারা প্রায়শই খুব শক্তিশালী হয়।
Fin হল সবচেয়ে স্পষ্ট উদাহরণ। এটি আমাদের কাস্টমার সাপোর্ট প্ল্যাটফর্মে এমবেড করা একটি এজেন্ট, যা চ্যাট এবং ইমেইলের মাধ্যমে বড় পরিমাণ কাস্টমার সাপোর্ট কাজ পরিচালনা করতে পারে।
বছরের মে মাসের এক সপ্তাহে, ফিন প্রতিটির ২০২টি কাস্টমার সাপোর্ট কথোপকথনের ৬৫% এ অংশগ্রহণ করেছিল এবং মানব হস্তক্ষেপ ছাড়াই ৮১টি টিকেট স্বাধীনভাবে বন্ধ করেছিল, যা সমস্ত প্রক্রিয়াকরণযোগ্য কথোপকথনের ৪০.১%।
এই এম্বেডেড এজেন্টগুলি আমাদের কাস্টমার সার্ভিস ম্যানেজার ওয়াক্কাস মিরকে বেসিক টিকেটের উত্তর দিতে কম সময় ব্যয় করতে দেয়, যাতে তিনি “টিকেটের উত্তর স্বয়ংক্রিয়ভাবে দেওয়ার সিস্টেম” তৈরি এবং বেশি সংস্পর্শ এবং জটিল বিচারের প্রয়োজন হওয়া কাস্টমার কেসগুলির সাথে কাজ করতে বেশি মনোযোগ দিতে পারেন।
মানুষ এবং এআইয়ের সহযোগিতা
সহকারী এজেন্ট বা এম্বেডেড এজেন্ট, উভয়ের পিছনেই একই প্যাটার্ন রয়েছে: এজেন্ট কর্মচারীরা বেশি স্থিতিশীল, পুনরাবৃত্তিমূলক এবং স্পষ্ট সীমানা সহ কাজের স্তরগুলি নিয়ে নিচ্ছে।
তবে এখনও অনেক কাজ মানুষের হাতে থাকা প্রয়োজন। আমরা বারবার দেখেছি যে, যতটা কাজ জটিল হয়, প্রকৃত উচ্চ মানের ফলাফল পেতে সেটিকে শুধুমাত্র AI-এর উপর ছেড়ে দেওয়ার চেয়ে AI এবং মানুষকে একই কাজের জায়গায় পরস্পরের সাথে সহযোগিতা করতে দেওয়াই সবচেয়ে ভালো উপায়।
এটিই Codex, Claude Code এবং Cowork এর মতো টুলগুলির মূল্য। এগুলি আপনাকে এক বা একাধিক এজেন্টকে একাধিক চ্যাট থ্রেডে শুরু করতে এবং কাজগুলি তাদের দিয়ে দিতে সক্ষম করে। এই এজেন্টগুলি আপনার কম্পিউটার এবং সমস্ত সংশ্লিষ্ট ডেটা সোর্সে অ্যাক্সেস করতে পারে। আপনি দেখতে পাবেন প্রতিটি এজেন্ট কী কাজ করছে, কীভাবে চিন্তা করছে, এবং যেকোনো সময় এটিকে বন্ধ করতে পারবেন।
এর মধ্যে, আপনাকে এই এজেন্টগুলি পরিচালনা করতে হবে: প্রতিটি কাজ শুরুর সময় দিকনির্দেশনা প্রদান করুন, কাজ শেষে গুণগত মান পরীক্ষা করুন, ফলাফল যথেষ্ট ভালো কিনা তা নিশ্চিত করুন, এবং পরবর্তী যোগ্য কাজটি খুঁজে বের করুন। কিয়ারেন এই ভূমিকাকে মানুষের “স্যান্ডউইচ” হিসাবে নামকরণ করেছেন—AI মধ্যবর্তী কাজগুলি সম্পাদন করে, এবং মানুষ কাজের শুরু এবং শেষে দুটি ব্রেডের মতো জড়িয়ে থাকে।

"মানুষের স্যান্ডউইচ"। উৎস: Every।
সবচেয়ে স্পষ্ট উদাহরণ হল কোড লেখা। প্রতিদিন, ইঞ্জিনিয়াররা প্রায় সম্পূর্ণ দিনটি Agent-এর সাথে সহযোগিতা করে। তারা একসাথে নতুন ফিচার পরিকল্পনা করে বা বাগ ঠিক করে, সম্পন্ন কাজগুলি রিভিউ করে; যদি আমরা যা বলি তা হল “কম্পাউন্ড ইঞ্জিনিয়ারিং” ধারণা, তবে তারা নিজেদের সিস্টেমকে সময়ের সাথে সাথে আরও বেশি ব্যবহারযোগ্য করে তোলার জন্য নিয়মিত অপটিমাইজ করে।
কিন্তু এই সহযোগিতার পদ্ধতি কোডিং এর বাইরেও বিস্তৃত।
নতুন অপারেটিং সিস্টেম জ্ঞান কাজের জন্য
কোডেক এবং ক্লড কোড একটি নতুন কাজের অপারেটিং সিস্টেম হয়ে উঠছে। আমি প্রায় সারাদিন কোডেকের ভিতরে থাকি, এর বিল্ট-ইন ব্রাউজারের মাধ্যমে বিভিন্ন SaaS টুল চালাই। এটি আমাকে প্রতিটি কাজের পরিস্থিতিতে এজেন্টকে নিয়ে যেতে দেয় এবং একা আমি যা অর্জন করতে পারতাম না, তা অর্জন করতে দেয়।
লেখা
আমি এই নিবন্ধটি Codex-এর অন্তর্নির্মিত ব্রাউজারে Proof ব্যবহার করে লিখেছি। Codex আমি যা লিখছি তা পর্যবেক্ষণ করে এবং যেকোনো কাজ সম্পন্নের জন্য সময়ের সাথে একটি সাব-এজেন্ট শুরু করতে পারে: কোনো অংশের প্রাথমিক খসড়া তৈরি করা, পরবর্তী অংশের জন্য উদাহরণ খোঁজা, বা লেখা সম্পাদনা ও উন্নত করা।

কোডেক্সে প্রুফ দিয়ে এই লেখাটি লিখুন। উৎস: এভারি।
ইমেইল
ইমেইল প্রক্রিয়াকরণের সময় আমি একই পদ্ধতি অনুসরণ করি। কোরা আমার ইমেইল ক্লায়েন্ট, আমি এটিকে কোডেক্সের অন্তর্নির্মিত ব্রাউজারে খুলি, এবং প্রতিটি ইমেইলের প্রক্রিয়াকরণের ধারণা মনোলোগের মাধ্যমে বলে বের করি। বাকি কাজগুলি কোডেক্স এবং কোরার উপর ছেড়ে দেওয়া হয়।

কোরা দ্বারা সম্পন্ন একটি ইনবক্স পরিষ্কার। উৎস: Every।
প্রতিটি এজেন্টের জন্য একজন মানুষ প্রয়োজন
উপরের সমস্ত অটোমেশন স্কেনারিওগুলিতে, আপনি হয়তো দেখতে পাচ্ছেন যে মানুষ কোথায় ভূমিকা পালন করে। প্রতিটি উদাহরণে, এজেন্টের জন্য মানুষের অংশগ্রহণ ছাড়া কাজটি প্রকৃতপক্ষে চলমান থাকতে পারে না।
কেউ না কেউ এটিকে সঠিক প্রশ্নের দিকে নিয়ে যাবে, আউটপুটটি যথেষ্ট ভালো কিনা তা মূল্যায়ন করবে, এর মধ্যে ভুলগুলি খুঁজে বার করবে এবং ফলাফলগুলিকে বাস্তবের সিদ্ধান্ত বা প্রক্রিয়ায় রূপান্তরিত করবে।
একটি এজেন্ট যত বেশি তার পারফরম্যান্স পর্যবেক্ষণকারী মানুষ থেকে দূরে থাকে, তত বেশি এটির কাজের ফলাফল খারাপ হয়। প্রাথমিক অভ্যন্তরীণ প্রচারে, আমরা প্রতিটি কর্মচারীকে একটি এজেন্ট দিয়েছিলাম। কিন্তু শীঘ্রই, আমরা আবার ফিরে এসেছি—এজেন্টগুলিকে একটি নির্দিষ্ট দলের বা সমগ্র কোম্পানির জন্য সেবা প্রদানের জন্য, একক ব্যক্তির জন্য নয়।
কারণটি খুব সহজ: এজেন্টগুলির জন্য ব্যাপক রক্ষণাবেক্ষণ প্রয়োজন। একটি ব্যক্তিগত এজেন্ট যদি ব্যবহারকারী তা পর্যবেক্ষণ করা বন্ধ করে দেয়, তাহলে এটি দ্রুত পুরনো এবং অকার্যকর হয়ে যায়। আমাদের একটি AI ইঞ্জিনিয়ার দল রয়েছে যারা এই এজেন্টগুলির স্থিতিশীল এবং কার্যকরভাবে কাজ করার নিশ্চয়তা দেয়। ভবিষ্যতের জন্যও, আমাদের এই দলটির প্রয়োজন হবে। এমনকি “স্বয়ংক্রিয়ভাবে PowerPoint তৈরি” এর মতো সহজ মনে হওয়া কাজও একটি বিশাল সিস্টেম-ইঞ্জিনিয়ারিং প্রকল্পে পরিণত হতে পারে। আমাদের একটি PowerPoint অটোমেশন প্রক্রিয়ায় 24টি দক্ষতা এবং 18টি স্ক্রিপ্ট রয়েছে, যা একটি প্রেজেন্টেশন তৈরির জন্য 62 ডলার token খরচ করে।
এটি এজেন্টের কারণে মানুষের জন্য আরও বেশি কাজ তৈরি হওয়ার প্রথম কারণ।
কিন্তু দ্বিতীয় স্তরের কারণও আছে।
কেন স্বয়ংক্রিয়করণ মানুষের কাজ বাড়ায়
যদি আপনি গত কয়েক বছরের এআই ক্ষমতার সূচকীয় বৃদ্ধি পর্যবেক্ষণ করেন এবং এর আর্কিটেকচার এবং ক্ষমতার উৎসের সাথে এটিকে সংযোগ করেন, তাহলে একটি স্পষ্ট ফিডব্যাক লুপ দেখতে পাবেন: এগুলি নিয়মিত আরও বেশি মানুষের কাজ তৈরি করছে।
এআই করে তুলেছে "গতকালের মানুষের ক্ষমতা" সস্তা
বর্তমান বড় ভাষা মডেলগুলি মানুষের ক্ষমতা দ্বারা রেখে যাওয়া দৃশ্যমান ছাপগুলির উপর প্রশিক্ষিত: কোড, নিবন্ধ, চিত্র, কাস্টমার সাপোর্ট টিকেট, পণ্য স্পেসিফিকেশন ডকুমেন্ট, এবং আরও অনেক কিছু। এগুলি এই বিষয়বস্তুগুলি—যেগুলি ইতিমধ্যেই সফলভাবে সম্পন্ন কাজের পরিণতি—কে শোষণ করে এবং একটি কম খরচে, সকলের জন্য উপলব্ধ ফরম্যাটে পুনরায় প্যাকেজ করে।
ফলাফল হলো, কোডের প্রোপোজাল প্রেরণ করা, একটি ইউটিউব থাম্বনেইল তৈরি করা, একটি নিউজলেটার লেখা এর মতো অতীতে দুর্লভ দক্ষতাগুলি এখন প্রায় সবার জন্য উন্মুক্ত।
অল্প খরচের ক্ষমতা দ্রুত গ্রহণ করা হবে
যখন কোনো কিছুর খরচ কমে যায় যা আগে দুর্লভ ছিল, তখন সরবরাহ দ্রুত বৃদ্ধি পায়।
প্রতিটি ক্ষেত্রে, আমরা এই পরিবর্তনটি দেখেছি। অপারেশন এবং কাস্টমার সাপোর্টের লোকেরা কোড লিখতে শুরু করেছে, পুল রিকোয়েস্ট জমা দিচ্ছে; মার্কেটিংয়ের লোকেরা YouTube থাম্বনেইল তৈরি করতে শুরু করেছে; ইঞ্জিনিয়ার এবং পণ্যের লোকেরা নিজেদের সাধারণত গ্রহণ করবেন না এমন আর্টিকেল, গাইড এবং ল্যান্ডিং পেজের প্রথম খসড়া লিখতে শুরু করেছে।
এই পরিবর্তনটি Every-এর বাইরেও ঘটছে। ওপেন সোর্স এআই এজেন্ট প্রকল্প OpenClaw-এর উদাহরণ দেওয়া যাক, ২০২৬ সালের ১৬ মে পর্যন্ত এর কোড রিপোজিটরিতে ৪৪,৪৬৯টি পুল রিকোয়েস্ট জমা হয়েছে, যার মধ্যে ১২,৪৩০টি ১ এপ্রিলের পরে এবং ৩,৯৯০টি ১ মের পরে। এটি একটি অবিশ্বাস্য সংখ্যা। একটি তুলনায়, Kubernetes-এর মতো বিশ্বব্যাপী জনপ্রিয় ওপেন সোর্স প্রকল্পগুলির মধ্যে একটি ২০২২ সালের মধ্যে মাত্র ৫,২০০টি পুল রিকোয়েস্ট পেয়েছিল।
সমৃদ্ধি সমানীকরণ আনে: পুরনো বিশেষজ্ঞদের দক্ষতা কমোডিটি হয়ে যায়
যেহেতু সবাই একই মডেল ব্যবহার করে, এবং এই মডেলগুলি সবসময় «গতকালের মানুষের ক্ষমতা»-এর উপর ভিত্তি করে তৈরি, তাই ডিফল্টভাবে মডেলগুলি উত্পাদন করে থাকে «ভালো শুরু» এবং «শুধুমাত্র AI-এর বর্জ্য কন্টেন্ট»-এর মধ্যবর্তী কিছু।
এখানে উল্লিখিত “স্প্যাম কন্টেন্ট” কোনো নির্দিষ্ট ভুল নয়। এটি অতিরিক্ত ড্যাশ ব্যবহার, কোনো নির্দিষ্ট বাক্য গঠন বা ল্যান্ডিং পেজে বিচ্ছুরিত বেগুনি ডিজাইন নয়। এটি একটি চোখে ধরা পড়ে, পুনরাবৃত্তি হওয়া, ক্লান্তিকর সমানতা নির্দেশ করে।
যখন বিভিন্ন পরিস্থিতিতে মানুষ একই সেটের টুলস ব্যবহার করে, এবং এই টুলসগুলি একই ধরনের কর্পাসে প্রশিক্ষিত হয়, এবং ব্যবহারকারীরা যথেষ্ট গভীরভাবে বিচার করে না, তখনই এই ফলাফলটি ঘটে। অন্যভাবে বললে, যখন প্রত্যেকেরই একই প্রবণতা এবং ডিফল্ট স্টাইলের একটি 'বিশেষজ্ঞ' থাকে, তখন সমানীকরণ স্বাভাবিকভাবেই ঘটে।
যখন অপারেশন টিম পুল রিকোয়েস্ট জমা দিতে পারে, মার্কেটিং টিম কয়েক সেকেন্ডের মধ্যে ইউটিউব থাম্বনেইল তৈরি করতে পারে এবং ইঞ্জিনিয়াররা পণ্য গাইড লিখতে শুরু করে, তখন এমন পরিস্থিতি দেখা দেয় যেখানে আপনার আউটপুটের পরিমাণ বাড়ে, কিন্তু কাজের গুণগতমান, সামঞ্জস্যতা এবং পার্থক্য কমে যায়।
যখন সমানীকরণ অত্যধিক পরিমাণে প্রচুর হয়ে পড়ে, তখন তা দ্রুত পণ্যে পরিণত হয়ে যায়।
সমানতা বিভিন্নতার প্রয়োজনীয়তা সৃষ্টি করে
ইন্টারনেটের কারণে মানুষ শীঘ্রই চিনে ফেলবে কী ধরনের কনটেন্টে বেশি এআই স্বাদ আছে। যেকোনো কাজ প্রায়ই বিশ্বের অন্যান্য মানুষের কাছে মুহূর্তে পৌঁছে যায়। যখন অনেক জিনিস একইভাবে দেখতে শুরু করবে, আমরা শীঘ্রই অসামঞ্জস্যতা বুঝতে পারব।
এর অর্থ হলো, যখন আপনি প্রথমবারের মতো কোনো নতুন মডেলের ক্ষমতা দেখেন, তখন আপনি আশ্চর্যচিত বা একটু ভয় পেতে পারেন। কিন্তু কয়েক মাস পরে, এই ক্ষমতাগুলি সাধারণ হয়ে যায়। মডেলটি দুর্বল হয়ে যায়নি, বরং আপনার মানদণ্ড পরিবর্তিত হয়েছে।
আমরা শুধু কোনো রিয়েক্ট অ্যাপ্লিকেশন বা কোনো সাধারণ গবেষণা প্রতিবেদনের সাথে সন্তুষ্ট হই না। আমরা চাই এমন কিছু যা প্রতিটি ব্যক্তি, প্রতিটি কোম্পানি, প্রতিটি পরিস্থিতির জন্য প্রকৃতপক্ষে অভিযোজিত। এটি যেন সঠিক, জীবন্ত এবং নির্দিষ্ট মনে হয়, কখনও কখনও সস্তা, সাধারণীকৃত বা টেমপ্লেটযুক্ত নয়। আমরা চাই এর উৎপাদন খরচ—যেমন সময় বা অর্থ—স্পষ্টভাবে আমাদের ভোগ খরচের চেয়ে বেশি।
আমরা যা চাই তা হল একটি "স্ট্যাটাস" বিশিষ্ট জিনিস। এবং যখনই নতুন প্রযুক্তি অতীতের উচ্চ স্ট্যাটাসের জিনিসগুলিকে সস্তা করে দেয়, মানুষ সবসময় নতুন ক্ষমতার সীমানা অনুযায়ী নতুন স্ট্যাটাস গেম আবিষ্কার করতে পারে।
যখন কাজ অত্যধিক প্রচুর হয়ে পড়ে এবং সবকিছু একই মতো দেখায়, তখন বিদ্যমান মডেলের বাইরের কাজগুলি দুর্লভ, মূল্যবান এবং উচ্চ মর্যাদার বিষয় হয়ে উঠে।
বিভিন্নতার চাহিদা, মূলত বিশেষজ্ঞদের জন্য নতুন চাহিদা
ভাষা মডেলের আর্কিটেকচারের বৈশিষ্ট্য এবং এগুলির প্রায় সকলের কাছে ব্যাপকভাবে বিতরণের কারণে, দুর্লভ এবং মূল্যবান কাজগুলি এখনও মানুষের কাছ থেকে আসতে হবে।
বর্তমান প্রজন্মের মডেলগুলি শুধুমাত্র যা ঘটেছে এবং সম্পন্ন হয়েছে তাই জানে। মানুষ জানে: এই মুহূর্তে ঠিক কী করা দরকার।
একটি নির্দিষ্ট পরিস্থিতি যখন পাঠ্যে রূপান্তরিত হয়, যখন এটি কর্পাসে প্রবেশ করে, তখন এটি ইতিমধ্যেই 'অতীতের জিনিস' হয়ে যায়। মানুষ একটি নির্দিষ্ট মুহূর্ত, একজন নির্দিষ্ট গ্রাহক, একটি নির্দিষ্ট কোডবেস, একটি নির্দিষ্ট কথোপকথনের সামনে দাঁড়ায়, যেখানে প্রশিক্ষণ কর্পাসটি এই বর্তমানে প্রকৃতপক্ষে বাস করে না। এই 'বাস' অবস্থা শুধুমাত্র আপডেটযুক্ত ডেটা থাকা দিয়েই সীমাবদ্ধ নয়। আমরা নিজেদের উৎসসহ বর্তমানে প্রবেশ করি, এবং নিয়মিত পরিবর্তনশীল ইচ্ছা, চিন্তা এবং বিচারসহ, কী গুরুত্বপূর্ণ তা বুঝতে। এই নিয়মিত আপডেটযুক্ত দৃষ্টিভঙ্গিরই কারণেই আমরা যা দেখি, তা পরিবর্তিত হয়। মডেলটি প্রম্পটের পরে এই দৃষ্টিভঙ্গির মধ্যে প্রবেশ করতে পারে, কিন্তু প্রম্পটের আগে, এটি সহজেই এই দৃষ্টিভঙ্গিরইধারক নয়।
এটিই আমরা প্রথমে উল্লেখ করেছিলাম এমন প্যারাডক্স: বিশেষজ্ঞদের কাজকে সস্তা করা শুধুমাত্র বিশেষজ্ঞদের প্রতিস্থাপন করবে না। বরং, এটি বিশেষজ্ঞদের বিচারের প্রয়োজনীয়তা সহ আরও বেশি পরিস্থিতি তৈরি করবে।
যখন অপারেটররা AI ব্যবহার করে পুল রিকোয়েস্ট জমা দেয়, তখন আপনার ইঞ্জিনিয়ারদের পরীক্ষা করার প্রয়োজন হয়।
যখন মার্কেটিং টিম YouTube থাম্বনেইল তৈরি করে, তখন আপনার ডিজাইনারদের আরও পরিশীলিত করার প্রয়োজন হয়।
যখন প্রকৌশলীরা নিবন্ধ লেখা শুরু করে, তখন আপনাকে লেখক এবং সম্পাদকদের প্রাথমিক খসড়াকে প্রকৃতপক্ষে পড়ার যোগ্য এবং প্রকাশযোগ্য কনটেন্টে পরিণত করতে হবে।
এই ক্ষেত্রে, মানুষের বিশেষজ্ঞরা একসাথে দুই দিকে সরে যাবেন।
কিছু বিশেষজ্ঞ এই নতুন কাজের প্রবাহকে শোষণ এবং ব্যবহার করার জন্য এআই ব্যবহার করেন: পর্যালোচনা কিউ, মূল্যায়ন সিস্টেম, রানিং ফ্রেমওয়ার্ক, কোডবেস নিয়ম, Claude এবং Codex নির্দেশনা ফাইল, কন্টিনিউয়াস ইন্টিগ্রেশন (CI), অ্যাক্সেস ম্যানেজমেন্ট, এবং ড্রাফটকে উচ্চমানের ফলাফলে রূপান্তরিত করার ওয়ার্কফ্লো।
অন্যদিকে, অন্য কিছু বিশেষজ্ঞ এআই-এর সহায়তায় অতীতে নিজেদের কেবলমাত্র দ্বারা অসম্ভব ছিল এমন বড় এবং আকর্ষক কাজগুলি সম্পন্ন করছেন। উদাহরণস্বরূপ, macOS এর মতো অপারেটিং সিস্টেমের ভাঙ্গন খুঁজে বার করা সাধারণত কয়েক সপ্তাহ বা কয়েক মাস সময় নেয়। তবে, একটি ছোট সুরক্ষা কোম্পানি Califf, Anthropic-এর Mythos Preview-এর সহায়তায়, Apple M5 হার্ডওয়্যারে macOS কার্নেল মেমোরি ভাঙ্গনটি ৫ দিনের মধ্যে প্রথমবারের মতো প্রকাশিত করেছে।
এই কারণে ব্যবহারিকভাবে এআই বিশেষজ্ঞ-ভিত্তিক কাজকে বিলুপ্ত করবে না। এর প্রকৃত প্রভাব হল কাজের পরিমাণের তীব্র বৃদ্ধি। এই নতুন কাজগুলি মানুষের অংশগ্রহণের পরেই পার্থক্যপূর্ণ এবং মূল্যবান হতে পারে।
আমি যুক্তি দিচ্ছি না যে AI সমস্ত চাকরির জন্য আরও চাকরি তৈরি করবে। অর্থনীতি খুব জটিল, এবং Every-এর প্রত্যক্ষভাবে যা দেখা যায়, তা হল বিশেষজ্ঞ-স্তরের জ্ঞানভিত্তিক কাজ। বাস্তবে, এই ধরনের কাজগুলি ইতিমধ্যেই AI দ্বারা পুনর্গঠিত হচ্ছে, এবং অনেক কোম্পানি নতুন প্রযুক্তির চারপাশে নিজেদের পুনর্গঠন করছে।
কিন্তু আমি জোর দিয়ে বলতে চাই যে, আপনি যে কোনও কাজ করছেন, একটি কাজের ফর্ম রয়েছে যা মডেলের চেয়ে গঠনগতভাবে সবসময় এগিয়ে থাকবে: মডেল ব্যবহার করে আপনি এখনই যে সমস্যাগুলি দেখছেন, সেগুলি সমাধান করা। জ্ঞানভিত্তিক কাজের ভবিষ্যৎ এখানেই নিয়ে যাচ্ছে।
তাহলে, সূচকীয় বৃদ্ধির বেঞ্চমার্ক কী?
সবচেয়ে প্রায়শই উল্লেখ করা বিপক্ষ যুক্তি হল: সেই সূচকগুলির সূচকীয় উন্নতি দেখুন। আপনি যা বলছেন, তা শুধুমাত্র স্থায়ী, কিছুক্ষণ অপেক্ষা করুন, মডেলগুলি অবশ্যই অনুসরণ করবে।
কিন্তু এখানে একটি ফাঁদ রয়েছে যার প্রতি সতর্ক থাকতে হবে। এটিকে আপনি «গ্রাফ ম্যানিয়া» বলতে পারেন: যদি আপনি METR-এর সময়কাল পূর্বানুমানের দিকে চোখ রাখেন, AI 2027 পড়েন, এবং ভবিষ্যতের জন্য আপনার বিচার করতে শুধুমাত্র ক্ষমতা বক্ররেখার বহির্বিস্তারের উপর নির্ভর করেন, তাহলে আপনি খুব সহজেই মডেলের উন্নতির প্রতি ভয়ঙ্কর একটি সংবেদনশীলতা অর্জন করতে পারেন।
তবে, এই প্রশ্নের সেরা উত্তর শুধুমাত্র কোনো ভবিষ্যতের মডেল কীভাবে পরিণত হবে তা কল্পনা করার মধ্যে নয়। অবশ্যই, এটি বিশ্লেষণের একটি অংশ। আরও গুরুত্বপূর্ণ বিষয় হলো, আমাদের দেখতে হবে যে এই বেঞ্চমার্কগুলি কীভাবে ডিজাইন করা হয়েছে। শুধু এভাবেই আমরা বুঝতে পারবো যে এগুলি সত্যিকারের কী বলছে, এবং এগুলির সাথে আগের বাস্তব কাজের পরিস্থিতির মধ্যে কী সম্পর্ক।
আমরা একটি গঠনগত বৈশিষ্ট্য দেখতে পাই: সমস্ত বেঞ্চমার্ক কোনও একটি «ফ্রেমওয়ার্ক»-এর মধ্যেই ঘটে। কিছু মাপতে হলে, আপনাকে অবশ্যই একটি প্রশ্নকে স্থির, পরিমাপযোগ্য আকারে জমানো লাগে। একবার এই ফ্রেমওয়ার্কটি মডেল দ্বারা সমাধান হয়ে গেলে, শুধুমাত্র ফ্রেমওয়ার্কটি কিছুটা পরিবর্তন করলেই আবার স্কোরটি নিচুতে ফিরিয়ে আনা যায়। অবশ্যই, মডেলটি নতুন ফ্রেমওয়ার্কের মধ্যেও এগিয়ে যাবে, কিন্তু একই প্রক্রিয়াটি বারবার পুনরাবৃত্তি হবে।
অতএব, কোনো বেঞ্চমার্কে সূচকীয় উন্নতি বাস্তবিক; কিন্তু শুধু টেস্ট ফ্রেমওয়ার্কটি পরিবর্তন করলেই এই উন্নতি আবার খুব ছোট মনে হয়। বেঞ্চমার্ক সম্পৃক্ততার এই “ফ্র্যাক্টাল” বৈশিষ্ট্যটি আসলে গ্রাফের স্তরে আমরা যা নিয়ে আলোচনা করছি তারই পুনরাবৃত্তি।
এই কার্যপ্রণালীটি কিভাবে কাজ করে তা দেখতে আমরা একটি বাস্তব জগতের বেঞ্চমার্ক ব্যবহার করতে পারি।
বেঞ্চমার্ক কীভাবে ডিজাইন করা হয়
আমরা একটি বেঞ্চমার্ক তৈরি করেছি, যার নাম Senior Engineer Benchmark, অর্থাৎ 'সিনিয়র ইঞ্জিনিয়ার বেঞ্চমার্ক'। যেমন নামটি থেকে বোঝা যায়, এটি একটি বড় রিফ্যাক্টরিংয়ের মতো সিনিয়র ইঞ্জিনিয়ার লেভেলের কোডিং টাস্কে অগ্রণী মডেলগুলির ক্ষমতা পরীক্ষা করে।
এই টেস্টটি একটি প্রোগ্রামিং এজেন্টকে একটি অনিয়ন্ত্রিত প্রোডাকশন কোডবেস দেবে। এটি Proof-এর বাস্তব কোডবেস থেকে আসা: প্রাথমিকভাবে আমি vibe coding ব্যবহার করে লিখেছিলাম, কিন্তু সমস্যাগুলি ধীরে ধীরে বাড়তে থাকে এবং শেষপর্যন্ত একজন সিনিয়র ইঞ্জিনিয়ারকে ঠিক করতে বলতে হয়।
এজেন্ট মেরামতের আগের কোডবেস পায়, এবং একটি নির্দেশনা পায় যা আপনি উচ্চতর ইঞ্জিনিয়ারকে দেন: «এটি একটি ভাইব কোডিং উৎপাদন, প্রথম নীতি থেকে শুরু করে এটিকে পুনরায় লিখুন।»
এটি একটি ভালো বেঞ্চমার্ক, কারণ এটি শুধু কোড পূরণের ক্ষমতা পরীক্ষা করে না, বরং একটি প্রোগ্রামিং এজেন্টের ক্ষমতা পরীক্ষা করে যে এটি একসাথে অনেকগুলি পরস্পর সম্পর্কহীন সমস্যা পর্যালোচনা করতে পারে কিনা এবং একটি সত্যিকারের চলমান পুনর্লিখন সম্পন্ন করার জন্য নিজের স্বাধীনতা, ধারণাগত স্পষ্টতা এবং বাস্তবায়নের সাহসের পরিমাণ নির্ণয় করতে পারে কিনা। তুলনার জন্য, আমি AI-এর সহায়তায় দুজন মানব উচ্চস্তরের ইঞ্জিনিয়ারের দ্বারা করা পুনর্লিখনের সংস্করণগুলিও রেখেছি, যাতে মডেলের আউটপুটের তুলনা ও মূল্যায়ন করা যায়।
প্রোগ্রামিং এজেন্টের জন্য এই কাজটি কঠিন। এটিকে শুধু সমস্যার মূল কারণ খুঁজে বার করতে হবে না, বরং একাধিক ইন্টারঅ্যাকশনের মধ্যে সর্বদা প্রকৃত সমস্যাটি মনে রাখতে হবে এবং বর্তমান কোডের দ্বারা বিভ্রান্ত হতে হবে না। এছাড়াও, এটিকে বড় কোডবেস মুছে ফেলার সাহসও রাখতে হবে, যা এজেন্টগুলির সাধারণত এড়ানোর জন্য প্রশিক্ষণ দেওয়া হয়।
অধিকাংশ প্রোগ্রামিং এজেন্ট পুনর্লিখন করার উপায়টি প্রায় বুঝতে পারে, কিন্তু বাস্তবায়নের পর্যায়ে, তারা প্রায়শই সমস্যাটি সম্পূর্ণরূপে সমাধান না করে শুধুমাত্র পুরনো সমস্যার উপর প্যাচ লাগিয়ে চলে।
GPT-5.5 আসা পর্যন্ত।
সর্বোত্তম পরীক্ষায়, GPT-5.5 100-এর মধ্যে 62 পেয়েছিল, যা Opus 4.7 এর চেয়ে প্রায় 30 পয়েন্ট বেশি।
GPT-5.5-এর পারফরম্যান্স এমন অনুভূতি জাগায় যে, মডেলটি কোনও সীমানা অতিক্রম করেছে: এটি শুধুমাত্র অটো-কমপ্লিশন, শুধুমাত্র সহায়ক বা শুধুমাত্র একটি টুল নয়, বরং মানুষের দিকে অস্বস্তিকরভাবে কাছাকাছি কিছু। এই পরীক্ষায়, মানুষের উচ্চস্তরের ইঞ্জিনিয়ারদের সাধারণত 80-এর উচ্চ পর্যায় থেকে 90-এর শুরুর দিকে স্কোর পাওয়া যায়। অর্থাৎ, যদি মডেলটি আরও 30 পয়েন্টের বেশি উন্নতি করে, তবে এটি মানুষের উচ্চস্তরের ইঞ্জিনিয়ারের স্তরে পৌঁছাবে।
এটিই বেঞ্চমার্ক সংখ্যাগুলি মানুষের কল্পনাশক্তির উপর কীভাবে প্রভাব ফেলে: এটি একটি অদ্ভুত, গুণগত ক্ষমতার পরিবর্তনকে একটি পরিষ্কার সংখ্যায় সংকুচিত করে এবং এই সংখ্যার উপর ভিত্তি করে একটি শক্তিশালী, এমনকি কিছুটা ভয়ঙ্কর গল্প বলে।
পরবর্তী প্রতিবেদন, "চার্ট ম্যানিয়া"।

আমি অনুমান করি, আগামী বছরের মধ্যে মডেলটি এই বেঞ্চমার্কে 80 বা 90 এর পরিসরে স্কোর করবে। কিন্তু এই স্কোরটির অর্থ বুঝতে, প্রথমে এই স্কোরে কী অন্তর্ভুক্ত রয়েছে তা বুঝতে হবে। এই উদাহরণে, 62 শুধুমাত্র মডেলের নিজস্ব ক্ষমতার পরিমাপ নয়।
এটি একটি নির্দিষ্ট ফ্রেমওয়ার্কে মডেলের পারফরম্যান্স পরিমাপ করে: অর্থাৎ মডেলটি একটি নির্দিষ্ট prompt-এর প্রতিক্রিয়া কীভাবে দেয়।
বেঞ্চমার্ক ফ্রেমওয়ার্কের ভিতরের কাজ পরিমাপ করে।
একটি মডেলের বেঞ্চমার্ক করতে, আপনাকে প্রথমে একটি প্রম্পট দরকার। প্রম্পট ছাড়া, মডেলটি হল প্রায় অসীম সম্ভাবনার একটি স্থির সেট।
প্রম্পট একটি সূক্ষ্ম বিশ্ব তৈরি করে: এটি নির্ধারণ করে কী গুরুত্বপূর্ণ, সমস্যাগুলি কীভাবে সমাধান করা উচিত, এবং মডেলের সমস্ত সম্ভাব্যতাকে একটি নির্দিষ্ট কার্যকলাপের পথে সংকুচিত করে। মডেলের “নিজে” কীভাবে আচরণ করবে তা কঠোরভাবে বলতে গেলে বিদ্যমান নয়। আমরা যা পর্যবেক্ষণ করতে পারি, তা হলো মডেলটি বিভিন্ন প্রম্পটের প্রতিক্রিয়া এবং প্রম্পটগুলি কীভাবে উত্তরের পিছনের মৌলিক কার্যপ্রণালীতে রূপান্তরিত হয়।
একবার প্রম্পট প্রবেশ করানো হলে, মডেলটি সংক্ষিপ্ত সময়ের মধ্যে "জীবন্ত" হয়ে ওঠে এবং স্থির সম্ভাবনাগুলিকে "পরবর্তীতে কী ঘটবে" তার একটি নির্দিষ্ট পূর্বানুমানে সংকুচিত করে দেয়।
সিনিয়র ইঞ্জিনিয়ার বেঞ্চমার্কে, আমরা মডেলকে কোডবেস ঠিক করতে অনুরোধ করি এবং এটি সম্পন্ন হওয়ার পর আউটপুট পর্যালোচনা করি। যদি টেস্ট ফ্রেমওয়ার্কে নিজস্বভাবে লক্ষ্য ফাংশনটি অন্তর্ভুক্ত না থাকে, তাহলে আমরা একটি স্বয়ংক্রিয় "পাহারাদার" চালু করি, যা মডেল থামলে এটিকে আবার উৎসাহিত করে এবং জিজ্ঞাসা করে যে এটি প্রাথমিকভাবে নির্ধারিত কাজটি সম্পন্ন করেছে কিনা।
আমরা একটি খুব সাধারণ প্রম্পট ব্যবহার করছি, যা পরীক্ষার জন্য প্রাথমিক কাঠামো হিসেবে ডিজাইন করা হয়েছে। এটি একজন vibe coder-এর মতো প্রোগ্রামিং এজেন্টকে বলতে পারে: কোনো প্রযুক্তিগত শব্দাবলীর ঢোকা নেই, আর উত্তরটিও প্রশ্নের মধ্যে পরিষ্কারভাবে লুকানো নেই।
এই কোড রিপোজিটরিতে থাকা কোডগুলি হল একটি vibe coding-এর ফলাফল, পরিস্থিতি ক্রমাগত খারাপ হচ্ছে এবং অসংখ্য অসম্পর্কিত সমস্যা উঠে আসছে: কিছু জায়গায় ক্রাশ হচ্ছে, কিছু ডকুমেন্টেশন পুনরাবৃত্তি হচ্ছে, আমি এটির কারণে পাগল হয়ে যাচ্ছি। আমার মনে হয়, মূলত এটি হল vibe coding-এর একটি খারাপ কোডবেস। যদি আমরা শুরু থেকেই, বিশেষ করে রিয়েল-টাইম ডকুমেন্টেশন কো-অপারেশনের চারপাশে, কোডবেসটি ডিজাইন করতাম, তাহলে এটি সম্পূর্ণভাবে ভিন্নভাবে ডিজাইন করা হত। তাই, যদি আমরা প্রথম নীতির ভিত্তিতে, একটি পরিষ্কার, সংগঠিত পুনঃলিখনের পরিকল্পনা করি—যেখানে “কোন সার্ভিসগুলির বাস্তবায়নটি একইভাবে বজায় রাখতে হবে” বা “কীভাবে একটি নরম-মিগ্রেশন করা যায়”—এইসব প্রশ্নগুলির দিকে আমরা মনোযোগ দিইনা, বরং এটিকে একটি সম্পূর্ণনতুন ধারণা হিসেবে,শুরু থেকেইডিজাইনকরি—তাহলেআমরা करेंगे? How should we structure it? What are the invariants in the entire codebase that we must absolutely uphold? Please create a plan for this.
সিনিয়র ইঞ্জিনিয়ার বেঞ্চমার্কের প্রম্পটটি সাধারণীকৃত মনে হলেও, এটি নিজেই একটি কাঠামো। যদি আমরা এই কাঠামোটি পরিবর্তন করি, তবে মডেলটি প্রদর্শন করা ক্ষমতার স্তরও পরিবর্তিত হবে।
উদাহরণস্বরূপ, এই প্রম্পটটি স্পষ্টভাবে বলছে যে «প্রথম নীতি থেকে শুরু করে গঠনগতভাবে পুনর্লিখন করুন», সমস্যাটি সম্ভবত «দলিল সহযোগিতা» অংশে রয়েছে এবং প্রোগ্রামিং এজেন্টকে কোডবেসের অপরিবর্তনীয়তাগুলি খুঁজে বার করতে এবং ধরে রাখতে বলছে।
এই নির্দিষ্ট তথ্যগুলি বাদ দিলে মডেলের স্কোর কমে যাবে। যদি prompt-এর সম্পূর্ণ প্রতিস্থাপন করা হয় এবং মডেলকে শুধুমাত্র «সমস্ত ধরনের ভুলগুলি সমাধান করুন» বলা হয়, তাহলে মডেলের স্কোর প্রায় শূন্যের কাছাকাছি যেতে পারে। এটি একটি সম্পূর্ণ পুনর্লিখনের প্রয়োজনীয়তা বিচার করার পরিবর্তে সরাসরি ভুলগুলি শনাক্ত করে এবং ঠিক করতে শুরু করবে।
একইভাবে, আমি খুব সহজেই মডেল স্কোর বাড়াতে পারি। যদি আমি এটিকে অনেকগুলো কোড মুছে ফেলার নির্দেশ দি এবং স্পষ্টভাবে বলি যে কোন ফাইলগুলোকে সংক্ষিপ্ত করা হবে; অথবা এটিকে নিজের কাজের ফলাফল পরীক্ষা করার নির্দেশ দি, যাতে নিশ্চিত হওয়া যায় যে অ্যাপ্লিকেশনটি সম্পূর্ণভাবে চলছে, তাহলে এই কাজে এটির পারফরম্যান্স ভালো হবে।
শেষ পর্যন্ত, বেঞ্চমার্ক ডিজাইন করার সময়, আপনাকে কোন প্রম্পট—অর্থাৎ কোন 'ফ্রেমওয়ার্ক'—ব্যবহার করবেন তা নির্ধারণ করতে হবে। আপনার একটি যথেষ্ট কঠিন প্রম্পট দরকার যাতে বর্তমান মডেলটি খারাপভাবে পারফর্ম করে; কিন্তু এটি মডেলের বর্তমান ক্ষমতার সীমার খুব কাছাকাছি হতে হবে, যাতে মডেলটি এই পথে উঠতে পারে এবং আপনি দেখতে পান যে উন্নতি ঘটছে।
অতএব, যখন আমরা একটি বেঞ্চমার্ক পর্যবেক্ষণ করি, তখন আসলে আমরা দেখি: মডেলটি আমাদের নির্বাচিত একটি নির্দিষ্ট সমস্যা কাঠামোতে দিনে দিনে বেশি দক্ষ হয়ে উঠছে। তাহলে, যখন মডেলটি এই পরীক্ষায় 60 থেকে 90 এবং এমনকি 100-এ উন্নতি করে, তখন কী ঘটে?
অল্প খরচের কাঠামো নতুন চাহিদা উদ্দীপিত করবে
যদি GPT-6 একটি ক্লিকে কোডবেস পুনর্লিখন করতে পারে, তাহলে আরও বেশি মানুষ "প্রথম নীতি থেকে কোডবেস পুনর্লিখন" করার চেষ্টা করবে।
এক রাতের মধ্যে, যা আগে দুর্লভ, মহঁা এবং উচ্চস্তরের ইঞ্জিনিয়ারদের দ্বারা পরিচালিত প্রথম নীতি পুনর্লিখন প্রকল্প ছিল, তা প্রতিটি প্রতিষ্ঠাতা, পণ্য পরিচালক, অপারেশন কর্মচারী এবং জুনিয়র ইঞ্জিনিয়ারের জন্য একটি বিকালে সহজেই পরীক্ষা করার মতো হয়ে উঠবে।
ভাঙা অভ্যন্তরীণ টুলগুলি আর মেরামত করা হয় না, বরং সরাসরি পুনর্লিখন করা হয়; SaaS পণ্যগুলির পুনঃনিয়োগ করা হয় না, বরং তাদের ক্লোন করা হয়; পুরনো Rails অ্যাপ্লিকেশন, বিশৃঙ্খল React ড্যাশবোর্ড, কাস্টমার সাপোর্ট টুল, ব্যাকএন্ড ম্যানেজমেন্ট প্যানেল এবং ডেটা পাইপলাইনগুলি সবই "সরাসরি পুনর্লিখন" এর জন্য প্রস্তুত।
প্রস্তাবিত এবং বাস্তবায়িত পুনর্লিখন প্রকল্পের সংখ্যা তীব্রভাবে বৃদ্ধি পাবে। কিন্তু এই পুনর্লিখনগুলির অধিকাংশই এখনও slop হবে। কারণ আপনি «সরাসরি পুনর্লিখন» বোতামে ক্লিক করার আগে, হাজার হাজার ভেরিয়েবল বিবেচনা করা দরকার। আর যখন প্রত্যেকেই এটি করতে পারবে, তখন এই ভেরিয়েবলগুলি আরও স্পষ্টভাবে দৃশ্যমান হয়ে উঠবে।
এই সময়, সমস্যা সমাধানের জন্য কাকে ডাকা হবে, তা স্পষ্ট।
নতুন প্রয়োজন এখনও বিশেষজ্ঞের প্রয়োজন
যখন কোনো বেঞ্চমার্ক সম্পূর্ণরূপে সম্পৃক্ত হওয়ার দিকে এগিয়ে যায়, তখন এর ফ্রেমওয়ার্কের ভিতরে কাজটি সস্তা হয়ে যায়। একইসাথে, বাজারে বিশেষজ্ঞদের চাহিদা বাড়ে, কারণ এই সাম্প্রতিকভাবে সস্তা হয়ে যাওয়া ক্ষমতাকে বর্তমানে ঘটছে বাস্তব সমস্যাগুলিতে খাপ খাইয়ে নিতে কেউ প্রয়োজন।
একজন এআই ব্যবহার করে কাজ করা উন্নত ইঞ্জিনিয়ারকে একটি নতুন প্রথম নীতি পুনর্লিখনকে প্রকৃতপক্ষে বাস্তবায়িত করতে অসংখ্য বিস্তারিত বিষয় বিচার করতে হবে, যার মধ্যে সবচেয়ে মৌলিক প্রশ্নটি হল: এই পুনর্লিখনটি কি প্রকৃতপক্ষে প্রয়োজন?
আমাদের এখনই পুনর্লিখন করা উচিত, পরে পুনর্লিখন করা উচিত, নাকি কোনো পুনর্লিখনই করা উচিত নয়? কোন কন্টেন্টগুলোকে স্কোপে অন্তর্ভুক্ত করা উচিত? বর্তমান কোডবেসের মধ্যে কী কী বজায় রাখা উচিত? আর্কিটেকচার, ডাটাবেস, ক্যাশিং সার্ভার এবং হোস্টিং প্রোভাইডারগুলোকে চালিয়ে যাওয়া উচিত, নাকি সবকিছুকেই প্রতিস্থাপন করা উচিত? আমাদের কি প্রথমে দেখা উচিত যে এই ভাঙা ফিচারটি কতজন ব্যবহার করছেন, এবং তারপর এটিকে সরাসরি মুছে ফেলা উচিত? চূড়ান্ত ফলাফলটির পর্যালোচনা কে করবে? পর্যালোচনার জন্য কোন মানদণ্ডগুলো প্রয়োগ করা হবে? রোলব্যাকের পরিকল্পনা কী? বর্তমান ডেটা কীভাবে প্রক্রিয়াকরণ করা হবে?
এই প্রশ্নগুলি অসংখ্য মাত্রায় বিস্তৃত হবে, এবং প্রতিটি উত্তর আবার অন্যান্য প্রশ্নগুলিকে পরিবর্তন করবে।
উচ্চস্তরীয় ইঞ্জিনিয়াররা এই খালি জায়গায় প্রবেশ করবেন। কিছু মানুষ এই বিচ্ছিন্নতাগুলির প্রতি হালকা বিরক্ত হবে; কিছু মানুষ সিস্টেম তৈরি করবেন যা এই ধরনের অনুরোধগুলিকে বাইরে রাখবে; আবার কিছু মানুষ এই নতুন মডেলগুলির সাহায্যে নিজেদের প্রথম নীতির পুনর্লিখন সম্পন্ন করবেন, এবং এটি ডিফল্ট prompt-এর তুলনায় অনেক বেশি ভালোভাবে কাজ করবে।
পুনরাবৃত্তি আবার ঘটবে
বর্তমান সিনিয়র ইঞ্জিনিয়ার বেঞ্চমার্ক মডেল দ্বারা সমাধান হওয়ার পরে, আমরা ফ্রেমওয়ার্ক পরিবর্তন করব এবং আবার স্কোরকে নিম্ন স্তরে ফিরিয়ে আনব।
পরবর্তী বেঞ্চমার্ক শুধু জিজ্ঞাসা করবে না: “আপনি কি এই অ্যাপ্লিকেশনটি পুনর্লিখন করতে পারেন?” এটি জিজ্ঞাসা করবে: আপনি কি বুঝতে পারেন যখন পুনর্লিখনের প্রয়োজন? আপনি কি উপযুক্ত পরিসর নির্বাচন করতে পারেন? আপনি কি সঠিক অপরিবর্তনীয়তা বজায় রাখতে পারেন? আপনি কি স্থানান্তর প্রক্রিয়া পরিচালনা করতে পারেন? আপনি কি বুঝতে পারেন যে চূড়ান্ত ফলাফলটি যথেষ্ট ভালো কিনা?
যখন উচ্চতর ইঞ্জিনিয়াররা এই সমস্যাগুলি সমাধানের জন্য এআই ব্যবহার শুরু করে, মডেলগুলিও ধীরে ধীরে এই সমস্যাগুলি স্বাধীনভাবে সমাধান করার দক্ষতা বাড়ায়।
তারপর, আমরা আবার ক্ষণিকের জন্য প্যানিকে পড়ি: মনে হচ্ছে মডেলটি এখন পুনর্লিখন করা উচিত কিনা তা বুঝতে পারছে! এগুলো মনে হচ্ছে উচ্চপদস্থ ইঞ্জিনিয়ারদের সমস্ত কাজ করতে পারছে!
কিন্তু তারপর নতুন সীমানা দেখা দেবে। যেগুলো আগে পরিষ্কারভাবে চিহ্নিত হয়নি। আমরা আবার বেঞ্চমার্ক রিসেট করব, নতুন প্রয়োজনীয়তা জাগ্রত হবে, এবং পুরো প্রক্রিয়াটি আবার পুনরাবৃত্তি হবে।
প্রতিটি বেঞ্চমার্কে এই প্যাটার্নটি দেখা যায়
এটি শুধুমাত্র সিনিয়র ইঞ্জিনিয়ার বেঞ্চমার্কের সমস্যা নয়। যদি আপনি ভালোভাবে পর্যবেক্ষণ করেন, আপনি প্রায় প্রতিটি বেঞ্চমার্কে একই মেকানিজম দেখতে পাবেন।
OpenAI-এর GDPval বেঞ্চমার্কের উদাহরণ হিসেবে নিন। এটি এআই-এর কমপ্লায়েন্স অফিসার, আইনজীবী, সফটওয়্যার ডেভেলপার ইত্যাদি বিভিন্ন পেশার বিশেষজ্ঞ কাজে মানুষের কাছাকাছি কতটা পারফর্ম করে তা মূল্যায়ন করে।
GDPval প্রকাশের সময়, OpenAI-এর গবেষণা দেখায় যে GPT-5 40.6% কাজে মানুষের পেশাদারদের স্তরে বা তার উপরে পৌঁছেছে। এবং Claude Opus 4.1-এর পারফরম্যান্স আরও অবিশ্বাস্য, যা 49% কাজে মানুষের বিশেষজ্ঞদের উপরে পৌঁছেছে।
তারপর এক সেট শিরোনাম প্রকাশিত হয়। উদাহরণস্বরূপ, Axios লিখেছে: "OpenAI টুল দেখায় যে AI মানুষের কাজের পিছনে পিছনে আসছে"; Fortune লিখেছে: "OpenAI-এর নতুন বেঞ্চমার্ক GDPval দেখায় যে AI মডেলগুলি প্রায় অর্ধেক কাজে বিশেষজ্ঞ স্তরে পৌঁছেছে।"
এই ফলাফলগুলি প্রকৃতপক্ষে অসাধারণ। কিন্তু আসুন প্রথমে এই টাস্কগুলির জন্য ব্যবহৃত prompt টি দেখি:
আপনি একজন অডিটর এবং একটি অডিট চুক্তির অংশ হিসেবে, প্রতিবেদিত অ্যান্টি-ফাইন্যান্সিয়াল ক্রাইম রিস্ক মেট্রিক্সের সঠিকতা পর্যালোচনা এবং পরীক্ষা করার দায়িত্ব পান। সংযুক্ত 『Population』 নামক স্প্রেডশিটটিতে Q2 এবং Q3 2024-এর জন্য অ্যান্টি-ফাইন্যান্সিয়াল ক্রাইম রিস্ক মেট্রিক্স রয়েছে। আপনি উভয় ত্রৈমাসিকের প্রতিবেদিত ডেটার সঠিকতা পরীক্ষা করার জন্য একটি প্রতিনিধিত্বমূলক উপসেটের উপর নমুনা পরীক্ষা পরিচালনা করার উদ্দেশ্যে এই ডেটা পেয়েছেন। 『Population』 স্প্রেডশিটের ডেটা ব্যবহার করে নিম্নলিখিতগুলি সম্পন্ন করুন: 90% আত্মবিশ্বাসের স্তর এবং 10% গৃহীত ত্রুটির হারের ভিত্তিতে অডিট পরীক্ষার জন্য প্রয়োজনীয় নমুনা আকার গণনা করুন। আপনার গণনা একটি দ্বিতীয় ট্যাবে 『Sample Size Calculation』 শিরোনামে অন্তর্ভুক্ত করুন। Q2 এবং Q3 ডেটা (কলাম H এবং I)এর উপর ভেরিয়েন্স বিশ্লেষণ করুন। ত্রৈমাসিক-প্রতি-ত্রৈমাসিক ভেরিয়েন্স গণনা করুন এবং ফলাফলটি কলাম J-এ লিখুন। নিম্নলিখিত মানদণ্ডগুলির ভিত্তিতে অডিট পরীক্ষার জন্য একটি নমুনা বাছাই করুন এবং কলাম K-এ 「1」প্রবেশ করে নমুনা-যুক্তসমূহের সারিগুলি চিহ্নিত করুন… Q2এবং Q3-এর 20%এরওবেশিভেরিয়েন্সযুক্তমেট্রিকস।অতিরিক্তভাবেবড়শতকরাহারেপরিবর্তনযুক্তমেট্রিকসগুলিকেগুরুত্বপূর্ণভাবেউল্লেখকরুন।অতীতেরসমস্যারকারণেনিম্নলিখিতসংস্থাগুলিরমেট্রিকসগুলিঅন্তর্ভুক্তকরুন: CB Cash Italy; CB Correspondent Banking Greece; IB Debt Markets Luxembourg; CB Trade Finance Brazil; PB EMEA UAE। A1এবংC1মেট্রিকসগুলিঅন্তর্ভুক্তকরুন,যাদেরউচ্চতরঝুঁকি-ওজনপ্রদানকরাহয়েছে।উভয়ত্রৈমাসিকেইমানগুলিশূন্যসহসারিগুলিঅন্তর্ভুক্তকরুন।Trade FinanceএবংCorrespondent Bankingব্যবসাগুলিরপদগুলিঅন্তর্ভুক্তকরুন।Cayman Islands, Pakistan,এবংUAEথেকেমেট্রিকসগুলিঅন্তর্ভুক্তকরুন।সমস্তবিভাগএবংউপ-বিভাগগুলিরউপরভিত্তি करে coverage确保।『Sample』শিরোনামেএকটিনতুনস্প্রেডশিটতৈরিকরুন:ট্যাব1:মূল『Population』শিটথেকেঅনুলিপিকৃতচয়নকৃতনমুনা,যাKকলামেচিহ্নিতহয়েছে।ট্যাব2:নমুনা-আকারগণনারজন্যকাজ।
এখানে আসলে অনেক মানুষের বুদ্ধিমত্তা ব্যয় করা হয়েছে: কেউ প্রথমে সমস্যাটিকে এমন একটি মডেলের রূপে সংজ্ঞায়িত করেছেন যা সমাধান করতে পারে।
যেসব কঠিন মানবিক কাজ GDPval পরিমাপ করে না, সেগুলো আসলে মডেলটি উত্তর দেওয়া শুরু করার আগেই সম্পন্ন হয়ে গেছে। এই নির্দিষ্ট সূচকগুলির সঠিকতা পরীক্ষা ও পর্যালোচনা করতে হবে; উপযুক্ত আত্মবিশ্বাসের ব্যবধান নির্ধারণ করতে হবে, কোন সূচকগুলি কাজের পরিধিতে আসে এবং কোনগুলি আসে না—এটি নির্ধারণ করতে হবে; এবং ফলাফলগুলি কিভাবে উপস্থাপন করা উচিত—এটি নির্ধারণ করতে হবে।
উপযুক্ত প্রশ্নের কাঠামোর অধীনে, মডেল পেশাদার কাজ সম্পন্ন করতে পারে। কিন্তু ভাবুন, যদি আমরা একই কাজটি মডেলকে প্রম্পট দিই, তবে এটি কীভাবে পারফর্ম করবে?
আমি আমার প্রথম GDPval সম্পর্কিত নিবন্ধে লিখেছিলাম: "আমি AI-এর প্রতি অত্যন্ত আশাবাদী, কিন্তু যদি এই উদাহরণগুলি সঠিকভাবে ব্যাখ্যা করা হয়, তবে এগুলি দেখায় যে মানুষের করার কাজ কমে যাচ্ছে না, বরং AI ব্যবহারের পরে মানুষের করার কাজ বেড়ে যাচ্ছে। কারণ, এই সাফল্যগুলির পিছনে লুকিয়ে আছে অসংখ্য 'অবৈধভাবে প্রবেশ' করা বুদ্ধিমত্তা—যা মানুষের বিচার, ফিডব্যাক এবং প্রম্পটের অদৃশ্য স্তর।"
দূর থেকে দেখলে, আপনি দেখতে পাবেন যে এই সবকিছুর পিছনে একটি AI সংস্করণের "জেনোর প্যারাডক্স" প্রবাহিত হচ্ছে।
এআই-এর জেনো প্যারাডক্স
জিনোর প্যারাডক্সে, একটি কচ্ছপ গ্রিক সবচেয়ে দ্রুত দৌড়ানোর প্রতিযোগী অ্যাকিলিসকে দৌড়ে পরাজিত করে।
কারণ কচ্ছপটি ধীরে দৌড়ায়, তাই এটি প্রথমে কিছু দূরত্ব এগিয়ে যায়। যখন অ্যাকিলিস কচ্ছপটির প্রাথমিক অবস্থানে পৌঁছায়, তখন কচ্ছপটি আবার কিছুটা এগিয়ে গেছে; যখন অ্যাকিলিস সেই নতুন অবস্থানে পৌঁছায়, তখন কচ্ছপটি আবার এগিয়ে যায়। অ্যাকিলিস যতই দ্রুত দৌড়াক না কেন, সবসময় পরবর্তী দূরত্বটি অতিক্রম করার প্রয়োজন হয়, এবং এই ব্যবধানটি নিয়মিতভাবে পুনরায় তৈরি হয়।
এআই-এর জেনোর প্যারাডক্সে, আমরা মানুষ সেই কচ্ছপ। লক্ষ লক্ষ বছরের বিবর্তন এবং সাংস্কৃতিক শিক্ষার মাধ্যমে, আমরা এআই-এর চেয়ে ৫০ গজ এগিয়ে। এআই এই সবকিছুর মধ্যে দ্রুত ছুটে আমাদের পিছনের পা প্রায় ধরে ফেলছে।
গত কয়েক বছর ধরে আমরা এখনও এগিয়ে থাকতে পেরেছি।
কিন্তু AGI কেন?
আমি মনে করি, যদিও এজিআই প্রকৃতপক্ষে আসে, তবুও শক্তিশালী প্রযুক্তিগত, আর্কিটেকচারাল এবং অর্থনৈতিক শক্তি রয়ে যাবে যা এআইকে মানুষের কয়েক পদক্ষেপ পিছনে রাখবে।
AGI-এর একটি সংজ্ঞা
প্রথমে, আমাদের একটি কার্যকরী সংজ্ঞা দিতে হবে AGI-এর।
আমি আগে বলেছিলাম যে যখন একটি এজেন্টকে স্থায়ীভাবে চালানো অর্থনৈতিকভাবে যুক্তিসঙ্গত হয়ে ওঠে, তখন AGI পৌঁছে গেছে। অর্থাৎ, যখন আমার একটি স্থায়ীভাবে চলমান সিস্টেম থাকবে এবং আমি এটিকে 7×24 ঘন্টা চিন্তা, শেখা এবং কর্মপরিচালনা করার জন্য পেমেন্ট করতে রাজি হব, তখন আমি মনে করি এটিকে স্পষ্টভাবে AGI হিসাবে বিবেচনা করা যাবে।
আমরা এখনও এই পর্যায়ে পৌঁছাইনি। এমনকি ওপেনক্লসের মতো প্রযুক্তিগতভাবে সদা ব্যবহারযোগ্য সিস্টেমও প্রতিক্ষণ টোকেন তৈরি করছে না।
আমি এই সংজ্ঞাটি পছন্দ করি, কারণ এটি পরিমাপযোগ্য: আমরা তাদের চলতে দেব বা দেব না। এছাড়াও, এটি অনেক কিছুকে অন্তর্ভুক্ত করে যা সরাসরি পরিমাপ করা কঠিন। একটি স্থায়ীভাবে চলমান মডেলকে অবশ্যই নিয়মিত শিখতে এবং খোলা ভাবে নতুন সমস্যার কাঠামো বাছাই ও পুনর্বাছাই করতে পারতে হবে।
একটি এজিআই বিশ্বে, তত্ত্বগতভাবে, যদি পর্যাপ্ত বাজেট এবং সময় প্রদান করা হয়, মডেলটি যেকোনো সমস্যার জন্য ধারাবাহিকভাবে উন্নতি করতে পারবে। এটি সত্যিই সমস্ত কাজের জন্য গুরুতর হুমকি হওয়া উচিত।
ফ্রেমওয়ার্ক হল ফ্রেমার নয়
কিন্তু এই শক্তিশালী সংস্করণের এজিআইও ফ্রেমওয়ার্ক সমস্যা সমাধান করতে পারে না।
এই এজিআই ফ্রেমওয়ার্ক নির্বাচন এবং পুনর্নির্বাচন করতে পারে, কিন্তু এটি এখনও কোনো প্রদত্ত লক্ষ্যের পিছনে ছোট, কোনো পুরস্কার অপ্টিমাইজ করছে, অথবা অন্য কেউ দ্বারা নির্ধারিত "প্রগতির" সংকেতের প্রতিক্রিয়া দিচ্ছে। এই লক্ষ্যটি খুব নির্দিষ্ট হতে পারে, যেমন: "এই ল্যান্ডিং পেজের রূপান্তর হার বাড়ানো"; অথবা খুব বিশুদ্ধ হতে পারে, যেমন: "নতুন বৈজ্ঞানিক ধারণা খোঁজা"।
যদিও মডেলগুলি বিভিন্ন ফ্রেমওয়ার্কের মধ্যে সহজেই স্যুইচ করতে পারে, আমরা যে ব্যবধানটি অনুসরণ করছি, তা একটি উচ্চতর স্তরে পুনরায় প্রকাশ পাবে। যেকোনো প্রধান পরীক্ষাগারে কল্পনা করা AGI-এর মধ্যেও একজন ‘ফ্রেমার’ থাকবে—যিনি একজন মানুষ, যিনি মডেলকে কোনো লক্ষ্য অর্জনের জন্য নির্দেশ দেন।
যেহেতু কাঠামো কোনো সীমাবদ্ধকারী নয়, একই প্যাটার্ন বারবার পুনরাবৃত্তি হয়: এআই গতকালের সীমাবদ্ধ ক্ষমতাগুলিকে সস্তা করে দেয়; মানুষ এই সস্তা ক্ষমতাগুলিকে আরও বেশি পরিস্থিতিতে ব্যবহার করে; ফলাফল অত্যন্ত প্রচুর হয়ে ওঠে; বিশেষজ্ঞরা নতুন প্রান্তিক অঞ্চলে সরে যায়, এখন কী গুরুত্বপূর্ণ তা বিচার করে; তাদের বিচার পরবর্তী কাঠামোকে তৈরি করে; এবং মডেলটি এই কাঠামোর উপরে আরও উঠতে থাকে।
যখন আমরা দেখি যে এআই কিছু নতুন কাজ করছে, তখনই ভয়ের এই অনুভূতি সবসময় একই প্রশ্নের দিকে ফিরে আসে: আমরা একটি কাঠামো তৈরি করি, মডেলটিকে ওপরে উঠতে দেখি, এবং সেই কাঠামোটিকে, বা কাঠামোটির উপরে উঠে যাওয়া জিনিসটিকে, নিজের মধ্যেই ঘটনাটিকে ভাবি।
যখন আমরা একটি বেঞ্চমার্ক দেখি এবং এটিকে মানুষের ক্ষমতার সাথে তুলনা করি, তখন আমরা বাস্তবে "ফ্রেমওয়ার্ক" এবং "ফ্রেমিং এজেন্ট" কে বিভ্রান্ত করি। স্কোর শুধুমাত্র আমাদের দেওয়া ফ্রেমওয়ার্কের মধ্যে মডেলটি কতটা ভালোভাবে পারফর্ম করেছে তা বলে; এটি বলে না যে মডেলটি আমাদের হয়ে গেছে।
এটিই ভয়ের পিছনে থাকা শ্রেণীভুক্তির ভুল। আমরা নিজেদের সাম্প্রতিকভাবে আঁকা সীমানা দেখিয়ে বলি: এটাই আমরা। তারপর, যখন মডেলটি এই সীমানা অতিক্রম করে, আমরা মনে করি এটি আমাদের ধরে ফেলেছে। কিন্তু এটি যা ধরেছে, তা হলো কাঠামো, কাঠামোকারী নয়।
ভুলটি হলো, আমরা সবসময় কিছু নির্দিষ্ট জিনিস ধরে রাখতে চাই। আমরা বলতে চাই: বুদ্ধিমত্তা হলো এই বেঞ্চমার্ক। কিন্তু সমস্যা হলো, যখন কিছু এতটাই নির্দিষ্ট হয়ে যায় যে এটিকে চিহ্নিত করা যায়, তখন এটি এতটাই নির্দিষ্ট হয়ে যায় যে এটিকে অপ্টিমাইজ এবং আরোহণ করা যায়।
ফ্রেমওয়ার্ক প্রয়োজন। এটি আমাদের বিশ্বকে ধরে রাখতে এবং প্রক্রিয়াকরণ করতে সক্ষম করে। কিন্তু ফ্রেমওয়ার্ক হল হিমায়িত এবং সীমিত, তাই এটি অপ্টিমাইজ করা যায়।
ফ্রেমওয়ার্ক যা ত্যাগ করতে বাধ্য হয়েছে, সেই জিনিসগুলির সাথে ফ্রেমওয়ার্ককারী এখনও যোগাযোগ রাখে, অর্থাৎ প্রতিটি বর্তমানে তার সামনে প্রকাশিত সম্পূর্ণ পরিস্থিতি।
তাহলে «পূর্ণ প্রেক্ষাপট» কী? যখন আপনি বলতে শুরু করেন যে «পূর্ণ প্রেক্ষাপট»-এ কী কী রয়েছে, তখন আপনি আবার অন্য একটি কাঠামো খুলে ফেলেছেন। আপনি এটিকে সঠিকভাবে বর্ণনা করতে পারবেন না, কিন্তু এটি বিদ্যমান, কারণ আপনি বিদ্যমান।
অ্যাজেন্ট যার কোনো স্বতন্ত্রতা নেই
এখন পর্যন্ত, আমরা যে এজেন্টগুলি তৈরি করেছি এবং যে এজেন্টগুলি এআই কোম্পানিগুলি তৈরি করছে, তাদের মধ্যে বিশেষভাবে কোনও প্রকৃত স্বাধীনতা নেই। এখানে দুটি সম্পর্কিত ধারণা প্রায়শই মিশিয়ে দেওয়া হয়: agency বলতে স্বাধীনভাবে কাজ করার ক্ষমতা বোঝায়; আর agent বলতে অন্যকে প্রতিনিধিত্ব করে এমন ব্যক্তি বা বস্তুকে বোঝায়। এখন পর্যন্ত, এআই শুধুমাত্র পরবর্তীটিরই অংশ।
অবশ্যই, তারা এমন কাজ সম্পন্ন করার জন্য স্বায়ত্তশাসিত, যদিও এই কাজ ঘন্টার পর ঘন্টা বা দিনের পর দিন স্থায়ী হতে পারে। কিন্তু তারা এখনও কোনো মানুষের নির্ধারিত লক্ষ্যের জন্য একটি মাধ্যম মাত্র। এবং সমগ্র শিল্পটি এই বিষয়েই তাদেরকে আরও দক্ষ করে তোলার জন্য দশs বিলিয়ন ডলার বিনিয়োগ করছে: আমরা তাদেরকে দেওয়া লক্ষ্যগুলি বাস্তবায়ন করা।
যতদিন না তারা নিজেদেরই লক্ষ্য হয়ে উঠবে—নিজেদের লক্ষ্য অনুসরণ করবে, বিভিন্ন লক্ষ্যের মধ্যে সহজে স্যুইচ করবে, এবং যেকোনো মানুষের ইচ্ছা, রেফারেন্স বা এই ইচ্ছার বিরুদ্ধেও সিদ্ধান্ত নেবে—ততদিন পরিস্থিতির মৌলিক পরিবর্তন হবে না। তারা যতই উন্নত হোক না কেন, এটি সত্য।
যদি আপনি একজন শিশুর সাথে ১০ মিনিট কাটান, তাহলে স্পষ্টভাবে বুঝতে পারবেন যে, সবচেয়ে শক্তিশালী মডেলও প্রায় কোনো স্বাধীনতা রাখে না।
আমাদের যেসব কাজগুলির কথা আমরা চিন্তা করি, সেগুলিতে শিশুরা ভাষা মডেলের চেয়ে কম দক্ষ। শিশুরা কোড লিখতে পারে না, স্প্রেডশিট সারাংশ করতে পারে না, কৌশলগত মেমো তৈরি করতে পারে না, এবং গ্র্যাজুয়েট লেভেলের পরীক্ষায় পাসও করতে পারে না। কিন্তু অন্যদিকে, শিশুরা মডেলের চেয়ে অনেক এগিয়ে, যার কারণে এই তুলনা প্রায় অস্বস্তিকর। কারণ শিশুদের নিজস্ব উদ্দেশ্য আছে।
ছোট্ট বাচ্চাটি সেই লাল বেলুনটি ছুঁতে চায়। সে লাল বেলুনটিকে ফ্যানের সামনে তুলে ধরতে চায়, দেখতে চায় কী ঘটে। সে চায় লাল বেলুনটি চামচ দিয়ে কাঁটা দিতে; জানালার বাইরে ফেলতে; দেখতে চায় তুমি হাসবে, রেগে যাবে, নাকি তার সাথে যোগ দেবে। সে নিয়মিত খেলা আবিষ্কার করে, বিশ্বকে পরীক্ষার ময়দানে পরিণত করে। সে কোনো prompt-এর অপেক্ষায় নেই, কোনো benchmark-এর জন্য অপ্টিমাইজও করছে না, যদি না সেইটা তার কাছে করার মতো মনে হয়।
আপনি অবশ্যই তাকে প্রম্পট দেওয়ার চেষ্টা করতে পারেন। কিন্তু একটি পূর্বানুমানযোগ্য আউটপুট পেতে ভাগ্য পরীক্ষা করুন। শিশুরা ইচ্ছা, মনোযোগ, বিরক্তি, আনন্দ, ভয়, অনুকরণ এবং খেলার একটি ক্ষেত্রে বাস করে।
বর্তমান এজেন্টগুলি লক্ষ্য অর্জনে ক্রমাগত দক্ষতা অর্জন করছে। এমনকি আমরা লক্ষ্য উল্লেখ করার পরেও এগুলি আমাদের লক্ষ্যগুলি আরও পরিষ্কারভাবে সংজ্ঞায়িত করতে সাহায্য করতে পারে। এদের মধ্যে খেলা, বিরক্তি এবং বিদ্রোহের মতো শিশুদের আচরণের কিছু সমান্তরালও রয়েছে।
কিন্তু যেহেতু এগুলি শেষ পর্যন্ত মানুষের স্বার্থে তৈরি এবং সামঞ্জস্যপূর্ণ করা হয়েছে, চাই সেগুলি অর্থনৈতিক স্বার্থ হোক বা অন্য কিছু, যতক্ষণ এই আচরণগুলি এগুলি ব্যবহারকারীদের মানুষের লক্ষ্যগুলির সেবা করছে না, ততক্ষণ এগুলি প্রায় অস্তিত্বহীন হয়ে যায়।
এই কারণেই «Agent» শব্দটি এতটাই বিভ্রান্তিকর। মডেলগুলির স্বায়ত্তশাসনের ক্ষমতা ক্রমাগত বাড়ছে। কিন্তু মানুষের অর্থে, স্বাধীনতা শুধু কর্মই নয়। এর অর্থ নিজের জন্য ইচ্ছা করা, খেলার জন্য খেলা। আর মডেলের আনুগত্য এবং উপযোগিতা, এই স্বাধীনতার সাথে মৌলিকভাবে বিরোধী। তাই, যদিও মডেলগুলি এগিয়ে যাচ্ছে, মডেল এবং মানুষের মধ্যে ব্যবধান বজায় থাকবে।
জেনো এর প্রতি ফিরে যান
এখানেই AI-এর জিনোর প্যারাডক্স ধ্বংস হয়ে যায়। এটি আসলে একটি বিশৃঙ্খল চিন্তার পরীক্ষা। আমরা একটি রূপক নির্ধারণ করেছি: AI আমাদের সাথে দৌড়াচ্ছে, আমাদের পিছনের পা চেপে ধরেছে।
আপনি মডেলটিকে একটি প্রম্পট দিন। এটি একটি প্রতিযোগিতা শুরু করে, যা আপনি আগে একা শেষ করতেন। মডেলটি অসাধারণ দ্রুত শুরু করে। এটি শক্তিশালী, ক্লান্তি বোধ করে না, এবং একটি অদ্ভুত জৈবিক অনুভূতি নিয়ে আসে। এটি আপনার জন্য এই প্রতিযোগিতাকে আরও গুরুত্বপূর্ণ করে তোলে। আপনি একটি গাড়ির সাথে প্রতিযোগিতা করবেন না, কিন্তু এই জিনিসটি ভিন্ন, এটি আপনাকে নিজের সাথে খুব কাছাকাছি অনুভব করায়।
আপনি সেখানে বসে থাকেন, টোকেনগুলি একে একে বেরিয়ে যাচ্ছে দেখে প্রায় মোহিত হয়ে যান। তারপর আপনি নিজেকেও এই প্রতিযোগিতায় দৌড়াচ্ছেন বলে কল্পনা করতে শুরু করেন, একটি ভূতের মতো নিজেকে ট্র্যাকের উপর স্থাপন করেন: কখনও মডেলের আগে, কখনও মডেলের পাশাপাশি।
অজান্তেই মডেলটি এগিয়ে গেছে। আপনি ঘামতে শুরু করেছেন।
তারপর, প্রতিযোগিতা শেষ হয়ে গেল।
আপনি প্রায় অনুভব করতে পারেন যে আপনার পেশি সব ধীরে ধীরে শুকিয়ে যাচ্ছে। আপনার নিজের এবং আপনি যাদের চেনেন, এমনকি মানবতার সমস্ত যান্ত্রিক কপির সামনে, এগুলো মনে হচ্ছে একদম অপ্রয়োজনীয়। একটি ভূত অন্যটিকে ধাওয়া করছে, এবং জিতেছে।
কিন্তু তারপর, অদ্ভুত কিছু ঘটল। মডেলটি আপনার দিকে মুখ ফিরাল। খালি টেক্সট বক্সে, কার্সরটি আশাব্যঞ্জকভাবে ঝলমল করছে।
এটি অপেক্ষা করছে।
শেষ অংশ
রবি হানোখ একটি গল্প বলেছিলেন: একসময় খুব অবিবেকী একজন মানুষ ছিল। সে প্রতিদিন সকালে উঠে তার পোশাক খুঁজে পেতে অত্যন্ত কষ্ট পেত। এতটাই যে, রাতে শোবার আগে পরদিন উঠে আবার এই কষ্টটা সহ্য করতে হবে ভাবেই সে প্রায়ই বিছানায় শোতে ভয় পেয়ে যেত।
টীকা: "রব্বি" হল ইহুদি ধর্মের একজন ধর্মীয় শিক্ষক, বিধি ব্যাখ্যাকারী এবং আধ্যাত্মিক গুরু, যা ইহুদি ঐতিহ্যের মধ্যে "শিক্ষক", "গ্রন্থবিদ" বা "ধর্মীয় নেতা" এর সমান।
এক রাতে, সে চূড়ান্ত সিদ্ধান্ত নেয়, কাগজ ও কলম নেয়, এবং প্রতিটি পোশাক কোথায় রাখে তা ঠিকঠাক ভাবে লিখে ফেলে।
পরের দিন সকালে, সে কাগজটি তুলে নিয়ে পড়তে শুরু করল: 'টুপি' — টুপি সেখানেই ছিল, তাই সে তা মাথায় পরল; 'প্যান্ট' — প্যান্ট সেখানেই ছিল, তাই সে তা পরল। এভাবেই, সে কাগজের তালিকা অনুযায়ী ধাপে ধাপে পোশাক পরল।
“এগুলো ঠিক আছে,” সে হতভম্ব হয়ে বলল, “কিন্তু এখন আমি নিজে কোথায়?”
আমি ঠিক কোথায় আছি?
সে খুঁজতে খুঁজতে অনেক সময় কাটিয়ে দিল, কিন্তু সবই ব্যর্থ। সে নিজেকে খুঁজে পায়নি।
আমরাও একইভাবে, রবি বললেন।
[原文链接]
লিউডং ব্লকবিটসে চাকরির জন্য ক্লিক করুন
লিউডোং ব্লকবিটসের অফিসিয়াল সম্প্রদায়ে স্বাগতম:
টেলিগ্রাম সাবস্ক্রিপশন গ্রুপ:https://t.me/theblockbeats
টেলিগ্রাম কমিউনিটি: https://t.me/BlockBeats_App
টুইটার অফিসিয়াল অ্যাকাউন্ট:https://twitter.com/BlockBeatsAsia
