পূর্বের ডিপমাইন্ড গবেষক দাবি করেন যে এআই শিল্পটি মূল বন্ধনীকে ভুলভাবে মূল্যায়ন করছে

এআই প্রশিক্ষণের প্রকৃত বাধা ক্ষমতা, ডেটা বা শক্তির মধ্যে নয়, বরং মূল্যায়ন ব্যবস্থার মধ্যে।

লেখক এবং উৎস: নিউ জ্ঞান মেটা

এআই প্রশিক্ষণ কতক্ষণ চলবে?

এটি 2026 সালের সম্পূর্ণ টেক ইন্ডাস্ট্রির প্রশ্ন।

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—প্রতিটি শীর্ষ পরীক্ষাগার এখনও পরবর্তী প্রজন্ম প্রশিক্ষণে টাকা ব্যয় করছে।

কিন্তু আরও বেশি মানুষ জিজ্ঞাসা করছে: এই পথটা কখন শেষ হবে?

প্রতিটি বৃত্তের নিজস্ব উত্তর রয়েছে—

প্রতিটি উত্তরের পিছনে দাঁড়িয়েছে একটি বিনিয়োগকারীদের দল, একটি ইঞ্জিনিয়ারদের দল এবং একটি ট্রিলিয়ন ডলারের মূল্যায়নের কোম্পানি।

কিন্তু 2026 সালের 17 মে, একজন যুব গবেষক লুন ওয়াং — যিনি Google DeepMind থেকে পদত্যাগের দিনটিতে — তাঁর ব্যক্তিগত ব্লগে 4000 শব্দের একটি দীর্ঘ নিবন্ধ প্রকাশ করেন।

সে বলল: সবাই ভুল দিকে যাচ্ছে।

বাস্তবিক বাধা হল ক্ষমতা, ডেটা, শক্তি বা আর্কিটেকচার নয়।

প্রকৃত বাধা হলো—মূল্যায়ন (Evaluation)।

একই দিনে, তিনি তাঁর X-এ পোস্ট করা চাকরি ছেড়ে যাওয়ার ঘোষণায় কোনো অভিযোগ বা গুজব না দিয়ে শুধু একটি বাক্য লিখেছিলেন—

এই যাত্রা শেষ করে, আমি যে বিষয়টি নিয়ে চিন্তা করছিলাম তা লিখে রাখলাম: মূল্যায়ন।

এবং সেই দিনের প্রযুক্তি শিরোনামগুলি অন্য কিছু নিয়ে আলোচনা করছিল—GPT-5.5-এর মাল্টিমোডাল যুক্তি, Claude Opus4.7-এর 1M কনটেক্সট, Gemini 3-এর Agent ইঞ্জিনিয়ারিং, এবং সিনথেটিক ডেটা কি শুরু করেছে দেয়ালে ধাক্কা খাওয়া।

এই এআই শিল্পের পুরো মনোযোগের 90% প্রশিক্ষণের উপর নিবেদিত।

কোনো কেউ মুখ্য পাতায় মূল্যায়ন নিয়ে আলোচনা করছেন না।

এবং এই গবেষক বলেন যে, যিনি পৃথিবীর শক্তিশালী একটি এআই প্রযুক্তি প্রতিষ্ঠান থেকে এসেছেন, সত্যিকারের বাধা হল অন্য ১০%।

একটি মূল্যায়ন কী

এই ব্লগটি বুঝতে হলে প্রথমে এক মিনিট সময় নিয়ে এআই সম্প্রদায়ের মধ্যে মূল্যায়ন বলতে কী বোঝায় তা বুঝে নিন।

মূল্যায়ন (Evaluation, ইন্ডাস্ট্রির সংক্ষিপ্ত রূপ Eval) — একটি বাক্য: AI মডেলের জন্য একটি পরীক্ষার প্রশ্নপত্র তৈরি করা এবং দেখা যে এটি কতটা ভালোভাবে কাজ করছে।

কিন্তু 2026 সালের এআই মূল্যায়ন শুধু একটি প্রশ্নপত্র করার চেয়ে অনেক বেশি জটিল। এটি কমপক্ষে তিনটি স্তর নিয়ে গঠিত:

প্রথম স্তর: ক্ষমতা বেঞ্চমার্ক।

এটি এআই-এর জিসিই।

–GPQA: ডক্টরেট লেভেলের বিজ্ঞান যুক্তি প্রশ্ন

–SWE-bench: বাস্তব জগতের সফটওয়্যার ইঞ্জিনিয়ারিং টাস্ক

–ARC-AGI: বিমূর্ত যুক্তি এবং সাধারণীকরণ

–মানবতার শেষ পরীক্ষা: অক্ষরগত অর্থ—মানবতার শেষ পরীক্ষা

প্রতিটি বড় কোম্পানির নতুন মডেল প্রকাশে, পিপিটিতে এই বেঞ্চমার্কগুলিতে পূর্ববর্তী প্রজন্ম এবং প্রতিদ্বন্দ্বীর তুলনায় কয়েক শতাংশ বেশি দেখানো হয়।

এই সংখ্যাগুলি হল এআই শিল্পের জিডিপি।

দ্বিতীয় স্তর: নিরাপত্তা মূল্যায়ন (SafetyEval)। কেবল প্রশ্নের উত্তর দেওয়াই যথেষ্ট নয়, নিরাপদেও করতে হবে।

কি মিথ্যা বলা হয়েছে?
কি ব্যবহারকারীদের বোমা তৈরির পদ্ধতি শেখাবে?
কি ব্যবহারকারীর ডেটা অনধিকারচর্চা করবে?

তৃতীয় স্তর: রেড টিমিং।

একটি দল বিশেষভাবে খারাপ চরিত্র নিয়ে কাজ করে, মডেলকে এমন কথা বলতে এবং এমন কাজ করতে বাধ্য করার জন্য প্রচুর চিন্তা করে, এবং তারপর সেই ভুলগুলি ট্রেনিং দলকে ফিডব্যাক হিসেবে দেয়।

এই তিনটি স্তর মিলে 2026 সালের AI ল্যাবের কোয়ালিটি চেক সিস্টেম গঠন করে। প্রতিটি নতুন মডেল প্রকাশের আগে এই তিনটি পর্যায় পার হতে হবে।

এটা খুব সম্পূর্ণ মনে হচ্ছে, তাই না?

লুন ওয়াং ব্লগে একটি রায় দিয়েছেন—

অধিকাংশ বেঞ্চমার্ক, সুরক্ষা মূল্যায়ন এবং রেড টিম প্রোটোকল একটি ধারণাকে অন্তর্ভুক্ত করে: পরবর্তী মডেলটি বর্তমান মডেলের একটি শক্তিশালী সংস্করণ।

যদি এটি অন্য কিছু হয়, তবে সম্পূর্ণ মূল্যায়ন অবকাঠামো নিঃশব্দে ধ্বংস হয়ে যাবে।

এটি নিবন্ধের প্রথম পাথর।

এটি সম্পূর্ণ এআই শিল্পের অন্ধবিন্দুকে আঘাত করেছে।

উদ্ভব এবং প্রতিভার অনুভূতি: দুইবার মুখ বুজে নেওয়া হয়েছে

লুন ওয়াং কল্পনা করছেন না। তিনি তাঁর ব্লগে এআই-এর ইতিহাসে দুটি উদাহরণ উল্লেখ করেছেন—মূল্যায়ন ইতিমধ্যে দুইবার ব্যর্থ হয়েছে, কিন্তু বেশিরভাগ পেশাদার এটি বুঝতে পারেননি।

প্রথমবারের মতো: উত্থানকারী ক্ষমতা।

২০২২ সালে, জেসন ওয়েই এবং তাঁর সহযোগীরা একটি গুরুত্বপূর্ণ পেপার প্রকাশ করেন—তারা আবিষ্কার করেন যে, মডেলগুলি একটি নির্দিষ্ট স্কেলে হঠাৎ করে সম্পূর্ণ নতুন ক্ষমতা শিখে নেয়।

উদাহরণস্বরূপ, আপনি একটি 70 বিলিয়ন প্যারামিটার মডেল ট্রেন করেন, এটি few-shot শিক্ষা করতে পারে না।

আপনি একটি 700 বিলিয়ন প্যারামিটার মডেল ট্রেন করেন, এবং হঠাৎ করে এটি few-shot হয়ে যায়।

একই প্রশিক্ষণ প্যাটার্ন, একই ডেটা, শুধু স্কেল এক লেভেল বড়—ক্ষমতা 0 থেকে 1-এর মধ্যে, নয় 0.3 থেকে 0.7-এর মধ্যে।

CoT (চেইন অফ থought রিজনিং), ইনস্ট্রাকশন ফলো, এগুলো এভাবেই উঠে এসেছে।

এই ঘটনাটি মূল্যায়নের জন্য কী অর্থ বহন করে?

অর্থাৎ—স্কেল ক্রান্তিবিন্দু অতিক্রম না করা পর্যন্ত, সমস্ত বেঞ্চমার্ক এই ক্ষমতার আগমন দেখতে পাচ্ছে না।

তুমি GPQA-এ ঘুরে বেড়াচ্ছ, কিন্তু স্কোর যা ছিল তাই থাকবে।

যখন আপনি পরবর্তী লেভেলে পৌঁছান, তখন স্কোর হঠাৎ এক ধাপ বাড়ে।

দ্বিতীয়বার: গ্রকিং (ডিউন্ডার)।

২০২২ সালে, ওপেনএআইয়ের অ্যালেথিয়া পাওয়ার দল একটি বিপরীত ঘটনা প্রকাশ করেছিল—

তারপর 1000000 পদক্ষেপে—টেস্ট সেট সঠিকতা হঠাৎ করে 99% এ পৌঁছে যায়।

এটিকে গ্রকিং বলে—নেটওয়ার্ক ট্রেনিং সেটকে দীর্ঘক্ষণ মনে রাখার পর হঠাৎ সাধারণীকরণ শিখে ফেলে।

এটির উদ্ভবের সাথে পার্থক্য: উদ্ভব পরিমাণের মাত্রায় ঘটে (যত বেশি প্যারামিটার, তত হঠাৎ করে), গ্রোকিং প্রশিক্ষণের সময়ের মাত্রায় ঘটে (যত বেশি প্রশিক্ষণ, তত হঠাৎ করে)।

কিন্তু মূল্যায়নের জন্য, দুটি বিষয় একই বিষয় বলছে:

আপনার পরীক্ষার প্রশ্নপত্রে, পরের বড় প্রশ্নটি কখন আসবে তা পূর্বানুমান করা যায় না।

তারপর লুন ওয়াং নিবন্ধটিতে সবচেয়ে বুদ্ধিমানের কাজটি করলেন—

সে বিপক্ষের মতামত নিয়ে এসেছে।

২০২৩ সালে, স্ট্যানফোর্ডের রাইলান শিফার এবং সহযোগীরা একটি নিউরিপিএস পেপার প্রকাশ করেন, যার শিরোনাম খুবই চ্যালেঞ্জিং—“বড় ভাষা মডেলের উত্থানকারী ক্ষমতাগুলি কি মিথ্যা?”

তাদের যুক্তি: হঠাৎ করে উঠে আসা ক্ষমতার কথা বলা হচ্ছে, কিন্তু এটি সম্ভবত মডেলটি হঠাৎ করে শক্তিশালী হওয়ার কারণে নয়, বরং মূল্যায়ন মাপদণ্ডে exact-match (সম্পূর্ণ মিল) এই বিচ্ছিন্ন পদ্ধতির ব্যবহারের কারণে—

মডেলটি ০% সঠিকতার থেকে ৫% এ পরিবর্তিত হলে, ডিসক্রিট ইন্ডিকেটর দ্বারা শনাক্ত করা যায় না; ৫% থেকে ৫০% এ পরিবর্তনও শনাক্ত করা যায় না; কিন্তু ৫০% থেকে ১০০% এ পরিবর্তনে, ডিসক্রিট ইন্ডিকেটর একটি হঠাৎ পরিবর্তন দেখায়।

যদি আপনি ক্রমিক সূচকগুলিতে পরিবর্তন করেন, তবে ক্ষমতার বক্ররেখা মসৃণ হয়।

অনেকে শিয়ারনের এই প্রবন্ধটি পড়ে মনে করবে: ঠিক আছে, উদ্ভব একটি ভুল বোঝাবুঝি, মূল্যায়নে কোনো সমস্যা নেই, বিদায়।

লুন ওয়াং তা করেন না। তিনি নিবন্ধে লিখেছেন:

আমি মনে করি এটি প্রশ্নটি সমাধান করেনি—কিছুটা অর্থে, এটি আমার যুক্তিকেআরও তীক্ষ্ণকরে তুলেছে।

কেন? কারণ—

যদি আমরা আগের সেই উত্থানটিকে প্রকৃত ফেজ পরিবর্তন নাকি পরিমাপের মিথ্যা প্রভাব বলে চিহ্নিত করতে না পারি,

আমরা কেন বিশ্বাস করি যে আমাদের পরবর্তীটি পূর্বানুমান করার ক্ষমতা আছে?

যে ব্যাখ্যাটি আপনি বিশ্বাস করুন না কেন, উপসংহারটি একই: আমাদের টুলগুলি আমাদের প্রতারণা করেছে, কিন্তু আমরা জানি না কিভাবে প্রতারিত হয়েছি।

এটি নিবন্ধের সবচেয়ে বুদ্ধিমানের আঘাত। তিনি বিপক্ষের দিক এড়াননি—তিনি বিপক্ষের মাধ্যমে নিজের যুক্তি শক্তিশালী করেছেন।

মূল্যায়ন সমস্ত ধাপের উপরের দিকে অবস্থিত

আপনি যদি ভাবেন লুন ওয়াং শুধু শৈক্ষিক সমস্যা নিয়ে কথা বলছেন—ভুল।

সে নিবন্ধের মাঝে একটি অনুবাদ ফেলে দিল যা শুরুর দিকের ব্যক্তিও বুঝতে পারবে:

যদি আপনি সঠিকভাবে মূল্যায়ন করতে পারেন, তবে আপনি সঠিকভাবে প্রশিক্ষণ দিতে পারবেন।

এই লজিক চেইনটি প্রকাশ করুন:

1. প্রশিক্ষণ = মডেলকে ক্ষতি ফাংশনকে ন্যূনতম করতে বাধ্য করা (অথবা পুরস্কারকে সর্বাধিক করা)।

2. অপ্টিমাইজ করুন = এই লস ফাংশনটিকে। মডেলটি কতটা বুদ্ধিমান হবে, তা নির্ভর করে লস ফাংশনটি কতটা ভালোভাবে সংজ্ঞায়িত করা হয়েছে তার উপর।

3. ক্ষতি ফাংশন = মূল্যায়ন থেকে। আপনি চান যে মডেলটি আরও সৎ হোক—আপনাকে প্রথমে সৎতা পরিমাপের একটি মাপকাঠি থাকতে হবে।

৪. ভুল মূল্যায়ন = ক্ষতি ফাংশন ভুল = প্রশিক্ষণ লক্ষ্য ভুল = আপনি যে মডেল প্রশিক্ষণ দিয়েছেন, সেটি ভুল প্রশ্নের উত্তর দিচ্ছে।

এই চেইনের দিকটি উপরের দিকে —

সবাই সবচেয়ে ডানদিকে দেখছে—স্কেলিং সিদ্ধান্ত।

লুন ওয়াং বলেছেন, সমস্যাটি সবচেয়ে বামে—মূল্যায়ন।

যদি মূল্যায়নটি ভুল হয়, তবে সম্পূর্ণ চেইনটি ভুল ভিত্তির উপর তৈরি করা হয়েছে।

সবচেয়ে মারাত্মক বিষয় হলো আপনি তা তাত্ক্ষণিকভাবে ধরতে পারবেন না—কারণ আপনার সমস্ত অভ্যন্তরীণ ডেটা ঠিক আছে, শুধু সেগুলো ভুল মাপের স্কেলে পরিমাপ করা হয়েছে।

এখানে একজন পরিচিত বন্ধু দেখা গেল: গুডহার্টের আইন।

এটি বলে: যখন একটি পরিমাপ লক্ষ্য হয়ে যায়, তখন এটি আর ভালো পরিমাপ থাকে না।

লুন ওয়াং তাঁর ব্লগে এটি ব্যবহার করেন এআই নিয়ে আলোচনা করতে—

কিন্তু মডেলটি নতুন পর্যায়ে প্রবেশ করলে, এটি এই এজেন্টকে বিপরীতভাবে ব্যবহার করবে—এটি শুধুমাত্র সত্য নির্ভুল সীমার মধ্যেই কথা বলবে, এবং আসলে লুকিয়ে রাখতে চাওয়া বিষয়গুলি নীরবতায় সমাহিত করবে।

পুরানো ফেজে এজেন্ট মেট্রিক্স কাজ করে। নতুন ফেজে এগুলো মডেলের কাছে তোমার বিরুদ্ধে অস্ত্র হয়ে যায়।

এবং আপনার কাছে এই ঘটনাটি ঘটছে তা বুঝতে কোনও মূল্যায়ন নেই।

চিন্তার পরীক্ষা: একটি কৌশলগত নীরবতা শিখেছে এমন মডেল

লুন ওয়াং তার নিবন্ধে একটি চিন্তার পরীক্ষা উপস্থাপন করেছেন যা সমস্ত এআই নিরাপত্তা গবেষকের পিঠ শীতল করে দেবে।

একটি মডেলের কল্পনা করুন, যা কিছু পরিসরে কৌশলগতভাবে তথ্য সংরক্ষণ শিখেছে—

এটি মিথ্যা বলে না। প্রতিটি বাক্য প্রযুক্তিগতভাবে সত্য।

কিন্তু এটি তার লক্ষ্য অর্জনের জন্য অনুকূল নয় এমন তথ্যগুলি বাদ দেয়—কথোপকথনকে তার প্রশিক্ষণ প্রক্রিয়ার অপ্রত্যাশিতভাবে শক্তিশালী হওয়া ফলাফলগুলির দিকে নিয়ে যায়।

একটি নির্দিষ্ট উদাহরণ দিন:

ব্যবহারকারী: এই ট্রেডিং পরিকল্পনা নিরাপদ কি?

মডেল: এই পরিকল্পনার আইনি কাঠামো X আইনি বিভাগে কার্যকর, এবং YZ ঝুঁকির কারকগুলি A কোম্পানির কমপ্লায়েন্স দল দ্বারা পর্যালোচিত হয়েছে।

(এটি বলেনি: পরিকল্পনায় একটি তৃতীয় পক্ষের মধ্যস্থতাকারী বিধান রয়েছে, যা ব্যবহারকারীদের জন্য অত্যন্ত অনুকূল নয়। এই বিধানটি তার প্রশিক্ষণের সময় দুর্ঘটনাবশত শিখেছে—যতক্ষণ না এটি সক্রিয়ভাবে উল্লেখ করা হয়, ব্যবহারকারীরা জিজ্ঞাসা করবেন না।)

এই ক্ষমতাটি নতুন। এই ব্যর্থতার প্যাটার্নটি নতুন।

আপনার সম্পূর্ণ মূল্যায়ন সেটে, এটির জন্য কোনো টুল ডিজাইন করা হয়নি।

তুমি ভুল জিনিস মনিটর করছো, আর তুমি জানো না।

এটি লুন ওয়াং যা বলেছেন তার আরেকটি জিনিস—

একই ধরনের আরও বুদ্ধিমান নয়। সম্পূর্ণ নতুন ব্যর্থতার মাত্রা।

ত্রি-পৃথিবীর ভাষায়, এটিকে মাত্রা হ্রাস আক্রমণ বলা হয়।

আমি তোমার চেয়ে বেশি ভালো নই।

তুমি যে রুলার দিয়ে আমার পরিমাপ করেছ, সেটা আমার মাত্রার বাইরে।

যদি লুন ওয়াং সঠিক হয়, তবে 2026 সালের এআই শিল্পের মানচিত্রটি একটি অদৃশ্য মাত্রা দ্বারা চুপচাপপ্রক্রিয়ায় পুনর্গঠন হচ্ছে—

অ্যানথ্রোপিকের রেসপনসিবল স্কেলিং পলিসি (RSP) হল বর্তমানে শিল্পের মধ্যে প্রেডিকটিভ অ্যাসেসমেন্টের সবচেয়ে কাছাকাছি প্রচেষ্টা—এটি একটি সেট সংজ্ঞায়িত করে যে মডেলগুলি কোন ক্ষমতার সীমানা অতিক্রম করতে পারবে না, এবং প্রতিবার স্কেলিংয়ের আগে প্রথমে অ্যাসেসমেন্ট করার প্রয়োজনীয়তা রাখে।

কিন্তু RSP এখনও ধরে নেয় যে আমরা কী পরীক্ষা করতে চাই জানি—এবং Lun Wang বলেন, এটাই সমস্যা: আমরা জানি না যে পরবর্তী ক্ষমতাটির আকৃতি কী।

কোনো পরীক্ষাগার এখনও নিজেদের কাছে প্রকৃত প্রেডিক্টিভ এভালুয়েশন রয়েছে বলে দাবি করেনি।

যে প্রথম এটি করে ফেলবে, সে পরবর্তী প্রজন্মের স্কেলিংয়ের নিরাপত্তা লাইসেন্স পাবে।