একটি মার্কিন সরকারি সংস্থা চীনের সবচেয়ে শক্তিশালী কৃত্রিম বুদ্ধিমত্তার জন্য একটি মূল্যায়ন প্রকাশ করেছে: আট মাস পিছিয়ে, এবং সময়ের সাথে সাথে এই ব্যবধান বাড়ছে। ইন্টারনেট ব্যবহারকারীরা এই মূল্যায়ন পদ্ধতি পড়ার পর বিভিন্ন প্রশ্ন তুলে ধরতে শুরু করেছেন।
CAISI—যেটি মার্কিন জাতীয় মান ও প্রযুক্তি প্রতিষ্ঠান (NIST)-এর একটি বিভাগ—মূল্যায়ন রিপোর্ট প্রকাশ করেছে ১ মে তারিখে DeepSeek V4 Pro-এর। উপসংহারটি হল: DeepSeek-এর ওপেন-সোর্স ফ্ল্যাগশিপ পণ্যটি “অগ্রণী প্রযুক্তির চেয়ে প্রায় ৮ মাস পিছিয়ে”।
CAISI এটিকে এপর্যন্ত মূল্যায়ন করা সবচেয়ে শক্তিশালী চীনা কৃত্রিম বুদ্ধিমত্তা মডেল হিসাবেও উল্লেখ করেছে।
রেটিং সিস্টেম
CAISI সাধারণ মূল্যায়ন সংস্থাগুলির মতো বেঞ্চমার্ক স্কোরগুলির গড় নেয় না। বরং, এটি প্রতিটি মডেলের সম্ভাব্য ক্ষমতা অনুমান করতে প্রতিক্রিয়া তত্ত্ব (একটি মানকীকৃত পরীক্ষা থেকে আগত পরিসংখ্যানগত পদ্ধতি) ব্যবহার করে, যা প্রতিটি মডেল কোন সমস্যাগুলি সমাধান করেছে এবং কোনগুলি সমাধান করেনি, তা অনুসরণ করে—পাঁচটি ক্ষেত্রে (সাইবার নিরাপত্তা, সফটওয়্যার ইঞ্জিনিয়ারিং, প্রাকৃতিক বিজ্ঞান, বিমূর্ত যুক্তি এবং গণিত) নয়টি বেঞ্চমার্কে।
IRT এর অনুমান অনুযায়ী ইলো স্কোর, GPT-5.5 এর স্কোর 1260, Anthropic-এর Claude Opus 4.6 এর স্কোর 999। DeepSeek V4 Pro এর স্কোর প্রায় 800 (±28), যা GPT-5.4 mini এর 749 এর খুব কাছাকাছি। CAISI স্কোরিং সিস্টেমে, DeepSeek প্রায় Opus-এর চেয়ে পূর্বপুরুষ GPT mini-এর কাছাকাছি।
বেঞ্চমার্কে স্কোরিং সিস্টেমটি মানকীকৃত পরীক্ষার মতো ছাত্রদের স্কোর দেওয়ার পদ্ধতিকে অনুকরণ করে—সরাসরি সঠিক উত্তরের হারের ভিত্তিতে নয়, বরং ছাত্রদের দ্বারা সঠিকভাবে এবং ভুলভাবে উত্তর দেওয়া প্রশ্নগুলিরও ওজন বিবেচনা করে স্কোরের একটি অনুমান প্রদান করে। এই স্কোরের অনুমানটি শুধুমাত্র অন্যান্য মডেলগুলির সাথে একই মূল্যায়নের সময়ই আপেক্ষিকভাবে অর্থপূর্ণ। সাধারণত, যত বেশি স্কোর, তত ভালো মডেল, এবং সর্বোত্তম মডেলের স্কোরটি মডেলের ক্ষমতা পরিমাপের জন্য একটি রেফারেন্স পয়েন্ট হয়ে দাঁড়ায়।
যেহেতু নয়টি বেঞ্চমার্কের মধ্যে দুটি প্রকাশিত নয় এবং এই দুটি পরীক্ষায় পার্থক্য সবচেয়ে বেশি, তাই CAISI-এর ফলাফল পুনরায় উৎপাদন করা সম্ভব নয়। উদাহরণস্বরূপ, GPT-5.5 CAISI-এর একটি সাইবার সিকিউরিটি টেস্ট CTF-Archive-Diamond-এ 71% স্কোর করেছে, যখন DeepSeek-এর স্কোর মাত্র 32% এর কাছাকাছি।
পাবলিক বেঞ্চমার্কে পরিস্থিতি ভিন্ন। GPQA-Diamond টেস্ট (ডক্টরেট লেভেলের বিজ্ঞানীয় যুক্তিবিদ্যা টেস্ট, যা সঠিকতার ভিত্তিতে স্কোর করা হয়) এ, DeepSeek-এর স্কোর 90%, যা Opus 4.6-এর 91% থেকে শুধু 1% কম। ম্যাথেমেটিক্স অলিম্পিয়াড বেঞ্চমার্ক (OTIS-AIME-2025, PUMaC 2024 এবং SMT 2025) এ, DeepSeek-এর স্কোর যথাক্রমে 97%, 96% এবং 96%। SWE-Bench Verified টেস্টে (যা GitHub-এর বাস্তব বাগ ফিক্সের উপর ভিত্তি করে সমাধানের হারের ভিত্তিতে স্কোর করা হয়), DeepSeek-এর স্কোর 74%, যখন GPT-5.5-এর স্কোর 81%। DeepSeek-এর নিজস্ব টেকনিক্যাল রিপোর্টে দাবি করা হয়েছে যে V4 Pro-এর পারফরম্যান্স Opus 4.6 এবং GPT-5.4-এর সমান।
খরচ তুলনার জন্য, CAISI সমস্ত ডিপসিকের চেয়ে পারফরম্যান্স প্রকাশ্যে কম বা একটি টোকেনের খরচ ডিপসিকের চেয়ে প্রকাশ্যে বেশি অমেরিকান মডেলগুলি বাদ দিয়েছে। শেষ পর্যন্ত কেবলমাত্র একটি মডেল মানদণ্ড পূরণ করেছে: GPT-5.4 mini। এটি প্রায় সমস্ত অগ্রণী মডেলগুলির সমন্বয়, যা শেষ পর্যন্ত একটিই রেখেছে।
DeepSeek সাতটি বেঞ্চমার্কের মধ্যে পাঁচটিতে সস্তা এবং এমনকি OpenAI-এর সবচেয়ে ছোট এবং সবচেয়ে কম ক্ষমতাসম্পন্ন AI মডেলকেও পরাজিত করেছে।
প্রতিবাদ: ব্যবধানটি বড় নাকি ছোট?
CAISI-এর পদ্ধতিকে সমালোচনা করলে শুধুমাত্র DeepSeek-এর সঠিকতা প্রমাণিত হয় না। এই CAISI নামে পরিচিত AI ডেভেলপার Ex0bit সরাসরি প্রত্যুত্তর দিয়েছেন: “কোনো ‘ব্যবধান’ই নেই, কেউ ৮ মাস পিছিয়েও নেই। প্রতিবার আমাদের অনুষ্ঠানের অন্তর্গত বিক্রির সময় আমাদের উপহাস করা হয়, আর পাবলিক বিক্রির সময় আবার আমাদের উপহাস করা হয়।”
মানবিক বুদ্ধিমত্তা বিশ্লেষণ স্মার্ট ইনডেক্স v4.0 (একটি 10টি মূল্যায়নের মাধ্যমে অগ্রণী মডেলের বুদ্ধিমত্তা ট্র্যাক করে এমন রেটিং সিস্টেম) দেখায় যে, 2026 সালের মে পর্যন্ত, OpenAI-এর স্কোর 60-এর কাছাকাছি, যখন DeepSeek-এর স্কোর প্রায় 50, যা এক বছর আগের তুলনায় অনেক বেশি কমেছে।
স্ট্যান্ডার্ডাইজড বেঞ্চমার্কের ভিত্তিতে, তাদের পদ্ধতি দেখায় যে ব্যবধানটি আসলে কমছে।
ডিপসিক প্রথম দেখা গেল 2025 সালের জানুয়ারিতে, প্রশ্ন ছিল চীন কি এখন মার্কিন যুক্তরাষ্ট্রকে অতিক্রম করেছে।মার্কিন যুক্তরাষ্ট্রের প্রতিটি পরীক্ষাগার জরুরি প্রতিক্রিয়া জানায়। স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের 2026 সালের কৃত্রিম বুদ্ধিমত্তা সূচক—13 এপ্রিল প্রকাশিত—এ বলা হয়েছে, Claude Opus 4.6 এবং চীনের Dola-Seed-2.0 Preview-এর মধ্যে Arena র্যাঙ্কিংয়ের পার্থক্য কমে আসছে, এখন এটি মাত্র 2.7%।
CAISI শীঘ্রই আরও সম্পূর্ণ IRT পদ্ধতির বর্ণনা প্রকাশ করবে।
