এআই সবকিছু খেয়ে ফেলার পর, কী অট্রেন করা যায় না?

ভূমিকা: যখন এআইয়ের ক্ষমতা নিয়মিত উন্নতি ঘটছে, তখন বিনিয়োগ বিশ্বে একটি নতুন নিষ্ঠুর মতামত দেখা দিয়েছে: যদি মডেলগুলি আরও শক্তিশালী হয়ে উঠে, তবে সমস্ত অ্যাপ্লিকেশন কোম্পানি চূড়ান্তভাবে Anthropic, OpenAI, Nvidia-এর মতো মডেল এবং কম্পিউটিং লেয়ারগুলির দ্বারা গ্রাস হয়ে যাবে, এবং বাজারে শুধুমাত্র অগ্রণী মডেল, কম্পিউটিং এবং কয়েকটি অবকাঠামোই অবশিষ্ট থাকবে। কিন্তু Sarah Guo-এর মতে, এই মতামতটি শুধুমাত্র অর্ধেকটা সঠিক। সেই «thin wrapper» (পাতলা প্যাকেজিং, অর্থাৎ মডেলের সহজ ওভারলে)গুলি প্রকৃতপক্ষে শোষিত হয়ে যাবে, এবং যেসব কাজগুলি benchmark (বেঞ্চমার্ক) দ্বারা মাপা যায়, পাবলিক ডেটা দিয়ে ট্রেনড হয়, এবং কমখরচে যাচাইকরণযোগ্য, সেগুলিও ধীরেধীরে কমোডিটি-এ পরিণত হবে।

সত্যিকারের প্রশ্নটি হল: এআই যা কিছু ট্রেন করা যায় তা গ্রাস করে ফেলার পর, কী এখনও ট্রেন করা যায় না?

এই প্রশ্নের উত্তর হল সেই মূল্যগুলি যা বাস্তব সংগঠনের ভিতরে বিদ্যমান এবং বাইরে থেকে সহজেই অনুলিপি করা যায় না: কোম্পানির ব্যক্তিগত ডেটা, জটিল কাজের প্রবাহ, ব্যবহারকারীর বিশ্বাস, সিস্টেমের অনুমতি, শিল্পের বিচার, আইনগত দায়বদ্ধতা, এবং দীর্ঘকালীন পরিচালনার মাধ্যমে অর্জিত অভিজ্ঞতা। মডেলগুলি আরও বুদ্ধিমান হতে পারে, কিন্তু এগুলি স্বয়ংক্রিয়ভাবে ব্যাংকের উৎপাদন সিস্টেমে প্রবেশ করতে পারে না; এগুলি চিকিৎসা-সংক্রান্ত উত্তর তৈরি করতে পারে, কিন্তু ডাক্তারদের বিশ্বাস এবং হাসপাতালের সিদ্ধান্ত-গ্রহণের প্রক্রিয়ায় সরাসরি প্রবেশ করতে পারে না; এগুলি আইনি টেক্সট লিখতে পারে, কিন্তু অভিজ্ঞ আইনজীবীদের দায়িত্ব বহন করতে পারে না, এবং "যথাযথ" আইনি কাজের সংজ্ঞাও স্বয়ংক্রিয়ভাবে প্রদান করতে পারে না।

অতএব, ভবিষ্যতের সত্যিকারের প্রতিযোগিতামূলক সুবিধা সম্পন্ন AI কোম্পানিগুলি শুধুমাত্র সাধারণ মডেলের চেয়ে বেশি বুদ্ধিমান হওয়ার চেয়ে, কোনো শিল্পের ভিতরে গভীরভাবে প্রবেশ করে কঠিন কিন্তু অপরিহার্য “অনুবাদ” কাজটি সম্পন্ন করবে: গ্রাহকদের ব্যক্তিগত বাস্তবতা, টুলস, প্রক্রিয়া এবং বিচারের মানদণ্ডগুলিকে এমন একটি সিস্টেমে সংগঠিত করা যা মডেলগুলি কার্যকরভাবে ব্যবহার করতে পারে, এবং দীর্ঘমেয়াদি পরিষেবার মধ্যে “কী একটি ভালো ফলাফল”-এর সংজ্ঞা ধাপে ধাপে লিখে ফেলবে। AI যতই শক্তিশালী হবে, মাপা যায়, পুনরাবৃত্তি করা যায় এমন কাজগুলির মূল্য ততই হ্রাস পাবে; এবং ইতিহাস, সম্পর্ক, অধিকার এবং 전문সিদ্ধান্তযুক্ত “অপ্রশিক্ষণযোগ্য” জিনিসগুলির গুরুত্বও ততই বেড়ে উঠবে। এটিই হলো, মডেলগুলির আত্মসাৎকরণের পরও সংরক্ষিত থাকার সম্ভাবনা রাখা সত্যিকারের মূল্য।

নিম্নলিখিত মূল পাঠ:

২০২৬ সালের মধ্যে, বিনিয়োগকারীদের জন্য “এআই মানসিক বিকার” হল একটি নিরাশার অনুভূতি যে এখন আর কিছুই বিনিয়োগের মতো নয়: আমাদের সব টাকা Anthropic এবং Nvidia-এ বিনিয়োগ করে বাড়িতে ঘুমাতে যাওয়া উচিত। কিন্তু আমি কখনও এই অনুভূতি পাইনি। গত কয়েকটি ছোট ভার্সন থেকেই আমি প্রতিদিন বিশ্বাস করি যে মডেলগুলি আমার চেয়ে বেশি বুদ্ধিমান; Anthropic এবং Nvidia-এর বাজার মূল্যে কিনলেও আমি খুশি হব; আমার চারপাশের সবচেয়ে বুদ্ধিমান বন্ধুরাও প্রায় নিশ্চিত যে মডেলগুলির স্ব-উন্নয়ন খুব শীঘ্রই প্রকৃতপক্ষে কাজ করবে—কিন্তু আমি এখনও এই নিরাশার অনুভূতি পাইনি।

এই নিরাশা বোকামি নয়। এর যুক্তি এই রকম: যদি মডেলটি সবকিছুতে ধারাবাহিকভাবে শক্তিশালী হয়ে উঠে, তাহলে মডেলের উপর ভিত্তি করে গড়ে উঠা সব কোম্পানি শুধুমাত্র মডেল দ্বারা শোষিত হওয়ার জন্য অপেক্ষা করছে এমন পাতলা একটি আবরণ; চূড়ান্তভাবে বাকি থাকা মূল্য শুধুমাত্র ক্যালকুলেশন ক্ষমতা এবং অগ্রণী মডেল ওজন।

সফটওয়্যারের উদাহরণে, এটি এই নিরাশার অনুভূতির সবচেয়ে প্রাধান্যপ্রাপ্ত কেস। 2024 সালে ডিভিন প্রকাশের সময়, এটি মাত্র স্ট্যান্ডার্ড সফটওয়্যার বেঞ্চমার্কের 13% কাজ সমাধান করতে পারত, ফলে বাজার এটিকে প্রায় উপেক্ষা করেছিল। এক বছর অর্ধেক পরে, সবচেয়ে শক্তিশালী এজেন্টগুলি 80% এরও বেশি স্কোর অর্জন করছে এবং গোল্ডম্যান স্যাক্স এবং মার্কিন সেনাবাহিনীর ভিতরে বাস্তব কাজগুলি পরিচালনা শুরু করেছে। প্র практически সবাই একইভাবে ভুল উপসংহারে পৌঁছেছে: মডেলটি সফটওয়্যার ইঞ্জিনিয়ারিংকে গ্রাস করেছে।

কিন্তু যখন মডেলটি সফটওয়্যার ইঞ্জিনিয়ারিংয়ের সবচেয়ে সহজে পরিমাপযোগ্য অংশটি গ্রাস করে, তখন আমরা অনেক দল যা জানত তার পুনরায় চেনাচেনি করছি: ইঞ্জিনিয়ারিং সবসময়ই পরিমাপের বিরুদ্ধে ছিল, এবং সবচেয়ে সহজে পরিমাপযোগ্য অংশটি একমাত্র গুরুত্বপূর্ণ অংশ নয়।

এমআইটির মার্ট ডেমিরার এবং তাঁর সহযোগীরা চূড়ান্তভাবে এটি পরিমাপ করেছেন: ১০ লক্ষেরও বেশি ডেভেলপারের মধ্যে, সর্বশেষ প্রজন্মের কোডিং এজেন্ট কোড লেখার পরিমাণ প্রায় ১৮০% বাড়িয়েছে, কিন্তু বাস্তবে লাইভে চলে যাওয়া কোডের পরিমাণ মাত্র ৩০% বেড়েছে। কোড লেখা সস্তা হয়েছে, কিন্তু বাকি ধাপগুলি এখনও মানুষের হাতের মধ্যে রয়েছে, এবং এই ধাপগুলি অত্যন্ত গুরুত্বপূর্ণ। অবশ্যই, মোট পরিষ্কার প্রভাব এখনও অবিশ্বাস্য।

বেঞ্চমার্ক হল এমন কিছু যা আপনি পরিমাপ করতে পারেন; এবং যা কিছু পরিমাপ করা যায়, তা প্রশিক্ষণের জন্য ব্যবহার করা যায়। তাই, কোডিং এজেন্ট সবচেয়ে আগে পরিপক্ক হয়: কম্পাইলার হল বিনামূল্যের যাচাইকারী, টেস্ট স্যুটও বিনামূল্যের যাচাইকারী। যখন উত্তরটি প্র практически শূন্য খরচে নিজেকে যাচাই করতে পারে, তখন আপনি এই যাচাইকরণ সংকেতের চারপাশে ঘুরেবেড়াতে পারেন, যতক্ষণ না আপনি এটিকে ভেদ করে ফেলেন।

কিন্তু পরীক্ষা করে দেখা মানে এই পরিবর্তনটি একটি দশ বছর ধরে চলছে কোডবেসের জন্য সঠিক হবে এমন নয়। সেই মডিউলটি যেহেতু বিদ্যমান, তার পিছনে তিনটি কারণ থাকতে পারে যা কেউ ডকুমেন্টেশনে লেখেনি; ডিপ্লয়মেন্ট পাইপলাইনটি হয়তো এমন একটি cron job-এর উপর নির্ভরশীল, যার কেউ নিজেকে লিখেছেন বলে স্বীকার করতে চায় না।

এই সঠিকতা র‍্যাঙ্কিংয়ের মাধ্যমে পড়া যায় না, এমনকি কোনো কিছু থেকেও সরাসরি পড়া যায় না। আপনি শুধুমাত্র একটি এতটাই জটিল সিস্টেমকে বাস্তব জগতে যথেষ্ট দীর্ঘক্ষণ চালানোর মাধ্যমেই জানতে পারবেন যে এটি প্রকৃতপক্ষে কার্যকর কিনা। আর আরও বুদ্ধিমান মডেলগুলি বাস্তব জগতকে দ্রুততর চালায় না। কেউই Google-এর মতো বিশাল সিস্টেমের ইউনিট টেস্টগুলি চালানোর পরে, সবকিছুতে সবুজ চিহ্ন দেখেই পুরোপুরি আস্থা রাখে না। আপনি এটিকে বিশ্বাস করেন, কারণ এটি বছরখানেক বাস্তব লোডের সম্মুখীন হয়েছে।

এই সঠিকতা শুধু ব্যক্তিগত নয়, বরং এটি ধীরে ধীরে গড়ে উঠা একটি প্রতিরক্ষা প্রাচীর, যা মূলধন দ্বারা সরাসরি সময় চাপিয়ে দেওয়া যায় না। এমনকি আশাবাদীরাও স্বীকার করেন যে, এই ঘড়িটি লাফিয়ে যাওয়া যায় না। OpenAI রিজনিং মডেলের পথিকৃৎ নোম ব্রাউন সম্প্রতি লিখেছেন: একটি এজেন্টের এক বছরের সময়কালের পারফরম্যান্স মূল্যায়নের একমাত্র নির্ভরযোগ্য পদ্ধতি হতে পারে এটিকে প্রকৃতপক্ষে একবছর চালিয়ে দেওয়া।

গেব পেরেয়রার মতে, প্রকৃত অটোমেশন শুধুমাত্র মডেলগুলি শক্তিশালী হওয়া নয়। এটি পণ্য, মডেল, কাজের প্রবাহ এবং কোম্পানির সংগঠন একসাথে পরিবর্তিত হওয়া। এই চারটির মধ্যে, তিনটি সংগঠনের গতিতে এগিয়ে যায়।

কোনো বেঞ্চমার্কই যে কিছু স্পর্শ করে না, তা হলো লোকদের কাজে লাগানো: একজন সন্দেহপ্রবণ অংশীদারকে তার কাজের পদ্ধতি পরিবর্তন করতে রাজি করানো, এবং একটি দলকে পুনর্গঠনের সময় একত্রিত রাখা। এই কারণেই আমরা CEO নিয়োগের সময় তার বিশ্লেষণাত্মক দক্ষতার সমান বা তারও বেশি গুরুত্ব দিই মানুষকে পরিচালনা করার দক্ষতার। মডেলগুলি বুদ্ধিমান হয়ে উঠলেও এই ওজন পরিবর্তিত হয় না।

এখানের ফিডব্যাক অস্পষ্ট, সময়ের পরিসর বছরে পরিমাপ করা হয়, আর বিশ্বাস কোনো নির্দিষ্ট ব্যক্তির সাথে জড়িত। আমি যে সব কোম্পানি চিনি, সবগুলোই প্রতিটি ইঞ্জিনিয়ারকে অগ্রণী কোডিং মডেল ব্যবহার করতে দিয়েছে, কিন্তু কোনো কোম্পানিরই ইঞ্জিনিয়ারিং সংগঠন মডেলের উন্নতির গতির কাছাকাছি পরিবর্তন হয়নি। টুল গ্রহণ শুধুমাত্র একটি ত্রৈমাসিক সময় নিয়েছে, আর সেই ত্রৈমাসিকটি ছিল কতটা অদ্ভুত! token-এর বৃদ্ধির! কিন্তু প্রকৃতপক্ষে পুনর্গঠনের জন্য বছরের প্রয়োজন।

দৃশ্যমান কাজগুলি চলে যাচ্ছে। সত্যিকারের মূল্যবান কাজগুলি গঠনগতভাবে অপঠনযোগ্য: যা কিছু আপনি র‍্যাঙ্কিংয়ে রাখতে পারেন, তা প্রশিক্ষণের জন্য ব্যবহার করা যায়; তাই, যা কিছু পরিমাপযোগ্য, তা ইতিমধ্যেই পণ্যীকরণের দিকে এগিয়ে যাচ্ছে। এই প্রক্রিয়াটির সময় লাগে, এবং এটি কখনই সম্পূর্ণরূপে শেষ হয় না, কিন্তু দিকটি কখনই উল্টায় না।

আমার বন্ধু, রিপলিংয়ের ম্যাট ম্যাকিনিসের কথায়, এটিকে মুদ্রা ভাষায় বললে: একটি টোকেন যদি শুধুমাত্র একটি সাধারণ প্রশ্নের উত্তর দেওয়ার জন্য ব্যবহৃত হয়, তবে এটি প্রায় কিছুই মূল্যবান নয়, কারণ যেকোনো মডেলই এই প্রশ্নের উত্তর দিতে পারে; কিন্তু একটি টোকেন যদি আপনার কোম্পানির ডেটার উপর ভিত্তি করে যুক্তি প্রয়োগ করে, তবে এটি অনেক বেশি মূল্যবান, কারণ এটি শুধুমাত্র যুক্তিসঙ্গত উত্তর তৈরি করে না, বরং আপনি যা চান তা করে।

পড়ার যোগ্য কাজ দুই দিক থেকে গ্রাস করা হবে।

নীচে থেকে দেখলে, কাজগুলি সম্পূর্ণ সম্পৃক্ত হয়ে যায়: একবার কোনও কাজ কম খরচে পরীক্ষা করা যায়, তখন ক্রেতারা এটি কোন মডেল দ্বারা সম্পন্ন হয়েছে তা নিয়ে আর চিন্তা করে না, বরং এটির দাম কত তা জিজ্ঞাসা করতে শুরু করে। তখন এই কাজটি সপ্তাহের সবচেয়ে সস্তা ওপেন-সোর্স বা ডিস্টিলেটেড মডেলের হাতে চলে যায়। যতক্ষণ মার্জিনগুলি কাজ করবে, শেষপর্যন্ত এটি অবশ্যই কাজ করবে।

উপর থেকে দেখলে, ল্যাবগুলি মডেলকে নিজের স্ক্যাফোল্ডিং গিলে ফেলতে চাইছে। রিট্রিভাল, সস্তা কল এবং মহং কলের মধ্যে রাউটিং, টুল ব্যবহার, এমনকি যুক্তিসঙ্গত কৌশল—যেসব জিনিস আগে মডেলের বাইরে ছিল, সবকিছুই মডেলেরওয়েটসের মধ্যে টানা হচ্ছে, যতক্ষণ না 'কোর্ট' নিজেই মডেল হয়ে যায়। এটিই শোষণ সীমানা।

লাভের চাপ অন্য দিক থেকেও কাজ করবে: একটি সাধারণ এজেন্টকে যেকোনো কিছু প্রস্তুত থাকতে হবে, তাই এর খরচ অনেক বেশি; কিন্তু একটি ফোকাসড অ্যাপ্লিকেশন একটি ওয়ার্কফ্লোকে চরম পর্যন্ত অপ্টিমাইজ করতে পারে, যাতে এটি শুধুমাত্র কিছুটা token খরচ করে। এবং, এই token-এর বিক্রয়ের মাধ্যমে লাভ করা ল্যাবগুলির বিপরীতে, অ্যাপ্লিকেশন কোম্পানিগুলি মধ্যবর্তী পার্থক্যটি নিজেদের মধ্যেই রাখতে পারে।

সুতরাং, আমরা যেকোনো কাজের জন্য দুটি প্রশ্ন তুলতে পারি: এর সঠিকতা কি ব্যক্তিগত এবং খরচি, এবং এটি কি শুধুমাত্র কোনো একটি কোম্পানির ডেটার ভিতরেই বিদ্যমান সত্য? এটি কি একটি বাহ্যিক ব্যক্তির প্রবেশাধিকারহীন সিস্টেমের মধ্যে বিচ্ছিন্ন? এই প্রশ্নগুলিকে কাজের সম্পৃক্ততার সাথে একত্রিত করলে, আমরা একটি 2×2 ম্যাট্রিক্স পাই।

যে কাজগুলি সম্পূর্ণরূপে সম্পৃক্ত এবং উত্তরগুলি প্রকাশিত, সেগুলি কমোডিটি টোকেনের ক্ষেত্র, যেখানে ওপেন-সোর্স মডেলগুলি বিজয়ী হবে। অগ্রণী কিন্তু উত্তরগুলি প্রকাশিত কাজগুলি, যেমন কোডিং বেঞ্চমার্ক, ল্যাবগুলির জয়ের ক্ষেত্র, কারণ যখন মূল্যায়ন বিনামূল্যে, তখন এটি অধিকার করা নিজেই মূল্যহীন।

সত্যিকারের পুরস্কারটি হল শেষ কোণাটি, অর্থাৎ "অপ্রশিক্ষিত" কোণাটি: অগ্রগামী কাজ, যার সঠিকতা শুধুমাত্র ব্যক্তিগত পরিবেশে বিদ্যমান। আপনি AI-নেটিভ প্রথম পথিকদের জন্য সার্ভিস প্রদানকারী রিজনিং ক্লাউডে এটি দেখতে পাবেন: বেশিরভাগ টোকেনই জেনেরিক ওপেন-সোর্স মডেলগুলির পরিবর্তে কাস্টম মডেলগুলি দ্বারা তৈরি হয়।

এই শেষ কোণার দিকে যাওয়ার দেয়াল উচ্চ ও নিম্ন। একজন ডেভেলপারের টয়ল কোডবেস স্থানান্তরযোগ্য এবং স্ট্যান্ডার্ডাইজড, তাই ভিতরে ঢোকা কঠিন নয়। কিন্তু একটি ব্যাংকের প্রডাকশন সিস্টেম স্থানান্তরযোগ্যও নয়, স্ট্যান্ডার্ডাইজডও নয়। আপনি SWE-Bench Verified-এ 2% বুদ্ধিমান হওয়ার কারণে এর root অ্যাক্সেস পাবেন না।

ক্ষমতা অনেক কিছু নিয়ে যায়, কিন্তু ভালো মডেলগুলি ব্যক্তিগত বাস্তব মানকগুলিকে প্রকাশ্য মানকে পরিণত করে না। এগুলি লাইসেন্স ধারণ করে না, দায়বদ্ধতার জন্য স্বাক্ষর করে না, এবং কোম্পানির কাগজপত্রও রাখে না; উত্তর ভুল হলে, এটি মামলা করা হওয়ার পক্ষেও হতে পারে না। এখানে বাধা বুদ্ধিমত্তা নয়, বরং অনুমতি এবং দায়বদ্ধতা। আপনি একটি মডেলকে কল্পনা করতে পারেন যা যেকোনো মানুষের চেয়ে অনেক বেশি বুদ্ধিমান, কিন্তু এটি এখনও ভিতরে ঢুকতে অনুমতি পাবে, এবং এটির কাজের জন্য এখনও কেউ নিজের নামের স্বাক্ষর দিবে।

দরজাটির একটি তালা এবং একটি বার রয়েছে।

সেই লকটি পরিবেশ: শুধুমাত্র একটি সিস্টেমের ভিতরে বিশ্বাস অর্জন করার পর, নিরাপত্তা পরীক্ষা সম্পন্ন করে, একীভূতকরণ সম্পন্ন করে এবং ফলাফলের দায়িত্বসহ চুক্তি স্বাক্ষর করার পরেই আপনি যাচাই করতে পারবেন যে AI কি সত্যিই কাজের কথা করেছে।

সেই লকটি হল ব্যবহারকারী। আজকাল, অধিকাংশ মার্কিন ডাক্তার প্রতিদিন OpenEvidence খুলেন, যা কোনও কম্পিউটেশনাল পাওয়ার দিয়ে কেনা যায় না। একটি ল্যাব আগামীকালই একটি আদর্শ মেডিকেল মডেল ট্রেন করতে পারে, কিন্তু এখনও এটি ডাক্তারদের ব্যবহারের অভ্যাসে বা UCSF-এর সিদ্ধান্ত গ্রহণের প্রক্রিয়ায় প্রবেশ করতে পারে না। কারণ বিশ্বাস ধীরে ধীরে সম্পর্ক এবং ব্যবহারকারীদের অনুমতির মাধ্যমে গড়ে ওঠে, গ্রেডিয়েন্ট ডিসেন্টের মাধ্যমে এগুলি মুছে ফেলা যায় না।

এটিই এপ্লিকেশন কোম্পানিগুলির কাজ। একটি এপ্লিকেশন যেন একটি “অপ্রশিক্ষিত” কোণে জায়গা করে নেয়, তার জন্য যেসব অপ্রখ্যাত কাজ প্রয়োজন: একটি কোম্পানির ব্যক্তিগত বাস্তবতা সংগঠিত করা, যাতে মডেলটি এটির উপর ভিত্তি করে কাজ করতে পারে; মডেলকে কার্যকলাপের সরঞ্জাম প্রদান করা; এবং গ্রাহকদের সাথে মিলে তাদের শ্রমিকদের বাস্তব কার্যকলাপ পরিবর্তন করা।

এই ধরনের “অনুবাদ” সম্পন্ন করতে পারে এমন একটি কোম্পানি পুনরায় প্রতিকৃতি করা কঠিন, এবং এই অনুবাদ কখনও শেষ হবে না। গ্রাহক সম্পর্কের সাথে সাথে একীকরণ এবং রক্ষণাবেক্ষণ চলতে থাকবে। এই বিষয়ে বিজয়ী হবে যারা ডোমেইন-স্পেসিফিক ইঞ্জিনিয়ার এবং টুলগুলিকে গ্রাহকদের পাশে রাখে।

উদাহরণস্বরূপ, একটি শীর্ষস্থানীয় প্রাচীন আইনি প্রতিষ্ঠানে শুধুমাত্র একত্রীকরণ ও অধিগ্রহণ বিষয়ক ব্যবসায়ে প্রতি বছর প্রায় একহাজারটি লেনদেন হয়। আপনি শত শত আইনি সহকারীকে আলাদাভাবে গ্রাহকের ফাইলগুলি ডেস্কটপে ডাউনলোড করে একটি সাধারণ এজেন্টের কাছে পাঠাতে পারবেন না। গোপনীয়তার কারণেই এটি অসম্ভব, তবে এছাড়াও দশটিরও বেশি অন্যান্য সমস্যা রয়েছে। এটি করা সম্ভব হলেও, আপনি শুধুমাত্র টুকরো টুকরো জ্ঞানই অর্জন করবেন: একজন সহকারী একবারে একটি ছোট সংশোধন করে, কেউই লেনদেনটির সম্পূর্ণ প্রবাহটি দেখতে পান না।

সত্যিকারের গুরুত্বপূর্ণ সংকেতগুলি ট্রেডিং লেভেলে বিদ্যমান। একটি ট্রেডের নিজস্ব আকৃতি রয়েছে: একিসিশনের ক্ষেত্রে, এটি হল NDA, টার্ম শীট, ডিলিজেন্স চেক, ক্রয় চুক্তি, সহায়ক দলিল, ডেলিভারি চেকলিস্ট; বুদ্ধিবৃত্তিক সম্পত্তির মামলার ক্ষেত্রে, এটি হল মোশন, ডিসকভারি, পূর্ববর্তী প্রযুক্তি, আরও মোশন। প্রতিটি ব্যবসায়িক ক্ষেত্রেরই নিজস্ব কাঠামো রয়েছে, যা আইনজীবীদের এবং টুলগুলিকে যেকোনোভাবে পরিবর্তনযোগ্য করে তোলে না।

আর এই আইনব্যবসার প্রকৃত সমাধানের প্রশ্নটি আরও উচ্চতর স্তরে: কিভাবে প্রতিটি ব্যবসায়িক ক্ষেত্রকে একসাথে চালানো যায়, যেমন শীর্ষ অংশীদাররা একসাথে শত শত বিষয় পরিচালনা করেন, নতুন ক্লায়েন্ট আকর্ষণ করেন এবং সহকারী আইনজীবীদের প্রশিক্ষণ দেন। এমন একটি কোম্পানির পুনর্গঠন হলো এমন একটি সমস্যা যা আপনি কোনো মূল্যায়ন কাজ হিসেবে লিখতে পারবেন না। এটির জন্য একজন অপারেটরকে 'ডেটা বেসবল'-এর মতো করে এটি পরিচালনা করতে হবে: মধ্যবর্তী লক্ষ্যগুলি অত্যন্ত অস্পষ্ট, ফিডব্যাক অসম্পূর্ণ, চক্রগুলি অত্যন্ত দীর্ঘ, এবং পরিবেশটিও নিজেই স্থির থাকবে না।

দুঃখজনকভাবে, অপঠনীয় মানগুলি বিক্রি করা কঠিন, কারণ এগুলি পণ্যীকরণ করা কঠিনের সমান কারণ: একটি কোম্পানি বাইরে থেকে বিচার করতে পারে না যে AI কি প্রতিযোগিতামূলক পরীক্ষাগুলিতে যেমন দেখানো হয়েছে তেমন এর অপারেশনগুলিকে পরিবর্তন করতে পারবে কিনা। তাই, সবচেয়ে শক্তিশালী কোম্পানিগুলি বাইরে নিজেদের প্রমাণ করার চেষ্টা বন্ধ করে দেয়, এবং প্রথমে গ্রাহকদের ভিতরের দিকে যায়, তারপর ফলাফলের জন্য মূল্য নির্ধারণ করে।

সিয়েরা শুধুমাত্র তখনই চার্জ করে যখন এর এজেন্ট গ্রাহকের সমস্যা সমাধান করে; যদি সমস্যাটি মানুষের হাতে পাঠানো হয়, তবে এটি কোনো চার্জ করে না। তাই, মূল্যটিই একটি মূল্যায়ন পদ্ধতি হয়ে দাঁড়ায়। এবং এটি কাজ করে, কারণ সিয়েরার কাছে ‘সমাধানকৃত’-এর সংজ্ঞা নির্ধারণের অধিকার রয়েছে। Cognition-এর Devin-এরও সফটওয়্যার ক্ষেত্রে একই কাজটি করা হয়েছে, “পারফরম্যান্স গ্যারান্টি” চালু করে। শুধুমাত্র তখনই আপনি ফলাফলের জন্য এই ধরনের গ্যারান্টি দিতে যোগ্য হন, যখন আপনাকে একটি সিস্টেমের ভিতরে বিশ্বস্তভাবে প্রবেশের অনুমতি দেওয়া হয়।

টোকেন সেবা প্রদানের স্তরে—যা সবাই শুধুমাত্র কমোডিটি বলে ডাকে—এর আচরণ কমোডিটির মতো নয়। সেরা এআই-ন্যাটিভ কোম্পানিগুলি সেবা এক বা দুটি সরবরাহকারীর উপর কেন্দ্রীভূত করে, যেমন Baseten বা Fireworks। কারণ প্রতি টোকেন খরচ সময়ের সাথে কমোডিটি হয়ে যাবে, কিন্তু বাস্তব ট্রাফিকের নির্ভরযোগ্যতা এবং দুর্লভ ক্যালকুলেশন ক্ষমতার স্থিতিশীল প্রবেশাধিকার কমোডিটি হবে না। কোথায় ইনফারেন্স সেবা প্রদান করা হচ্ছে, এবং কোন মডেলগুলি ব্যবহার করা হচ্ছে, এটি দুটি ভিন্ন পছন্দ। ইনফারেন্সের মধ্যে একমাত্র যা কমোডিটির মতো, তা হলো মূল্য।

একটি সাধারণ প্রতিবাদ হল: ল্যাবটি আপনার সরবরাহকারী, তাই এটি কেন নিজের প্রথম-পক্ষের পণ্য ব্যবহার করে কস্টের নিচে বিক্রি করবে এবং আপনাকে ধ্বংস করবে? অথবা সরাসরি আপনার API অ্যাক্সেস বাতিল করে নিজেরাই এই বাজারটি নিয়ে নেবে? এটিই সত্যিকারের নিরাশার সত্যিকারের সংস্করণ। কিন্তু এটি শুধুমাত্র মডেল লেয়ারে একক-খেলোয়াড়ের খেলা হলেই প্রযোজ্য।

এটা স্পষ্ট যে, বাস্তবতা এমন নয়। মডেল স্তরটি একটি তিন অর্ধেক খেলোয়াড়ের মৃত্যু প্রতিযোগিতা, যার পাশে আছে প্রায় ছয় মাস পিছিয়ে থাকা আন্তর্জাতিক খেলোয়াড়দের একটি দল এবং গত বছরের তুলনায় পাঁচগুণ আকারের একটি উন্নয়ন জোট। গ্রাহকরা তাদের সরবরাহকারীদের মধ্যে প্রতিযোগিতা চায়, এবং পরীক্ষাগারগুলি কোনও নির্দিষ্ট অ্যাপ্লিকেশনকে হত্যা করার চেয়ে বাজারের অংশগুলি অর্জন করতে চায়।

আপনি ল্যাবের সামনের বাজারে এটি দেখতে পাবেন। গ্রাহক চ্যাট পরিস্থিতিতে, সর্বোত্তম মডেলগুলি কখনও সহজেই সম্পূর্ণ বাজার জিতে নেয়নি। ChatGPT বছরের পর বছর বাস্তব প্রতিযোগিতায় অগ্রণী অবস্থানে রয়েছে; এটি যে শেয়ার হারিয়েছে, সেটি Gemini-এর দিকে চলে গেছে, কারণ Android এবং অনুসন্ধানের বিতরণ ক্ষমতা, মডেলটির উন্নতি নয়। Anthropic বর্তমানে পূর্বানুমান বাজার এবং ইন্টারনেটের আবহাওয়ায় সর্বোত্তম মডেল হিসাবে বিবেচিত হয়, কিন্তু এটি গ্রাহক চ্যাটে প্রায় কোনও প্রধান খেলোয়াড় নয়, বরং এটি কর্পোরেট এবং কোডিং পরিস্থিতিতেই নিজের ব্যবসা গড়েছে।

যদি একটি ভালো মডেলও সবচেয়ে মৌলিক অ্যাপ্লিকেশনগুলিতে প্রতিদ্বন্দ্বীর ব্যবহারকারীদের হারাতে অক্ষম হয়, তবে এটি সহজেই একটি হাসপাতালের রেকর্ড সিস্টেম বা একটি ব্যাংকের দায়িত্ব ব্যবস্থাকে একীভূত করে গ্রহণ করতে পারবে না। আজ, জনগণ পণ্য বাছাইয়ের জন্য শুধুমাত্র কোডিং দক্ষতার উপর নির্ভর করছেন না। যদি অগ্রণী মডেল স্তরটি এখনও ঘনঘন ভরা থাকে, তবে এর উপরের অ্যাপ্লিকেশন স্তরেই মূল্য থাকবে।

যদি কোনো কাজকে বাইরে থেকে মূল্যায়ন করা যায় না, তাহলে অভ্যন্তরীণভাবে কেউ এই সিদ্ধান্ত নেবে যে ভালো উত্তর কী। এই সিদ্ধান্তই হলো পুরো খেলা। যথেষ্ট সংখ্যক এমন সিদ্ধান্তকে লিখে রাখা হলে, তা বেঞ্চমার্কে পরিণত হয়। হারভেই আইনি ক্ষেত্রের বেঞ্চমার্ক প্রকাশ করেছেন, সিয়েরা ভয়েস এজেন্টের বেঞ্চমার্ক প্রকাশ করেছে। আপনি একটি ক্ষেত্রের "ভালো" কী তা সংজ্ঞায়িত করার অধিকারী, কারণ এই ক্ষেত্রটি 이미 আপনাকে ব্যবহার করছে। এবং এই কোম্পানিগুলি, বাস্তব গ্রহণের কঠিন সংগ্রামের মধ্দিয়েই এই অধিকার অর্জন করেছে।

মুদ্রার প্রবাহ নির্ধারণের প্রকৃত মূল্যায়ন গোপনীয় এবং প্রতিটি কোম্পানি অনুযায়ী গঠিত: এই কোম্পানিটি এই বিষয়ে কীকে ভালো কাজ হিসেবে গ্রহণ করবে। এবং এই বিষয়টি এখনও শেষ হয়নি, কারণ আইনের গভীরতা যেকোনো প্রকাশিত পরীক্ষার চেয়ে অনেক বেশি। OpenEvidence কী নিরাপদ ক্লিনিক্যাল উত্তর তা সঞ্চিত করছে।

এটি বাস্তবিক অর্থে কোনো পরিমাপ নয়, বরং কী সত্য এবং কী ভালো তা নিয়ে সিদ্ধান্ত নেওয়া। এই সিদ্ধান্তগুলি লেখা হয়, যতক্ষণ না এগুলি অন্যদের দ্বারা পরিমাপের মানদণ্ড হিসেবে গ্রহণযোগ্য হয়ে যায়। যতই বেস মডেল ল্যাবরেটরি বুদ্ধিমান হয়ে উঠুক, এটি এই মানদণ্ডগুলি শূন্য থেকে লিখতে পারবে না, কারণ এই অবস্থানটি শুধুমাত্র ক্ষেত্রের ভিতরেই বিদ্যমান।

এই কর্তৃত্ব সাধারণত যেখানে এটি মূলত বিদ্যমান ছিল, সেখানেই পড়ে। অভিজ্ঞ আইনজীবীরা আইনগত মানদণ্ড নির্ধারণ করেন। নিরাপদ ক্লিনিক্যাল উত্তরগুলি চিকিৎসকদের দ্বারা সংজ্ঞায়িত হয়। "সমাধানকৃত" এর অর্থ কী, তা নির্ধারণ করে সেই কোম্পানি যার ইতিমধ্যেই গ্রাহকের সম্পর্ক রয়েছে।

শোষণ সীমানা আরও বাড়তে থাকবে, কারণ আমরা ধীরে ধীরে আরও বেশি কাজ পরিমাপ করতে শিখব, এবং যা পরিমাপযোগ্য তা গ্রাস করে ফেলা হবে। অপ্রশিক্ষিত ভূমি এর উপর দাঁড়ানো মানুষের পায়ের নিচে ধীরে ধীরে কমে যাবে, তাই আপনি একটি প্রতিরক্ষণযোগ্য অবস্থান খুঁজে পেয়ে থামবেন না। আপনাকে অবশ্যই এমন জায়গাগুলির দিকে এগিয়ে যেতে হবে যেখানে এখনও স্কোরিং সম্ভব নয়, এবং ধারাবাহিকভাবে পুনর্বীক্ষণ এবং ঝুঁকির পুনর্মূল্যায়ন করতে হবে।

একটি সংকীর্ণ কাজে, আপনার ব্যক্তিগত ডেটা এবং আপনার নিজস্ব মূল্যায়ন পদ্ধতির মাধ্যমে, আপনি সর্বোত্তম পর্যায়ে পৌঁছাতে পারেন এবং কীভাবে ক্ষেত্রে সাধারণ মডেলকে পরাজিত করতে পারেন; এই স্পেশালাইজড মডেলটি একটি প্রতিরক্ষা বেষ্টনীর অংশ হয়ে উঠবে। অন্যদিকে, যদি আপনি সাধারণ মডেলের ক্ষমতার উপর প্রতিদ্বন্দ্বিতা করেন, তবে এটি একটি মূলধনযুদ্ধ হবে, এবং আপনি সবচেয়ে বেশি ক্যালকুলেশন ক্ষমতা রাখা ব্যক্তিদের কাছে হারবেন। এটিই সেই কোম্পানিগুলির জন্য সহজেই পড়ে যাওয়ার ফাঁদ, যাদের কাছে শুধুমাত্র পৃষ্ঠস্তরের অ্যাক্সেস রয়েছে এবং কাজগুলি অত্যন্ত সহজেই বোঝা যায়।

যখন একটি কোম্পানি বেঁচে থাকার জন্য একটি বড় সেটে জেনারিক টাস্কে ফ্রন্টিয়ার মডেলের চেয়েও বেশি ক্ষমতা অর্জনের সিদ্ধান্ত নেয়, তখন বিজয় সাধারণত ডেটা সেন্টারের আকার দ্বারা নির্ধারিত হয়। শেষ ফলাফল প্রায়শই একটি স্বতন্ত্র চ্যাম্পিয়নের উত্থান নয়, বরং একজন পর্যাপ্ত কম্পিউটিং পাওয়ার সম্পন্ন খেলোয়াড়কে বিক্রি করা।

এগুলো সবই প্রতিরক্ষা। আক্রমণ করা আরও কঠিন: প্রথমে ঠিক করুন আপনি কী তৈরি করতে চান। এটিই আমি এই বছর ধরে খুঁজছিলাম, এবং আমি মাত্র তিনবারই খুঁজে পেয়েছি। মডেলটি এই বিষয়ে আপনাকে সাহায্য করতে পারবে না। আপনি এটিকে কোথায় নির্দেশ দেবেন, এটি সেখানেই কাজ করবে; কিন্তু এটি আপনাকে বলতে পারবে না যে কীটা নির্দেশ দেওয়ার মতো। আপনি এর জন্য বেঞ্চমার্ক তৈরি করতে পারবেন না, তাই এটিকে ট্রেনিংও দিতে পারবেন না।

এটাই কারণ যে বড় বড় প্রতিষ্ঠানগুলি সবকিছু নিয়ে নেবে না: তারা নিজেদের ইতিমধ্যে দখলদার ক্ষেত্রগুলি রক্ষা করবে, আর পরবর্তী জিনিসটি অন্যদের আগে এটির ব্যবহার খুঁজে পাওয়া ব্যক্তির কাছ থেকে আসবে। হয়তো, ইচ্ছাশক্তি হল ক্যালকুলেশন ক্ষমতার চেয়ে আরও বিরল একটি ইনপুট।

এই নিরাশার অর্ধেক সঠিক। পাতলা আবরণ প্রকৃতপক্ষে শোষিত হচ্ছে, এবং আজকের অনেক যা কোম্পানির মতো দেখাচ্ছে, তা প্রকৃতপক্ষে শুধুমাত্র পাতলা আবরণ। কিন্তু এটি “শোষণের পর কী অবশিষ্ট থাকে” সম্পর্কে সিদ্ধান্ত ভুল। প্রক্রিয়াটি স্পষ্ট, কিন্তু শেষ বিন্দুটি নয়।

আমি যে দিকে বেট করতে চাই সেটি হল: বুদ্ধিমত্তা আরও সস্তা হতে থাকবে, আর মূল্য কয়েকটি মডেলের পৌঁছাতে অক্ষম জায়গাগুলিতে সরে যাবে। যা প্রশিক্ষণযোগ্য নয়, তা ইতিহাসবহুল মূল্য।

তাই, এই ধরনের একটি ক্ষেত্রে প্রবেশ করুন, যে অপ্রকাশিত অনুবাদের কাজগুলি করুন, এবং সেখানে «ভাল» এর সংজ্ঞা লিখে ফেলুন। কারণ সবসময় কেউ এটি করবে। এই বছরের সবচেয়ে বেশি উদ্ধৃত বেঞ্চমার্ক স্কোরটি আসলে একটি অপ্রচলিত মানচিত্র, এবং একটি নোটিশ: কিছু মানুষকে নোটিশ দেওয়া হচ্ছে যে তারা যাচ্ছে এই নির্ধারণের অধিকার হারাতে যে কী «ভাল»।

[মূল লিঙ্ক]

লিউডং ব্লকবিটস