লেখক: সারা গুও
স্টিম টেকফ্লো
শিনচাওয়ের পরিচয়: যখন বড় মডেলগুলি সমস্ত তালিকায় মানুষকে পিছনে ফেলতে শুরু করে, তখন বিনিয়োগকারীরা একটি নিরাশার মধ্যে পড়ে: Anthropic এবং NVIDIA-এর বাইরে আর কী বিনিয়োগের মানে আছে? এই সিলিকন ভ্যালির শীর্ষ বিনিয়োগকারী ডেটা এবং কেস স্টাডির মাধ্যমে ব্যাখ্যা করেন যে, প্রকৃত প্রতিরোধের প্রাচীরটি তালিকার উপরে নয়—এটি সেই অসংখ্য জিনিসের মধ্যে লুকিয়ে আছে যা benchmark-এর দ্বারা পরিমাপযোগ্য নয়।
২০২৬ এর মধ্যে, বিনিয়োগকারীদের জন্য AI মানসিক বিকার একটি নিরাশার বিষয়: কিছুই বিনিয়োগের মতো নেই, আমাদের সব টাকা Anthropic এবং NVIDIA-এ বিনিয়োগ করে বাড়ি ফিরে যাওয়া উচিত।
আমি এমন কিছু কখনও অনুভব করিনি। আমি নিশ্চিত যে মডেলটি আমার চেয়ে অনেক বেশি বুদ্ধিমান, আমি খুশি হয়ে মার্কেট মূল্যে Anthropic এবং NVIDIA কিনব, আমার সবচেয়ে বুদ্ধিমান বন্ধুরা প্রায় নিশ্চিত যে স্ব-উন্নয়ন খুব শীঘ্রই সফল হবে—কিন্তু আমি এখনও এই নিরাশার অনুভূতি পাইনি।
এই নিরাশা বোকামি নয়। যুক্তিটি হল: যদি মডেলটি সবকিছুতে ধারাবাহিকভাবে উন্নতি করে, তাহলে এর উপর প্রতিষ্ঠিত প্রতিটি কোম্পানি শুধুমাত্র একটি পাতলা প্যাকেজিং, যা শুধুমাত্র অধিগ্রহণের জন্য অপেক্ষা করছে, এবং একমাত্র বেঁচে থাকার মূল্য হল কম্পিউটিং পাওয়ার এবং অগ্রণী ওজন।
সফটওয়্যারের উদাহরণ হিসেবে, এটি নিরাশাবাদীদের সবচেয়ে বেশি ব্যবহৃত কেস। ২০২৪ সালে ডিভিন প্রকাশিত হলে শুধুমাত্র স্ট্যান্ডার্ড সফটওয়্যার বেঞ্চমার্কে ১৩% কাজ সম্পন্ন করতে পারত, যা প্রায় উপেক্ষা করা হয়েছিল। এক বছর অর্ধেক পরে, সেরা এজেন্টগুলি ৮০-এর বেশি স্কোর অর্জন করছে, এবং এগুলি গোল্ডম্যান স্যাকস এবং মার্কিন সেনাবাহিনীর ভিতরে বাস্তব কাজ করছে। প্র practically সবাই একইভাবেভুল শিক্ষা নিয়েছে: মডেলগুলি সফটওয়্যার ইঞ্জিনিয়ারিংকে খেয়েছে। কিন্তু যখন মডেলগুলি সফটওয়্যার ইঞ্জিনিয়ারিংয়ের সবচেয়ে সহজেই পরিমাপযোগ্য অংশগুলিকে গ্রাস করছে, তখন আমরা অনেকগুলি টিমকেই যা জানতেন, তা আবারও বুঝতে শুরু করছি—ইঞ্জিনিয়ারিংকেই পরিমাপযোগ্যতা থেকে দূরে রাখা হয়, এবং সহজেই পরিমাপযোগ্য অংশগুলি একমাত্রগুরুত্বপূর্ণ অংশগুলি নয়।
এমআইটির মার্ট ডেমিরার এবং তাঁর সহযোগীদের শেষপর্যন্ত সংখ্যাগুলি প্রকাশ করেছেন: ১০০,০০০-এরও বেশি ডেভেলপারের মধ্যে, সর্বশেষ কোডিং এজেন্টটি লেখা কোডের পরিমাণকে প্রায় ১৮০% বাড়িয়েছে এবং প্রকাশিত কোডের পরিমাণকে প্রায় ৩০% বাড়িয়েছে। কোড লেখা সস্তা হয়েছে। বাকি অংশগুলি এখনও মানুষের মাধ্যমেই সম্পন্ন হয়, এবং এটি খুবই গুরুত্বপূর্ণ। অবশ্যই, পরিষ্কার প্রভাবটি এখনও অবিশ্বাস্য।
বেঞ্চমার্ক হল যা আপনি পরিমাপ করতে পারেন, এবং যা আপনি পরিমাপ করতে পারেন, তার উপর আপনি প্রশিক্ষণ দিতে পারেন। তাই, কোডিং এজেন্টগুলি সবচেয়ে আগে পরিপক্ক হয়: কম্পাইলারগুলি ফ্রি ভেরিফায়ার, টেস্ট স্যুটগুলি ফ্রি ভেরিফায়ার, যখন উত্তরগুলি নিজেদেরই ফ্রি চেক করে, তখন আপনি এটিকে পরিমাপের মাধ্যমে চূড়ান্তভাবে উন্নত করতে পারেন, যতক্ষণ না আপনি এটিকে পরাজিত করেন। কিন্তু টেস্ট পাস করা কখনই বলে না যে, এই পরিবর্তনটি একটি দশকপুরনো কোডবেসের জন্য সঠিক, যেখানে তিনটি অদলবদলযোগ্য মডিউলের অস্তিত্বের কারণ রয়েছে, এবং ডিপ্লয়মেন্ট পাইপলাইনটি শুধুমাত্র এমন একটি cron job-এর উপর নির্ভরশীল, যা কেউই স্বীকার করতে চায়না।
এই সঠিকতা কোনো র্যাঙ্কিংয়ে পড়ে না, আসলে কোনো কিছুতেই পড়ে না। আপনি শুধুমাত্র বাস্তব জগতে যথেষ্ট দীর্ঘ সময় চালানোর মাধ্যমেই শিখতে পারেন যে এই জটিল সিস্টেমটি কাজ করে কিনা, আর আরও বুদ্ধিমান মডেলগুলি বিশ্বকে দ্রুততর চালাতে পারে না। কেউ Google-এর মতো স্কেলের জিনিসের জন্য ইউনিট টেস্ট করে সবুজ চিহ্নে বিশ্বাস করে না; আপনি এটিকে বিশ্বাস করেন কারণ এটি বছরের পর বছর বাস্তব লোডের পরীক্ষা পার করেছে। এই ধরনের সঠিকতা শুধুমাত্র গোপনীয় নয়, এটি এমন ধীরগতির প্রতিরক্ষা-প্রাচীর, যা মূলধনের পতনেরও বাইরে। এমনকি আশাবাদীদেরও স্বীকার করতে হয় যে,ঘড়িকে লাফিয়ে যাওয়া যায় না: OpenAI-এর推理মডেলের পথিকৃৎ Noam Brown সম্প্রতি লিখেছেন, একটি agent-এর 1-বছরেরওবেশিসময়ধরেসঠিকতা-মূল্যায়নেরএকমাত্রনির্ভরযোগ্যপদ্ধতিহল...এটিকেএকবছরধরেচালানো।
গেব পেরেয়রার মতো, প্রকৃত অটোমেশন শুধু মডেল ভালো হওয়া নয়। এটি পণ্য, মডেল, ওয়ার্কফ্লো এবং কোম্পানি একসাথে চলার কথা, এবং এই চারটির মধ্যে তিনটি সংগঠনের গতিতে চলে।
মোবাইল মানুষগুলি বেঞ্চমার্কের পরিধির বাইরে: একজন সন্দেহাতুর অংশীদারকে তার কাজ করার পদ্ধতি পরিবর্তন করতে বাধ্য করা, পুনর্গঠনের সময় দলকে একত্রিত রাখা। এই কারণেই আমরা সিইও নিয়োগের সময় মানুষকে পরিচালনা করার দক্ষতা অন্তত বিশ্লেষণাত্মক দক্ষতার সমান গুরুত্বপূর্ণ, এবং আরও বুদ্ধিমান মডেলগুলি এই ওজনকে পরিবর্তন করবে না। ফিডব্যাক অস্পষ্ট, সময়কাল বছরের, বিশ্বাস একজন মানুষের। আমি যেসব কোম্পানি জানি, সবগুলিতেই সমস্ত ইঞ্জিনিয়ারদের অগ্রগামী কোডিং মডেলগুলি ব্যবহার করতে দেওয়া হয়েছে, কিন্তু কোনোটিই তাদের ইঞ্জিনিয়ারিং সংগঠনকে সেই গতিতে পরিবর্তন করেনি। গ্রহণ করতে একটি ত্রৈমাসিক সময় লাগল, কতটা অসাধারণ token-এর বৃদ্ধির ত্রৈমাসিক! কিন্তু পুনর্গঠনের জন্য বছরগুলি লাগছে।
দৃশ্যমান হল যা চলে যাচ্ছে। মূল্যবান কাজ গঠনগতভাবে অদৃশ্য: যা কিছু আপনি র্যাঙ্কিংয়ে রাখতে পারেন, তার উপর আপনি ট্রেনিং দিতে পারেন, তাই যা কিছু পরিমাপযোগ্য, তা ইতিমধ্যেই কমোডিটির দিকে এগিয়ে যাচ্ছে। এই প্রক্রিয়াটির সময় লাগে এবং এটি কখনই সম্পূর্ণ হয় না, কিন্তু দিকটি কখনই উল্টায় না। আমার Rippling-এর বন্ধু Matt MacInnis-এর মুদ্রা-সংক্রান্ত শব্দে: সাধারণ প্রশ্নের উত্তরের জন্য ব্যয়কৃত token-এর প্রায় কোনও মূল্য নেই, কারণ যেকোনো মডেলই এটির উত্তর দিতে পারে, কিন্তু আপনার কোম্পানির ডেটার উপর যুক্তি প্রয়োগের জন্য ব্যয়কৃত token-এর মূল্য অনেক বেশি, কারণ এটি আপনার প্রকৃতপক্ষে যা চাইছেন, তা করে, শুধুমাত্র যুক্তিসঙ্গতভাবে দেখানোর জন্য নয়।
কাজগুলি দুটি দিক থেকে খেয়ে ফেলা হচ্ছে। নীচের দিক থেকে, কাজের সম্পূর্ণতা: একবার একটি কাজ সস্তায় পরীক্ষা করা যায়, ক্রেতারা আর জিজ্ঞাসা করে না যে কোন মডেলটি এটি তৈরি করেছে, বরং শুধু এটির জন্য কতটা খরচ হয়েছে তা জিজ্ঞাসা করতে শুরু করে, এবং কাজটি সেই সপ্তাহের সবচেয়ে সস্তা ওপেন-সোর্স বা ডিস্টিলেশন মডেলের দিকে চলে যায়। যেখানেই এগুলি প্রভাব ফেলতে পারে, মার্জিনগুলি চূড়ান্তভাবে গুরুত্বপূর্ণ। উপরের দিক থেকে, ল্যাবগুলি মডেলগুলিকে নিজেদেরই স্ক্যাফোল্ডিংকে খেয়ে ফেলতে চাইছে। রিট্রিভাল, সস্তা এবং মহঙ্গা কলগুলির মধ্যে রাউটিং, টুলস ব্যবহার, এমনকি রিজনিংয়ের কৌশল—যা সবকিছুই মডেলকে ঘিরে রাখত—সবকিছুইওয়েটস-এর মধ্যে টানা হচ্ছে, যতক্ষণ না ওয়্যাপারই মডেল। এটিই অগ্রগতির শোষণ।মার্জিনের 압력ওবিপরীতদিকেকমপ্রতিহত:সাধারণএজেন্টগুলিকেযেকোনওকিছুরজন্যপ্রস্তুতথাকতেহবে,যাখরচি;কিন্তুফোকাসকৃতঅ্যাপ্লিকেশনগুলিএকটিওয়ার্কফ্লোকেসমন্বয়করতপারেযতক্ষণনাতারআউটপুটএকটিছোটঅংশটোকেনব্যয়এবংএইটোকেনগুলিকেবিক্রিকরছেএমনল্যাবগুলিরবিপরীত,এটিফার্মসমহঅধিকারধারণকরছে।
তাই, আমরা যেকোনো ধরনের কাজের জন্য দুটি প্রশ্ন করতে পারি। এর সঠিকতা কি ব্যক্তিগত এবং খরচপ্রবণ, যেমন কেবল কারও ডেটার ভিতরেই বিদ্যমান সত্য? এটি কি বিচ্ছিন্ন, আপনার প্রবেশাধিকার নেই এমন সিস্টেমের ভিতরে বন্ধ করে রাখা? এই দুটির সাথে কাজের সম্পৃক্ততা তুলনা করুন, আপনি একটি 2x2 ম্যাট্রিক্স পাবেন। প্রকাশ্য উত্তরযুক্ত সম্পৃক্ত কাজগুলি হল কমোডিটি টোকেন, যা ওপেন-সোর্স মডেলগুলির অধিকারে। প্রকাশ্য উত্তরযুক্ত অগ্রগতির কাজ, যেখানে কোডিং বেঞ্চমার্কগুলি অবস্থিত, সেখানে ল্যাবগুলি জয়ী হয়, কারণ যখন মূল্যায়নটি বিনামূল্যে, তখন এটির অধিকারী হওয়ার কোনো মূল্যই নেই। পুরস্কারটি শেষ কোণে, অপ্রশিক্ষিত: সঠিকতা শুধুমাত্র ব্যক্তিগত ক্ষেত্রেই বিদ্যমান। আপনি এটি AI-নেটিভ পথপ্রদর্শকদের রিজনিং-ক্লাউডে দেখতে পাবেন, যেখানে বেশিরভাগ টোকেনই জেনেরিক,ওপেন-সোর্স মডেলগুলির পরিবর্তে কাস্টম-মডেলগুলির দ্বারা তৈরি।
শেষ কোণের দেয়ালের উচ্চতা বিভিন্ন। একক ডেভেলপারের টয় কোডবেস পোর্টেবল এবং স্ট্যান্ডার্ডাইজড, তাই আরোহণ খুব ছোট। ব্যাংকের প্রডাকশন সিস্টেম দুটোই নয়, এবং আপনি SWE-Bench Verified-এ 2% বুদ্ধিমান হওয়ার জন্য root অ্যাক্সেস পাবেন না।
ক্ষমতা অনেক কিছু খেয়ে ফেলেছে, কিন্তু ভালো মডেলগুলি ব্যক্তিগত মৌলিক তথ্যকে প্রকাশ্যে আনে না। এটি লাইসেন্স ধারণ করে না, দায়বদ্ধতা স্বাক্ষর করে না, এবং কোম্পানির কাগজপত্র রাখে না; উত্তর ভুল হলে এটি মামলার পক্ষে দায়ী হতে পারে না। এখানে বুদ্ধিমত্তা বাধা নয়। লাইসেন্সিং এবং দায়বদ্ধতা হলো বাধা। আপনি এমন একটি মডেলকে কল্পনা করতে পারেন যা যেকোনোর চেয়ে অনেক বেশি বুদ্ধিমান, তবুও এটিকে ভিতরে ঢুকতে অনুমতি দিতে হবে, এবং এটির কাজের জন্য কারও স্বাক্ষর করতে হবে।
দরজাটির একটি তালা এবং একটি বার আছে। তালাটি পরিস্থিতি: আপনি শুধুমাত্র সিস্টেমের ভিতরে বিশ্বস্ত হওয়ার পরে, নিরাপত্তা পরীক্ষা, একীভূকরণ, এবং আপনার স্বাক্ষরিত ফলাফলের চুক্তির পরেই যাচাই করতে পারবেন যে AI কি কাজের কিছু করেছে। বারটি হল ব্যবহারকারী। এখন মার্কিন যুক্তরাষ্ট্রের বেশিরভাগ ডাক্তার প্রতিদিন OpenEvidence খুলেন, যেকোনো পরিমাণ কম্পিউটেশনাল পাওয়ার এটি কিনতে পারে না। ল্যাবটি আগামীকাল একটি আদর্শ মেডিকেল মডেল ট্রেন করতে পারে, তবুও ডাক্তারদের অভ্যাসে বা UC San Francisco-এর সিদ্ধান্ত গ্রহণের প্রক্রিয়ায় প্রবেশ করতে পারবে না, কারণ বিশ্বাস ধীরে ধীরে, সম্পর্কের ভিত্তিতে গড়ে ওঠে, এবং ব্যবহারকারীদের গ্রেডিয়েন্ট ডিসেন্টকে মুছে ফেলার পরিবর্তে তাদের নির্মোহ অনুমতির প্রয়োজন।
এটিও একটি কাজ। একটি অ্যাপ্লিকেশন অপ্রশিক্ষিত কোণাগুলিতে অপ্রতিষ্ঠিত কাজ করে নিজেকে জায়গা দখল করে: মডেলের জন্য কোম্পানির ব্যক্তিগত বাস্তবতা ব্যবস্থা করা, মডেলকে কাজের সরঞ্জাম প্রদান করা, এবং গ্রাহকদের সাথে কাজ করে তাদের কর্মচারীদের বাস্তবতা পরিবর্তন করা। একটি অনুবাদ আনা কোম্পানিকে অনুকরণ করা কঠিন—এবং অনুবাদ কখনও শেষ হয় না। একীভূতকরণ এবং রক্ষণাবেক্ষণের সময়কাল সম্পর্কের সমান, যা ডোমেইন-বিশেষজ্ঞ ইঞ্জিনিয়ারদের এবং সরঞ্জামগুলিকে গ্রাহকের পাশে রাখা টিমগুলি জিতেছে।
একটি শীর্ষস্থানীয় সাদা জুতা আইনি প্রতিষ্ঠানে, কেবল M&A ব্যবসায় প্রতি বছর প্রায় হাজার করে লেনদেন চলে। গোপনীয়তা এবং অন্যান্য অসংখ্য কারণে, আপনি শত শত সহকারীকে ক্লায়েন্টের ফাইলগুলি ডেস্কটপে ডাউনলোড করতে বাধ্য করতে পারবেন না এবং একটি সাধারণ এজেন্টকে এগুলি পর্যালোচনা করতে বলতে পারবেন না; এমনকি আপনি যদি পারেন, আপনি যা শিখবেন তা হবে টুকরো টুকরো—একজন সহকারীর প্রতিটি সংশোধন, লেনদেনটির সম্পূর্ণ প্রবাহটি দেখতে পাবেন না। গুরুত্বপূর্ণ সংকেতগুলি লেনদেনের স্তরে অবস্থিত, এবং লেনদেনের একটি আকৃতি আছে: M&A-এর জন্য, গোপনীয়তা চুক্তি, শর্তাবলী, ডিলিজেন্স, ক্রয় চুক্তি, সহায়ক দলিল, বন্ধনীর তালিকা; IP-এর জন্য, আবেদন, প্রমাণ-উদ্ধার, বিদ্যমান প্রযুক্তি, আরও আবেদন।প্রতিটি ব্যবসায়িক ক্ষেত্রেরই নিজস্ব আকৃতি আছে,আইনজীবীদেরও,ওজিলগুলিও,এগুলিরমধ্যেঅদলবদলযোগ্যনয়।এবংআইনপ্রতিষ্ঠানগুলিবাস্তবেযেসমস্যাগুলিসমাধানকরেসেগুলিকেউপরেএকটিস্তরেঅবস্থিত:প্রতিটিব্যবসায়িকক্ষেত্রকেসমানভাবেচলাচলকরা—যেমনশীর্ষঅংশীদারগুলিপ্রতিদিনশতশতলেনদেনচালান,একইসময়েনতুনলেনদেনগুলিপরিচয়করানএবংসহকারীদেরপ্রশিক্ষণদেন।এমনএকটিআইনপ্রতিষ্ঠানকেপরিবর্তনকরা—এটিএমনএকটিএকককাজযাআপনিএটিকেমূল্যায়নকরতেপারবেন।এটিএকজনঅপারেটরকেপ্রয়োজনকরেযিনিডেটা-ভিত্তিকপদ্ধতিতেএটিকরবেন,লক্ষ্যগুলিঅত্যন্তঅস্পষ্ট,প্রতিক্রিয়াঅসম্পূর্ণ,সময়সীমাদীর্ঘ,এবংএকটিস্থিরহওয়াহবেমা।
দুঃখজনকভাবে, অদৃশ্য মূল্য বিক্রি করা কঠিন, কারণ এটি পণ্যীকরণের সমস্যার সমান: কোম্পানিগুলি বাহ্যিকভাবে বুঝতে পারে না যে AI কি তাদের অপারেশনকে রূপান্তরিত করবে, যেমনটি benchmark-এরা করতে পারে না। তাই শীর্ষস্থানীয় কোম্পানিগুলি বাহ্যিকভাবে এটি প্রমাণের চেষ্টা বন্ধ করে অভ্যন্তরীণভাবে ফলাফলের দাম নির্ধারণের দিকে যায়। Sierra তার agent-এরা সমস্যা সমাধান করলে চার্জ করে, কিন্তু মানুষের কাছে পাঠালে চার্জ করে না, তাই দামটি একটি মূল্যায়নে পরিণত হয়, যা শুধুমাত্র Sierra-এর "সমাধানকৃত" এর সংজ্ঞা থাকলেই কার্যকর। Cognition-এর Devin-ও সফটওয়্যারের মধ্যে একই পদক্ষেপ নিয়েছে, "পারফরম্যান্স গ্যারান্টি" প্রদান করে, যা শুধুমাত্র আপনি যে সিস্টেমের মধ্যে বিশ্বস্ততা পেয়েছেন, সেখানেই ফলাফলের জন্য।
এমনকি সার্ভিস টোকেনগুলিও, যাদের সবাই শুধুমাত্র কমোডিটি লেয়ার বলে ডাকে, কমোডিটির মতো কাজ করে না। সেরা এআই-ন্যাটিভ কোম্পানিগুলি তাদের সার্ভিসগুলিকে এক বা দুটি প্রোভাইডারে (Baseten বা Fireworks) কেন্দ্রীভূত করে, কারণ প্রতি টোকেনের খরচ পরিকল্পিতভাবে কমোডিটি হয়ে যায়, কিন্তু বাস্তব ট্রাফিকের অধীনে নির্ভরযোগ্যতা এবং সীমিত ক্যালকুলেশন পাওয়ারের নিশ্চিত অ্যাক্সেস এমনটা নয়। আপনি কোথায় সার্ভিস দিচ্ছেন তা আপনি কোন মডেলগুলি ব্যবহার করছেন তার থেকে আলাদা একটি পছন্দ। মূল্যই ইনফারেন্সের মধ্যে একমাত্র কমোডিটির মতো কাজ করে।
একটি প্রায়শই উত্থাপিত আপত্তি হলো, ল্যাব আপনার সরবরাহকারী—এটি কেন আপনাকে চুষে ফেলতে নিজের প্রথম-পক্ষের পণ্যগুলি খরচের নিচে চালাবে বা আপনার API অ্যাক্সেস বাতিল করে নিজেই বাজার দখল করবে? এটি বিলুপ্তির মতো বাস্তবসম্মত সংস্করণ, যা শুধুমাত্র মডেল স্তরটি একক-খেলোয়াড়ের খেলা হলেই কার্যকর। এটি স্পষ্টতই নয়—এটি বেশিরভাগই তিন-অর্ধেক পক্ষের মৃত্যুর প্রতিযোগিতা, যেখানে আন্তর্জাতিক খেলোয়াড়দের ছয় মাসের পিছনে প্রশিক্ষণ, এবং বিকাশের জন্য অংশীদারিত্বের আকার গতবছরের ৫ গুণ। গ্রাহকদের সরবরাহকারীদের মধ্যে প্রতিযোগিতা চাই, এবং ল্যাবগুলিরও কোনো অ্যাপ্লিকেশনকেই মারা যেতে দিতে চায় না, বরং বাজারের অংশগুলি চায়।
আপনি ল্যাবের সামনের বাজারে এটি দেখতে পাবেন। ব্যবহারকারী চ্যাটে, সর্বোত্তম মডেলগুলি কখনও সহজেই জিতে যায়নি। ChatGPT বছরের পর বছর বাস্তব প্রতিযোগিতায় অগ্রণী ছিল, এবং এখন এটি যে শেয়ার হারিয়েছে, তা Android এবং অনুসন্ধানের শক্তির মাধ্যমে Gemini-এর দিকে চলে গিয়েছে, ভালো মডেলের কারণে নয়। Anthropic, যিনি প্রেডিকশন মার্কেট (এবং ইন্টারনেটের বাতাস) দ্বারা সর্বোত্তম মডেল রাখার জন্য সবচেয়ে বেশি রেটিং পেয়েছেন, ব্যবহারকারী চ্যাটে প্রায় কোনো ভূমিকা রাখেননি, কিন্তু ব্যবসা এবং কোডিংয়ে নিজেদেরকে প্রতিষ্ঠিত করেছেন। যদি ভালো মডেলগুলি সবচেয়ে মৌলিক অ্যাপ্লিকেশনগুলিতে প্রতিদ্বন্দ্বীদের থেকে ব্যবহারকারীদেরকে নিয়ে যাওয়ার ক্ষমতা রাখেনা, তবে এগুলি হাসপাতালের রেকর্ড বা ব্যাংকের দায়িত্বগুলির মধ্যেদিয়েই ইন্টিগ্রেশনের মাধ্যমে যাবেনা। আজকের জনগণের পছন্দগুলি শুধুমাত্র কোডিংয়ের উপর ভিত্তি করে নয়। যদি অগ্রগতির সীমা ঘনীভূত থাকে, তবে এরউপরিভাগই মূল্যবান।
যদি কাজটি বাহ্যিকভাবে মূল্যায়ন করা যায় না, তবে অভ্যন্তরীণ কেউ কী একটি ভালো উত্তর তা নির্ধারণ করবে, এবং এই সিদ্ধান্তই পুরো খেলা। এই ধরনের যথেষ্ট সিদ্ধান্তকে লিখিত রূপে রাখা হয়, যা একটি benchmark হয়ে ওঠে। Harvey আইনের জন্য একটি প্রকাশ করেছেন, Sierra ভয়েস এজেন্টের জন্য একটি প্রকাশ করেছে। আপনি একটি ক্ষেত্রের দ্বারা ইতিমধ্যেই ব্যবহৃত benchmark-এর মাধ্যমে জিতেছেন, যা সেই ক্ষেত্রের জন্য “ভালো”-এর সংজ্ঞা নির্ধারণের অধিকার। এই অধিকারগুলি এই কোম্পানিগুলি বাস্তব গৃহীতির সংগ্রামের মাধ্যমে জিতেছে।
সত্যিকারের মূল্যায়ন গোপনীয় এবং প্রতিষ্ঠানভেদে ভিন্ন: এই প্রতিষ্ঠানটি, এই ধরনের বিষয়ে, কীকে ভালো কাজ হিসেবে গ্রহণ করবে, এটি এখনও শেষ হয়নি, কারণ আইনের গভীরতা যেকোনো পাবলিক টেস্টকে অতিক্রম করে। OpenEvidence সুরক্ষিত ক্লিনিক্যাল উত্তরগুলির আকার নির্ধারণ করছে। এগুলি সত্যিকারের মাপদণ্ড নয়, এটি কী সত্য এবং কী ভালো তা বিচার করার বিষয়, যা লিখে ফেলা হয় যতক্ষণ না এটি অন্যদের মাপদণ্ড হয়ে ওঠে, এবং যেকোনো প্রযুক্তিগতভাবে প্রতিভাবান ল্যাবরেটরি এটি লিখতে পারেনা, কারণ সেই অবস্থানটি শুধুমাত্র এই ক্ষেত্রের ভিতরেই বিদ্যমান। এই ক্ষমতা সাধারণত যেখানে এটি বসেছে, সেখানেই থাকে। অভিজ্ঞ আইনজীবীরা আইনগত benchmark-এর সংজ্ঞা দেন। সুরক্ষিত ক্লিনিক্যাল উত্তরের সংজ্ঞা ডাক্তারদের উপরই নির্ভর করে। "সমাধানকৃত" মানে যেকোনো পূর্বেই গ্রাহকদের থাকা প্রতিষ্ঠানটি এটির অর্থকী, তা বলছে।
শোষণযোগ্য前沿 (ফ্রন্টিয়ার) ক্রমাগত উপরে উঠছে, কারণ আমরা ক্রমাগত শিখছি কীভাবে আরও বেশি কাজকে পরিমাপ করতে হয়, আর যা পরিমাপযোগ্য, তা ধীরে ধীরে গ্রাস হয়ে যায়। প্রশিক্ষণ-অযোগ্য সেই জমি, যেটার উপর যে-ই দাঁড়ায় তার পায়ের নিচ থেকে সঙ্কুচিত হচ্ছে, তাই আপনি কোনো প্রতিরক্ষাযোগ্য অবস্থান খুঁজে নিয়ে সেখানে আরাম করে বসে থাকতে পারবেন না। আপনি ক্রমাগত এমন সব কিছুর দিকে এগিয়ে যাচ্ছেন যেগুলো এখনও স্কোর করা যায় না, আপনি ক্রমাগত নতুন করে আন্ডাররাইট করছেন। কোনো একটি সংকীর্ণ টাস্কে, আপনার নিজস্ব প্রাইভেট ডেটা এবং আপনার নিজের ইভ্যালুয়েশন ব্যবহার করে, আপনি ফ্রন্টিয়ার পর্যন্ত ট্রেন করতে পারেন এবং গুরুত্বপূর্ণ জায়গায় জেনারেল-পারপাস মডেলকে হারাতে পারেন; সেই স্পেশালাইজড মডেলটি তখন আপনার প্রতিরক্ষামূলক পরিখার (মোট) একটি অংশ হয়ে ওঠে। অন্যদিকে, জেনারেল-পারপাস মডেলের ওপর প্রতিযোগিতা হলো মূলধনের যুদ্ধ; আপনি শেষ পর্যন্ত সেই পক্ষের কাছে হেরে যাবেন যার কাছে সবচেয়ে বেশি算力 (কম্পিউট) আছে। এটাই সেই ফাঁদ, যেখানে শুধু অগভীর অ্যাক্সেস এবং দৃশ্যমান টাস্ক-সমৃদ্ধ কোম্পানিগুলো পড়ে যায়। যখন বেঁচে থাকার শর্ত হয়ে দাঁড়ায় জেনারেল টাস্কের পরিসরে ফ্রন্টিয়ার ট্রেনিংকে ছাড়িয়ে যাওয়া, তখন বিজয়ীকে সবচেয়ে বেশি নির্ধারণ করে ডেটা সেন্টারের স্কেল; আর এর সমাপ্তি সাধারণত হয় না কোনো স্বাধীন চ্যাম্পিয়নের মাধ্যমে, বরং সেই কোম্পানি বিক্রি হয়ে যায় সেইসবের কাছে, যাদের কাছে প্রচুর算力 (কম্পিউট) রয়েছে।
এগুলো সবই প্রতিরক্ষা। আক্রমণ করা, প্রথমে কী তৈরি করতে হবে তা বেছে নেওয়া তার চেয়ে কঠিন। এটাই যা আমি এক বছর ধরে খুঁজছিলাম, আমি সম্ভবত তিনবার পেয়েছি। মডেলটি এখানে সাহায্য করে না। এটি যা বলা হয় তাই করবে, কিন্তু বলতে পারবে না কীটা ইঙ্গিত করার মতো। আপনি সেটা বেঞ্চমার্ক করতে পারবেন না, তাই আপনি এটিকে ট্রেনিং দিতে পারবেন না। এটাই বর্তমান ব্যবসাগুলোর সবকিছু নেওয়ার কারণও: তারা যা দখলদারিত্বে রাখে, পরবর্তীটি আমাদের বাকিদের আগেই এর ব্যবহার খুঁজে পাওয়ারা থেকেই আসে। সম্ভবত, ইচ্ছা হলো ক্যালকুলেশনাল পাওয়ারের চেয়েও বেশি দুর্লভ ইনপুট।
নিরাশাবাদ অর্ধেক সঠিক। পাতলা প্যাকেজিং প্রকৃতপক্ষে শোষিত হচ্ছে, আজ দেখাচ্ছে যে কোম্পানির অনেক কিছুই পাতলা প্যাকেজিং। কিন্তু বাকি কী রয়েছে সে বিষয়ে এটি ভুল। কার্যপ্রণালীটি পরিষ্কার; গন্তব্যটি নয়। আমি যা বাজি ধরব তা হলো দিক: বুদ্ধিমত্তা নিয়মিত সস্তা হচ্ছে, এবং মূল্য সর্বদা মডেলগুলির অপ্রাপ্য কয়েকটি স্থানের দিকে সরে যাচ্ছে। যা প্রশিক্ষণযোগ্য নয়, তা হলো ঐতিহাসিক মূল্য। তাই একটির মধ্যে প্রবেশ করুন, একটি অপ্রকট অনুবাদ করুন, এবং শুরু করুন লিখে, সেখানে ভালোর অর্থ কী, কারণ কেউই এটি করবে। এই বছরের সবচেয়ে বেশি উদ্ধৃত benchmark স্কোরটি হলো একটি ভূমির মানচিত্র, যা অচিরেই একটি অমূল্যের মতো হয়ে যাবে, এবং একটি নোটিফিকেশন, যা বলছে যে কেউই “ভালো”-এর সংজ্ঞা দেওয়ার অধিকারহীন হয়ে যাচ্ছে।
