Anthropic মারলিন প্রকল্পের মাধ্যমে Claude Code প্রশিক্ষণ দিয়েছে, যেখানে ডেটা কোম্পানি Snorkel AI প্রায় 1000 জন বাহ্যিক সফটওয়্যার ইঞ্জিনিয়ারকে নিয়োগ করেছে, যাদের প্রতিটি টাস্কের জন্য 280 ডলার প্রতিদান দেওয়া হয়েছে যাতে তারা মডেল দ্বারা উত্পাদিত কোডের A/B টেস্ট করতে পারে।
লেখক এবং উৎস: নিউজিয়েন
সাম্প্রতিক একটি প্রতিবেদনে ক্লოড কোডের "প্রগতির রহস্য" উন্মোচিত হয়েছে।
বিজনেস ইনসাইডার অনুসারে, এনথ্রোপিকের একটি বিশেষ প্রকল্প রয়েছে যা Claude Code উন্নতির জন্য প্রায় 1000 জন সফটওয়্যার ইঞ্জিনিয়ারের প্রতিক্রিয়ার মাধ্যমে এটিকে পরিশীলিত করছে।
এই প্রকল্পটি ডেটা কোম্পানি Snorkel AI-এর অভ্যন্তরে "Marlin" কোডনেমে চলছে।

এই বছরের জানুয়ারিতেই, Claude Code-এর প্রধান বোরিস চেরনি জানান যে তিনি দুই মাসেরও বেশি সময় ধরে একটিও লাইন কোড হাতে লেখেননি, একদিনে ক্লড থেকে ২২টি পুল রিকোয়েস্ট জমা দেওয়া হয়েছিল, আগের দিন ২৭টি, এবং সবগুলোই মডেল দ্বারা লেখা।
এছাড়াও জানা গিয়েছে যে এনথ্রোপিকের অভ্যন্তরীণ কোডের বেশিরভাগই এআই দ্বারা তৈরি করা হয়েছে।
এখানেই মজার জিনিস।
এক পাশে, এনথ্রোপিকের নিজস্ব প্রধান ইঞ্জিনিয়াররা বড় পরিমাণে কোডিং কাজ মডেলের উপর ছেড়ে দিয়েছেন; অন্য পাশে, তারা প্রায় 1000 জন বাহ্যিক ইঞ্জিনিয়ারকে চাকরি দিয়েছেন যারা Claude Code-কে "ভালো কোড" কী তা হাতে-কলমে শেখাচ্ছেন।
ঘন্টায় ২৮০ ডলারে আপনি কী কিনেছেন?
বিজনেস ইনসাইডারের মতে, ম্যারলিন প্রকল্প যে বাইরের ইঞ্জিনিয়ারদের নিয়োগ করেছে, তাদের সবার সফটওয়্যার ইঞ্জিনিয়ারিংয়ের পটভূমি রয়েছে। তাদের কাজটি শুনতে খুব বাস্তবসম্মত কোড রিভিউয়ের মতো।
প্রক্রিয়াটি এরকম। প্রথমে হাজার হাজার রিপোজিটরি সহ একটি তালিকা থেকে একটি GitHub কোড রিপোজিটরি বাছাই করুন। তারপর একটি PR তৈরি করুন, অর্থাৎ ডেভেলপারদের কোড পরিবর্তন জমা দেওয়ার ধাপ। তারপর একটি প্রম্পট লিখুন যা কাজটি স্পষ্টভাবে ব্যাখ্যা করবে।
মডেলটি দুটি কোড সেট তৈরি করবে, এবং এই বাহ্যিক ইঞ্জিনিয়ারদের কাজ হবে A/B টেস্টিং: দুটি আউটপুট তুলনা করে ভালোটি বাছাই করা।
প্রতিটি কাজের জন্য 280 ডলার পুরস্কার, প্রায় এক ঘন্টা সময় লাগে। কিছু ক্ষেত্রে Snorkel-এর অডিট লেয়ারের সাথে একাধিক বার আদান-প্রদান করতে হয়।
মূল্যায়নের মাপকাঠি হল উৎপাদন-প্রস্তুত কোডের সঠিকতা, নিরাপত্তা, বিশ্বস্ততা এবং রক্ষণাবেক্ষণযোগ্যতা।
দুটি বাস্তব উদাহরণ দিন।
একটি টাস্কে, বাহ্যিক ইঞ্জিনিয়ার মডেলকে সিস্টেমের এক্সিকিউশন মেটাডেটা প্রক্রিয়াকরণের পদ্ধতি পুনর্গঠন করতে বলেছেন, যাতে কোডটি আরও পরিষ্কার এবং সহজে রক্ষণাবেক্ষণযোগ্য হয়, কিন্তু ফাংশনালিটি পরিবর্তন না করে।
অন্য একটি টাস্কে, একজন বাহ্যিক ইঞ্জিনিয়ার MLflow ওপেন-সোর্স মেশিন লার্নিং প্ল্যাটফর্মের জন্য সুরক্ষা প্যাচ প্রদান করেছেন, যা মডেল লোড করার সময় Python প্যাকেজ ডাউনলোড করার সময় কমান্ড ইনজেকশন ভুলের জন্য দায়ী। প্রয়োজনীয়তা স্পষ্ট: কমান্ড ইনজেকশনকে বন্ধ করতে হবে, কিন্তু বৈধ pip (Python প্যাকেজ ম্যানেজার) অপশনগুলিকে ক্ষতি করা উচিত নয়।
এই কাজগুলির প্রয়োজনীয়তা ডেটা লেবেলিংয়ের পরিসর ছাড়িয়ে গেছে, এটি একজন অভিজ্ঞ ইঞ্জিনিয়ারকে তার মস্তিষ্কে থাকা “এভাবে লিখলে ভালো” বিচারকে সরাসরি মডেলের কাছে কপি করতে বাধ্য করছে।
প্রকৃতপক্ষে, অ্যানথ্রোপিক কোড কিনেনি, বরং অভিজ্ঞ প্রোগ্রামারদের কাছ থেকে কীভাবে কোডকে আরও নিরাপদ এবং পরিষ্কারভাবে লেখা যায় তার বিচার কিনেছে।
কেন অবশ্যই ইঞ্জিনিয়ার হতে হবে
অ্যানথ্রোপিক কেন এত বড় প্রচেষ্টা করছে? কারণ Claude Code শুধু একটি কোড লেখার চ্যাটবক্স নয়।
অ্যানথ্রোপিক এটিকে প্রকল্প-স্তরের এআই এজেন্ট হিসাবে সংজ্ঞায়িত করেছে। এটি সম্পূর্ণ কোডবেস পড়তে পারে, ফাইলের মধ্যে পরিকল্পনা করতে পারে, সরাসরি পরিবর্তন করতে পারে, টেস্ট চালাতে পারে, এবং ব্যর্থতার ফলাফলের ভিত্তিতে নিজেই ইটারেট করতে পারে।

Anthropic-এর ওয়েবসাইটে Claude Code-এর সংজ্ঞা: একটি কোড রিপোজিটরি পড়া, ফাইলের মধ্যে পরিবর্তন করা, টেস্ট চালানো এবং সাবমিট করা কোড ডেলিভার করার জন্য একটি এজেন্ট।
এর অর্থ এটি প্রকৃতপক্ষে ফাইল পরিবর্তন করবে, টাস্ক চালাবে এবং সম্পূর্ণ কোড প্রকল্পের সাথে যোগাযোগ করবে।
অ্যানথ্রোপিক নিজেই এই বিষয়টির গুরুত্ব বুঝতে পারে, তাই ইঞ্জিনিয়ারিং ব্লগে ক্লাউড কোডের অনুমতি, স্যান্ডবক্স এবং অনুমোদন ক্লান্তি (approval fatigue) সমস্যাগুলি বারবার আলোচনা করেছে।
ডিফল্টভাবে, উচ্চ ঝুঁকিপূর্ণ ফাইল পরিবর্তন বা কমান্ড চালানোর জন্য ব্যবহারকারীর অনুমতি প্রয়োজন; পুনঃপুনঃ অনুমতির কারণে অনুমতি ক্লান্তি কমানোর জন্য, Anthropic একটি sandboxing পদ্ধতি চালু করেছে যা Claude Code-কে পূর্বনির্ধারিত ফাইল সিস্টেম এবং নেটওয়ার্ক সীমানার মধ্যে আরও নিরাপদে চালানোর অনুমতি দেয়।
যখন একটি এআই কমান্ড চালাতে পারে এবং অনলাইন কোড পরিবর্তন করতে পারে, তখন ভুলের খরচ সম্পূর্ণভাবে ভিন্ন হয়ে যায়। প্রশিক্ষণের লক্ষ্যও পরিবর্তিত হয়: 'সঠিকভাবে লেখা' থেকে 'নিরাপদ, বিশ্বস্ত এবং রক্ষণাবেক্ষণযোগ্যভাবে লেখা'-এ উন্নীত হয়।
এই জিনিসগুলি সাধারণ কোড কর্পাস দিয়ে বাইরে আনা যায় না। এগুলি অতীতে অভিজ্ঞ ইঞ্জিনিয়ারদের কোড রিভিউয়ে লুকিয়ে ছিল, মানুষ থেকে মানুষে বিস্তারিত অভিজ্ঞতা। এখন, Anthropic মানুষের প্রোগ্রামিং বিশেষজ্ঞদের নিয়োগ করে এটিকে ক্রয়যোগ্য ডেটায় পরিণত করতে চায়।
স্নর্কেল অবহেলিত "ডেটা অস্ত্র বিক্রেতা"
সম্পূর্ণ বিষয়টির প্রকৃত চরিত্র হল স্নর্কেল।
এই কোম্পানিটি ২০১৯ সালে স্ট্যানফোর্ড এআই ল্যাব থেকে বেরিয়ে আসে এবং একমাত্র দিকে মনোনিবেশ করে: মেশিন লার্নিং-এর সাফল্য বা ব্যর্থতা নির্ধারণ করে মডেল বা কম্পিউটেশনাল পাওয়ার নয়, বরং ডেটা।
স্নর্কেলের দুই প্রধান প্রতিষ্ঠাতা হলেন এলেক্স র্যাটনার এবং তার স্ট্যানফোর্ডের গুরু ক্রিস রে, যারা স্নর্কেলের মূল শৈক্ষিক উৎস বলেছেন।

স্নরকেল এআই-এর সহপ্রতিষ্ঠাতা এবং সিইও এলেক্স র্যাটনার
২০১৫ সালে, স্নর্কেল ছিল র্যাটনারের ডক্টরেট পড়ার সময়ের একটি "বিকালের প্রকল্প": ডেটা ম্যানুয়ালি লেবেল করার জন্য ব্যয়বহুল লোকদের নিয়োগ করার পরিবর্তে, প্রোগ্রাম এবং নিয়ম ব্যবহার করে "দুর্বল সুপারভাইজড" (weak supervision) করা যেত, যাতে মডেলটি মানুষের দ্বারা প্রতিটি ডেটা লেবেল করার প্রয়োজন ছাড়াই শিখতে পারে।
এই ধারণার ভিত্তিতে, স্নর্কেল 60-এর বেশি গবেষণাপত্র তৈরি করেছে এবং এর ওপেন-সোর্স টুলগুলি গুগল এবং ইন্টেল দ্বারা ব্যবহার করা হয়েছে, যতক্ষণ না 2019 সালে এটি একটি কোম্পানিতে বিভক্ত হয়।

স্নর্কেল এআই-এর সহপ্রতিষ্ঠাতা এবং স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের অধ্যাপক ক্রিস রে
র্যাটনারের গুরু ক্রিস রে ও একজন কঠিন ব্যক্তি।
তিনি স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের অধ্যাপক, ম্যাকআর্থার জিনিয়াস পুরস্কার বিজয়ী, একাধিকবার উদ্যোক্তা, যিনি অ্যাপল দ্বারা অধিগ্রহণ করা প্রকল্পগুলিতে অংশগ্রহণ করেছেন এবং SambaNova প্রতিষ্ঠা করেছেন, যার মূল্য একসময় 50 বিলিয়ন ডলার ছিল।
সবচেয়ে আকর্ষণীয় বিষয় হল এই কোম্পানির মোড় নেওয়া।
স্নর্কেল যে বড় সমস্যাকে সমাধান করতে চাইছিল, তা হলো "ম্যানুয়াল লেবেলিং ধীর, মহঙ্গ এবং অস্থিতিশীল" এই দীর্ঘস্থায়ী সমস্যা। সেই সময় AI ডেভেলপমেন্টের 80% সময় হাতে লেবেলিং ডেটা দিয়ে ব্যয় হচ্ছিল, তাই স্নর্কেলের প্রাথমিক স্বপ্ন ছিল লেবেলিং থেকে মানুষকে যতটা সম্ভব মুক্ত করা।
কিন্তু অগ্রণী মডেলের যুগে, সবচেয়ে দুর্লভ এবং সবচেয়ে মূল্যবান জিনিসটি আবার মানুষের দিকে ফিরে এসেছে, শুধু এখন এটি ডক্টর, ডাক্তার, আইনজীবী, অভিজ্ঞ ইঞ্জিনিয়ারদের স্বাদ এবং বিচারের রূপ নিয়েছে। এই কোম্পানিটি যা «কম মানুষ ব্যবহার» করে শুরু হয়েছিল, এখন সবচেয়ে লাভজনক ব্যবসা হয়ে উঠেছে অগ্রণী AI-কে প্রশিক্ষণ দেওয়ার জন্য একটি মহাকাশীয় বিশেষজ্ঞদের সেনাবাহিনী গঠন, যার মধ্যে Marlin শুধুমাত্র একটি অর্ডার।
এর কাজের প্রবাহটি ঠিক ম্যারলিন প্রকল্পের প্রয়োজনীয়তার সাথে মেলে।
স্নর্কেলের ওয়েবসাইট এই কাজের প্রবাহকে এভাবে বর্ণনা করে: প্রথমে কাজ, মূল্যায়ন মানদণ্ড এবং যাচাইকারী সংজ্ঞায়িত করুন, যাতে "কী ভালো" তা পরিসীমিত হয়, তারপর বিশেষজ্ঞ পর্যালোচনা প্রবাহ চালান, যেখানে লেখক, একাধিক পর্যালোচক এবং চূড়ান্ত সিদ্ধান্তগ্রহণকারী ধাপে ধাপে নিয়ন্ত্রণ করেন, এবং সম্পূর্ণ প্রক্রিয়ায় ট্রেস রাখা হয়।

Snorkel ওয়েবসাইটের নির্দেশিকা: মূল্যায়ন স্কোরিংয়ে মতবিরোধ হলে এটি সমাধান করা হয় এবং স্কোরিং মানদণ্ডের পরিবর্তন রেকর্ডে যোগ করা হয়, যেখানে প্রতিটি পরিবর্তনের জন্য কে, কখন, কীভাবে পরিবর্তন করেছেন তা ট্র্যাক করা যায়।
এটি মূল্যায়ন পরিবেশ এবং ডেটা সহ প্রস্তুত করে, যাতে একই সেটের কাজগুলি বিভিন্ন মডেল সংস্করণে পুনরাবৃত্তি করা যায় এবং পুনরুৎপাদনযোগ্য, তুলনামূলক স্কোর পাওয়া যায়। স্কোরগুলি পরিষ্কার এবং তুলনাযোগ্য রাখতে, মূল্যায়নকারীদের সংস্করণের প্রভাব থেকে মুক্ত থাকতে হবে। এই বাহ্যিক ইঞ্জিনিয়ারদের জানা নেই যে তারা কোন সংস্করণটি মূল্যায়ন করছে, এটাই কারণ।
কোটেশনটিও খুব ব্যাখ্যামূলক।
স্নর্কেলে একটি পাবলিক আইনি দিকের চুক্তি পদে প্রতিটি উচ্চ মানের কাজের জন্য 10 থেকে 100 ডলার; যেখানে মারলিনের সফটওয়্যার ইঞ্জিনিয়ারিং কাজগুলি প্রতিটি 280 ডলার, প্রায় এক ঘন্টা, যা ঘন্টায় মজুরির হিসাবে প্রায় সমকক্ষদের দ্বিগুণ পাঁচ দশমিক গুণ (স্কেল এআই, মারকর ইঞ্জিনিয়ারদের ঘন্টায় 110 ডলার দেয়)। শীর্ষস্থানীয় বিশেষজ্ঞরা সপ্তাহে 3000 ডলারেরও বেশি আয় করতে পারেন।
স্নর্কেল দ্বারা নিযুক্ত এই বাহ্যিক ইঞ্জিনিয়ারদের ফিডব্যাক সত্যিই মহঙ্গা।
গুগল, মিস্ট্রাল, অ্যানথ্রোপিক এই তিনটি কোম্পানি ক্লায়েন্ট লিস্টে রয়েছে। ২০২৫ সালের মে মাসে, স্নর্কেল ডি রাউন্ড ফান্ডিং সম্পন্ন করে যার মূল্যায়ন ১.৩ বিলিয়ন ডলার।
অ্যানথ্রোপিকের রেভেনিউ হেড কেট জেনসেন বলেছেন, ক্লॉडের সম্ভাবনা সম্পূর্ণরূপে প্রকাশ করতে হলে ডোমেইন এক্সপার্ট এবং মানুষের ফিডব্যাকের নতুন মূল্যায়ন পদ্ধতি চালু করা দরকার, অ্যানথ্রোপিক Snorkel-এর মতো কোম্পানির সাথে চলতে থাকবে।
এই কোম্পানিগুলি—Snorkel, Scale, Mercor—অতীতে এগুলিকে "অ্যানোটেশন প্ল্যাটফর্ম" হিসাবে দেখা হত। এখন এগুলি অগ্রণী মডেল কোম্পানিগুলির পিছনে অদৃশ্য সরবরাহ শৃঙ্খল হয়ে উঠেছে।
যে অদৃশ্য বিশেষজ্ঞদের সেনাবাহিনী বিশ্বব্যাপী ছড়িয়ে পড়েছে এবং সবচেয়ে বুদ্ধিমান এআইকে খাওয়ায়, তারাই এই দল।

কয়েকটি বড় কোম্পানি
একই ধরনের ডেটা নেওয়া হচ্ছে
শুধু অ্যানথ্রোপিকই নয়, বাস্তব ইঞ্জিনিয়ারিং ক্ষমতা ক্রয় করছে। এই প্রতিযোগিতায় কয়েকজন বড় খেলোয়াড় অংশগ্রহণ করছেন, শুধু তাদের পদ্ধতি ভিন্ন।
কার্সর পণ্য ডেটার পথে চলেছে।
এটি অফিসিয়ালভাবে উল্লেখ করেছে: ব্যবহারকারী যখন প্রাইভেসি মোড চালু করেন, তখন কোডটি কখনই এটি বা তৃতীয় পক্ষ দ্বারা মডেল ট্রেনিংয়ের জন্য ব্যবহার করা হবে না; শুধুমাত্র প্রাইভেসি মোড বন্ধ করলেই এটি কোডবেস ডেটা, প্রম্পট, সম্পাদনা কর্মকাণ্ড এবং কোড স্নিপেট ব্যবহার করে AI ফাংশন উন্নতি এবং মডেল ট্রেনিংয়ের জন্য ব্যবহার করতে পারে।
কার্সরের ট্যাব মডেল প্রতিদিন 10 বিলিয়নের বেশি এডিট ক্যারেক্টার উৎপাদন করে, যা প্রাথমিক সংস্করণের তুলনায় প্রায় 100 গুণ বেশি। আরও উন্নত Composer, রিইনফোর্সমেন্ট লার্নিং (RL) দিয়ে ট্রেইন করা হয়েছে, যাতে মডেলটি বড় পরিসরের কোডিং টাস্কের পরিবেশে এডিট, সার্চ ইত্যাদি টুলগুলি ব্যবহার করতে শিখে, দীর্ঘমেয়াদি ইঞ্জিনিয়ারিং টাস্কগুলি পরিচালনা করতে পারে।
Composer 2.5 সর্বশেষ সংস্করণে শত শত ধাপের দীর্ঘ সময়ের কাজগুলির জন্য কেন্দ্রীভূত হয়েছে।
মাস্ক ক্যাপিটাল বাইন্ডিং/অ্যাকুইজিশন অপশন ব্যবহার করেন।
ফেব্রুয়ারি ২০২৪-এ, xAI কে SpaceX-এ একীভূত করা হয়। এপ্রিলের শেষের দিকে, SpaceX বছরের মধ্যে ৬০ বিলিয়ন ডলারে Cursor-এর মাতৃকোম্পানি Anysphere-কে ক্রয় করার অধিকার অর্জন করে, অথবা প্রথমে ১০ বিলিয়ন ডলার প্রদান করে গভীর সহযোগিতা শুরু করে। মাস্ক যা গুরুত্বপূর্ণ বলে মনে করেন, তা হলো Cursor-এর কাছে বিশ্বের সবচেয়ে সক্রিয় বাস্তব ডেভেলপার আচরণের ডেটা।
মে ২৫ তারিখে, মাস্ক এক্স-এ ঘোষণা করেন যে নতুন প্রজন্মের বেসিক মডেল Grok V9-Medium-এর প্রশিক্ষণ সম্পন্ন হয়েছে, যার প্যারামিটার ১.৫টি, বর্তমান উৎপাদন মডেলের তিনগুণ। তিনি বিশেষভাবে উল্লেখ করেন যে এটি Cursor ডেটা যোগ করে পুনঃপ্রশিক্ষণের আগের ফলাফল, যা যোগ করলে “প্রোগ্রামিং দক্ষতা অনেক বেশি শক্তিশালী” হবে, এবং মডেলটি জুনের মধ্যে প্রকাশের পরিকল্পনা।

এইভাবে, V9 প্রথম সিস্টেম্যাটিকভাবে বাস্তব ডেভেলপার আচরণের ডেটা খেয়েছে Grok।
পরে, ওপেনএআইয়ের কোডেক্সও এই পথে এগিয়েছিল। ২০২৫ সালে প্রকাশিত কোডেক্স codex-1 দ্বারা চালিত, যা ওপেনএআই বলেছে যে এটি বাস্তব কোডিং টাস্কের উপর রিইনফোর্সমেন্ট লার্নিং দিয়ে প্রশিক্ষিত, যার লক্ষ্য মানুষের শৈলীর কাছাকাছি, PR-এর অভ্যাসের সাথে সঙ্গতিপূর্ণ কোড লেখা, এবং পরীক্ষা পাস হওয়া পর্যন্ত পুনরাবৃত্তি করা; প্রতিটি টাস্ক আপনার কোডবেস সহ পূর্ব-স্থাপিত একটি আইসোলেটেড স্যান্ডবক্সে চলে।
এখন Codex এর উন্নতি হয়েছে এবং এটি OpenAI-এর এজেন্টিক কোডিং প্ল্যাটফর্ম হয়ে উঠেছে, যা তাদের অগ্রণী কোডিং মডেল দ্বারা চালিত; প্রতি সপ্তাহে ব্যবহারকারীর সংখ্যা 500 লাখের বেশি।
তারা আসলে একই জিনিসের জন্য প্রতিদ্বন্দ্বিতা করছে: প্রক্রিয়া ডেটা, শুধু পথগুলি ভিন্ন।
অ্যানথ্রোপিক প্রথমে মডেল তৈরি করেছিল, কিন্তু বাস্তব ডেভেলপমেন্ট পরিস্থিতির ফিডব্যাক ছিল না, তাই তারা প্রায় 1000 জন ইঞ্জিনিয়ারকে নিয়োগ করে সফটওয়্যার ইঞ্জিনিয়ারিং প্রক্রিয়াকে শেখার যোগ্য ডেটাতে বিভক্ত করেছিল;
কার্সরের প্রথমে পণ্য এবং বাস্তব ব্যবহারকারীর আচরণ রয়েছে, এছাড়াও এটি নিজস্ব তৈরি Tab, Composer ইত্যাদি প্রোগ্রামিং মডেল রাখে। তবে OpenAI, Anthropic-এর তুলনায় এটির কম রয়েছে সাধারণ বেস মডেল এবং বৃহৎ পরিসরের ট্রেনিং ক্ষমতা;
মাস্কের অভাব হল ডেটা, তাই সে কয়েকশ বিলিয়ন ডলার খরচ করে একটি ডেভেলপার আচরণের ডেটা উৎপাদনকারী পণ্যের প্রবেশদ্বার কিনতে চাইছে;
ওপেনএআই মডেল এবং পণ্য দুটোতেই কোনো ঘাটতি নেই, তাই নিজেরাই একটি স্যান্ডবক্স তৈরি করেছে, যেখানে মডেলটি বাস্তব কোডিং টাস্কের মধ্যে রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে বারবার চেষ্টা, পরীক্ষা, সংশোধন এবং পুনরাবৃত্তি করছে।
বিভিন্ন পদ্ধতি অনুসরণ করে, কিন্তু একই লক্ষ্যে পৌঁছাচ্ছে, তারা নিজেদের AI প্রোগ্রামিং মডেল প্রশিক্ষণের জন্য যথার্থ প্রকল্প পরিস্থিতির সাথে আরও বেশি মিলে যাওয়া ডেটা ব্যবহার করছে।


প্রকৃত প্রতিকূলতা
মানুষের স্বাদ এবং বিচার
একটি স্বে-চ্যাট নামের পেপারে প্রথমবারের মতো বাস্তব এজেন্ট কোডিং চ্যাট সংগ্রহ করা হয়েছে: 6000টি সেশন, 63,000টিরও বেশি ইউজার প্রম্পট এবং 355,000টি টুল কল।
এটি একটি বেদনাদায়ক সংখ্যা প্রকাশ করে: এজেন্ট দ্বারা উত্পাদিত কোডের মাত্র 44% শেষ পর্যন্ত ব্যবহারকারীর সাবমিশনে চলে আসে। এর অর্ধেকেরও বেশি মানুষ মুছে, পরিবর্তন করে বা বাতিল করে দেয়।

SWE-চ্যাট পরীক্ষা: ভাইব কোডিং এখন পর্যন্ত 41% সংলাপ অধিকার করেছে, কিন্তু বুদ্ধিমান এজেন্ট দ্বারা লেখা কোডের মাত্র 44% চূড়ান্তভাবে সাবমিট হয়েছে; ব্যবহারকারীরা 44% ইন্টারঅ্যাকশন রাউন্ডে সংশোধন, ত্রুটি বা বিচ্ছিন্নতা দ্বারা মডেলের আউটপুটকে পুনর্নির্মাণ করেছেন।
এটি বোঝায় যে HumanEval এর মতো পুরনো বেঞ্চমার্কগুলি এখন সম্পূর্ণরূপে প্রয়োগ করা হয়ে গেছে, শুধুমাত্র স্কোর দেখে কিছু বোঝা যায় না। প্রকৃত যুদ্ধক্ষেত্র হল বাস্তব ডেভেলপমেন্ট প্রক্রিয়ায় পুনরাবৃত্তি, পরীক্ষা-ভুল, এবং পুনরায় নির্মাণের ডেটা।
যত বেশি মডেল শক্তিশালী হয়, তত বেশি টাকা খরচ করতে হয় মানুষের অপরিহার্য অংশ—ইঞ্জিনিয়ারিং ইনটুইশন—কেনার জন্য।
Anthropic প্রতিটি টাস্কের জন্য 280 ডলার খরচ করে, এবং A/B ভোটিংয়ের জন্য প্রায় 1000 জন ইঞ্জিনিয়ার নিয়োগ করে: এই দুর্বল মনে হওয়া প্রক্রিয়াটি ঠিক এই জন্যই কেনা হয়েছে।
যে ব্যক্তি ইঞ্জিনিয়ারিং সাইটকে মডেল দ্বারা পরিপাকযোগ্য ডেটায় পরিণত করতে পারে, সেই ব্যক্তিই AI প্রোগ্রামিংয়ের পরবর্তী পর্যায়ে প্রবেশের টিকিট হাতে রাখে।
