গভীর গবেষণার জন্য ক্লাউডের ডাইনামিক ওয়ার্কফ্লো ব্যবহার করুন

এই তিন বছরের মধ্যে, আমি শিল্প গবেষণার জন্য AI-এর সহায়তা ছাড়া চলতে পারি না, এজন্য আমি তথ্যের ছাঁকনি, সংক্ষেপণ, সংযোগ, যাচাই এবং সঞ্চয় সমাধানের জন্য একটি সিরিজ স্কিল এবং সহায়ক সিস্টেম তৈরি করেছি।

এই সপ্তাহে ক্লেড কোডের ডাইনামিক ওয়ার্কফ্লোর গভীর অভিজ্ঞতা নেওয়ার পরই আমি বুঝতে পারলাম যে "মানুষকে বড় যুগের বিরুদ্ধে লড়াই করা উচিত নয়" এই বাক্যটির প্রকৃত অর্থ।

আবার ভাবুন: এআই যুগে মানুষের জন্য গভীর গবেষণা কী হওয়া উচিত, এবং আমি এআই-এর সাথে কীভাবে সহযোগিতামূলক ও পরিপূরক সম্পর্ক গড়ে তুলব।

এক, গবেষণার ফাঁদ নিয়ে শুরু করা যাক

টেকনিক্যাল রিসার্চ করা আসলে অনেক ফাঁদ নিয়ে ভরা (মানুষের জন্য বা AI-এর জন্য উভয়ের জন্যই), কারণ রিসার্চের শুরুতেই আপনি অসংখ্য তথ্য পাবেন, তথ্য ও মতামত বাড়তে থাকবে, এবং উপসংহার ধীরে ধীরে অস্পষ্ট হয়ে যাবে। তাই সবসময় লক্ষ্যের দিকে ফিরে আসা উচিত।

এটিই এর আগে থেকেই কেন এআই যথেষ্ট দক্ষ নয়, কারণ মনোযোগ এবং সংযোগের দিক থেকে, এটি মানুষের তুলনায় বর্তমান তথ্যের পরিমাণের সাথে বেশি আটকে থাকে এবং প্রকৃতপক্ষে মূল্যবান বহুবিষয়ক সংযোগগুলির জন্য দুর্বল।

অবশ্যই, AI-এর সেরা দিক হল এর কার্যক্রমের ক্ষমতা, যা এজেন্টের মাধ্যমে ধাপে ধাপে খুঁজে, সংগঠিত করে এবং সারাংশ প্রস্তুত করে, যার ফলে বিস্তারিত তথ্যের ক্ষতি পুরোপুরি এড়ানো যায়।

যদিও আমি গত ছয় মাস ধরে প্রায় কোনো গুয়াংঘো পোস্ট করিনি, তবুও শিল্পের প্রায় সমস্ত প্রধান মঞ্চের উপর আমি সম্পূর্ণভাবে নজর রাখছি এবং গবেষণা করছি, এবং এই ইনপুট-আউটপুটকে সমর্থন করছে আমার নিজস্ব deep-research সিস্টেম।

গত সপ্তাহে ক্লাউড কোড ডায়নামিক ওয়ার্কফ্লো ফিচারটি চালু করার পর, আমি চাইছি যে এটির ডিফল্ট ক্ষমতা আমার নিজের ক্ষমতাকে সম্পূর্ণভাবে ছাড়িয়ে যায় কিনা, তা পরীক্ষা করি।

দ্বিতীয়, ডাইনামিক ওয়ার্কফ্লো কী

ডাইনামিক ওয়ার্কফ্লো (Dynamic Workflows) এর মূল ধারণা হল: কাজটি সম্পন্ন করার আগে, AI স্বয়ংক্রিয়ভাবে নির্ধারণ করে যে এই কাজটি কোন ওয়ার্কফ্লো ব্যবহার করে সম্পন্ন করা উচিত, এরপর সেটি চালু করা হয়।

এটি আমাদের আগে ব্যবহার করা "প্ল্যান মোড" এবং "skill"-এর সাথে মৌলিকভাবে ভিন্ন। প্ল্যান মোড হল কাজকে আরও বিস্তারিতভাবে বিভক্ত করা, কিন্তু এটি অবশ্যই কোনো যুক্তিসঙ্গত কাজের প্রবাহের সাথে সামঞ্জস্যপূর্ণ হয় না; আপনার প্রম্পটের বিন্যাসের উপর নির্ভর করেই আপনি হয়তো হিসাব-নিকাশের মাপকাঠি যোগ করবেন (যা Research-এর জন্য অত্যন্ত গুরুত্বপূর্ণ)। একইভাবে, আপনি শুধুমাত্র প্রম্পট থাকলেই এটি কিছু harness নিয়মকে ভালভাবে পূর্বনির্ধারণ করতে পারবে।

কিন্তু ডায়নামিক ওয়ার্কফ্লো স্বয়ংক্রিয়ভাবে গ্রহণযোগ্যতা লজিক, ফলাফল সংগঠন এবং প্রতিদ্বন্দ্বী যাচাই এগুলোকে একত্রিত করে।

ট্রিগার করা খুব সহজ, শুধু সিসি-তে /deep-research ব্যবহার করুন এবং কিছু গবেষণা টেমপ্লেট এবং প্রবেশ উপাদান প্রদান করুন। যদি আপনি ডায়নামিক ওয়ার্কফ্লো ফিচারটি আলাদাভাবে ব্যবহার করতে চান, তবে প্রম্পট বা সরাসরি ultracode বলুন। ব্যবহারের আগে মনে রাখবেন, টোকেন খরচ সাধারণের চেয়ে দশগুণ।

তিন, অন্তর্নির্মিত ছয়টি কার্যপ্রবাহ মোড

ডায়নামিক ওয়ার্কফ্লোর নীচের ভিত্তি হল অফিসিয়াল দ্বারা সংক্ষেপে বর্ণিত ছয়টি কেন্দ্রীয় শিডিউলিং মডেল, যা এটিকে সাধারণ ডায়ালগ/এজেন্ট/স্কিলের চেয়ে বেশি শক্তিশালী করে তোলে।

বাস্তবে, এই ছয়টি মোডের পিছনে শুধুমাত্র দুটি মূল প্রশ্ন রয়েছে: কাজগুলি কীভাবে বিভক্ত করবেন? ফলাফলগুলি কীভাবে একত্রিত করবেন? ছয়টিকে আলাদা করা মূলত এই দুটির পারমুটেশন এবং কম্বিনেশন।

3.1 রুটিং মোড (ক্লাসিফাই-অ্যান্ড-অ্যাক্ট)

একটি এজেন্ট প্রথমে কাজের ধরন চিহ্নিত করে, তারপর সেই কাজটি সবচেয়ে উপযুক্ত বিশেষজ্ঞ এজেন্টের কাছে পাঠায়। মূল লজিকটি হল রাউটিংয়ের পছন্দ, সমান্তরাল বা পুনরাবৃত্তি নয়। একটি কাজ শুধুমাত্র একটি পথ অনুসরণ করে, অন্যান্য পথগুলি সম্পূর্ণরূপে বাতিল হয়।

ছবি

উদাহরণস্বরূপ, আমি প্রথমে তিনটি প্রি-সেট সাবএজেন্ট ভূমিকা নিতে পারি: একটি কঠোরভাবে ডেটা যাচাই করে বিশ্লেষণ এজেন্ট, একটি লেখার দক্ষতা সম্পন্ন আউটপুট এজেন্ট, এবং একটি বিশেষভাবে ভুল খোঁজার জন্য চ্যালেঞ্জ এজেন্ট। রাউটিং স্তরটি বর্তমান সাবটাস্কটি কার কাছে দেওয়া উচিত তা নির্ধারণ করবে, একটি এজেন্টকে সবকিছুই করতে দেবে না।

এই মডেলের মূল্য রয়েছে সূক্ষ্মতা এবং সংযমে: প্রতিটি এজেন্টের প্রম্পট অন্যান্য লক্ষ্য থেকে সম্পূর্ণ স্বাধীনভাবে কাজ করে, যা উল্লম্ব গভীরতার সাথে অনুসন্ধানকে সমর্থন করে। টোকেন খরচ সর্বনিম্ন এবং প্রতিক্রিয়ার গতি সর্বোচ্চ। দায়িত্বের সীমানা অত্যন্ত স্পষ্ট।

দুর্বলতাগুলি উল্লেখযোগ্য, বিশেষ করে সীমানা অস্পষ্ট কাজগুলির (যেমন "এটি একটি প্রযুক্তিগত সমস্যা এবং একটি অ্যাকাউন্ট সমস্যা উভয়ই") প্রক্রিয়াকরণে দুর্বল।

3.2 বিভাজন ও একীভূতকরণ (Fan-out & Merge)

এটিই আমার সবচেয়ে বেশি ব্যবহৃত প্যাটার্ন, যার মূল যুক্তি হল সমান্তরাল + একীভূতকরণ। কাজকে Nটি স্বাধীন উপ-কাজে ভাগ করে একসাথে চালানো হয়, এবং সবগুলো শেষ হওয়ার পর একসাথে একীভূত করা হয়।

ছবি

সুবিধাটি হল গতি এবং বিচ্ছিন্নতা। মোট সময় প্রায় সবচেয়ে ধীর উপ-কাজের সমান, সব উপ-কাজের যোগফল নয়। প্রতিটি উপ-কাজের স্বতন্ত্র কনটেক্সট থাকে, যা পরস্পরকে বাধা দেয় না এবং কোনো উপ-কাজের শব্দ অন্য উপ-কাজগুলিকে দূষিত করে না।

দুর্বলতা হল টোকেন খরচ সিরিয়ালভাবে N গুণ বেশি, এবং সিনথেসাইজ লেয়ার নিজেই কঠিন—N টি অসমঞ্জস্প আউটপুটকে কীভাবে একীভূত করা যায় তা একটি ডিজাইন চ্যালেঞ্জ। উপ-কাজগুলি ভালভাবে বিভক্ত না করলে কিছু বাদ পড়ে যাবে বা পুনরাবৃত্তি হবে।

3.3 বিরোধী যাচাইকরণ (Adversarial Verification)

মূল যুক্তি হল যাচাইকরণ, একই সিদ্ধান্তের জন্য একাধিক এজেন্টকে "বাদ দেওয়ার" দৃষ্টিকোণ থেকে চ্যালেঞ্জ করতে হবে, যার বেশিরভাগ ভোট পেলেই এটি অনুমোদিত হবে।

ছবি

সুবিধা হলো, যেহেতু ভেরিফায়ার ওয়ার্কারের চিন্তাভাবনা জানে না, শুধু ফলাফল দেখে, তাই "মডেলকে তার নিজের লেখা কোড চেক করতে বলা"র সময় আত্ম-মূল্যায়নের পক্ষপাত গঠনগতভাবে অপসারিত হয়।

এই প্যাটার্নটি আমার দীর্ঘদিনের একটি সমস্যা সমাধান করেছে: আমরা প্রায়শই এআই-এর সাথে কথোপকথনে কথ্য ভাষা ব্যবহার করি, কিন্তু এআই আপনার প্রত্যাশা অনুযায়ী উত্তর দেওয়ার প্রবণতা রাখে, যা "নিশ্চিতকরণের পক্ষপাত" তৈরি করে। বিপরীত উদাহরণ খোঁজার জন্য বিরোধী যাচাইয়ের মাধ্যমে এআইকে বাধ্য করা হয়, যাতে এটি আপনার ধারণার প্রতি সাড়া দেওয়ার বদলে ডেটা এবং পরীক্ষার ভিত্তিতে যাচাই করে।

কিন্তু, এটি যাচাই করার সময়, যদি তিনি ভুল বিচার করেন, তবে তিনি Worker-কে বিভ্রান্ত করে ভেরিফায়ারের প্রতি অনুকূলে নিয়ে যাবেন। তাই, মতামতের উপর নির্ভর করার পরিবর্তে পুনরাবৃত্তযোগ্য তথ্যের উপর ভিত্তি করেই পছন্দ করা উচিত।

একটা হাসির কথা বলছি, যদি আপনি এআইকে সমস্যা খুঁজতে বলেন, তাহলে সে অসীমভাবে সমস্যা খুঁজে বার করতে পারে, তাই আপনাকে তার সমস্যা খোঁজার সীমা নির্ধারণ করতে হবে।

3.4 জেনারেট এবং ফিল্টার

মূল যুক্তি হল বিস্তারিত করে তারপর সংকুচিত করা। প্রথমে ইচ্ছাকৃতভাবে অতিরিক্ত প্রতিদান তৈরি করুন, তারপর rubric ব্যবহার করে শুধুমাত্র উচ্চ আত্মবিশ্বাসযুক্ত ফলাফলগুলি বাছাই করুন।

ছবি

একটি এজেন্ট থেকে "খারাপ নয়" এমন একটি উত্তর পাওয়ার পরিবর্তে, এটি দশটি উত্তর তৈরি করুক এবং তারপর একটি যাচাইকরণ স্তর দিয়ে ছাঁটাই করুন। সুতরাং সুবিধাটি বৈচিত্র্যের মধ্যে। বিভিন্ন কৌশল এবং বিভিন্ন প্রম্পট ব্যবহার করে একাধিক জেনারেটর মানুষের কল্পনার বাইরের সমাধান তৈরি করতে পারে, এবং ফিল্টারিং ধাপটি চূড়ান্ত আউটপুটের গুণগত মানকে অত্যন্ত কেন্দ্রীভূত করে।

দুর্বলতা হলো, ফিল্টারের রুব্রিকের মান চূড়ান্ত ফলাফলকে সরাসরি নির্ধারণ করে, রুব্রিক ডিজাইনে ভুল হলে পুরো প্রক্রিয়া ব্যর্থ হয়ে যায়

যে পরিস্থিতিতে সঠিক উত্তর পূর্বে জানা যায় না, বিভিন্ন সম্ভাব্য বিকল্পের মধ্যে সেরাটি বাছাই করা প্রয়োজন, এবং বৈচিত্র্যের স্পষ্ট প্রয়োজনীয়তা রয়েছে।

ফ্যানআউট-অ্যান্ড-সিনথেসাইজের সাথে শুধু পৃষ্ঠতলে সাদৃশ্য আছে: উভয়ই "একাধিক সম song সমান্তরাল → একক আউটপুট", সবচেয়ে বেশি বিভ্রান্ত হওয়ার সম্ভাবনা আছে।

মূল পার্থক্যটি উদ্দেশ্যে: ফ্যানআউটের প্রতিটি পথ কাজের ভিন্ন অংশ প্রক্রিয়া করে, ফলাফলগুলি পরস্পরের সাথে পূরক, এবং একত্রিত করার সময় সবগুলি অবদান রাখে; জেনারেট-অ্যান্ড-ফিল্টারের প্রতিটি পথ একই কাজ প্রক্রিয়া করে, ফলাফলগুলি প্রতিযোগিতামূলক, এবং একত্রিত করার সময় বেশিরভাগই বাদ পড়ে। প্রথমটি "পাজল" এবং দ্বিতীয়টি "সৌন্দর্যপ্রতিযোগিতা"।

3.5 টুর্নামেন্ট মোড

মূল যুক্তি হল প্রতিযোগিতা এবং বাদ দেওয়া। Nটি এজেন্ট প্রত্যেকে স্বাধীনভাবে একই কাজ করে, জোড়ায় জোড়ায় তুলনা করে ধাপে ধাপে বাদ দেওয়া হয়, এবং শেষ পর্যন্ত সর্বোত্তম সমাধানটি বাছাই করা হয়।

ছবি

আমি আগে এটি হাতে করেছিলাম—একই কোড পরিবর্তন দিয়ে দুই বা তিনটি ভার্সন চালানো, তারপর AI দিয়ে দেখা যে কোনটি ভালো। এখন এটিকে সরাসরি ওয়ার্কফ্লোতে অন্তর্ভুক্ত করা যাচ্ছে।

স্থিতিশীলতা মূল্যায়নের সুবিধা রয়েছে। পরম স্কোরিং ("A-কে স্কোর দিন")-এর তুলনায় দুটি করে তুলনা ("A এবং B-এর মধ্যে কোনটি ভালো?") স্কোরিং মানদণ্ডের সরণের সমস্যা এড়িয়ে চলে। ফলাফলগুলি একাধিক পর্যায়ের প্রতিযোগিতার মাধ্যমে পাস করে, যার ফলে চূড়ান্ত বিজয়ীর বিশ্বস্ততা বেশি।

জেনারেট-অ্যান্ড-ফিল্টারের সাথেও পৃষ্ঠতলে সাদৃশ্য রয়েছে: উভয়ই একাধিক প্রার্থীর মধ্যে সেরাটি বাছাই করে। মূল পার্থক্য হল বাছাইয়ের পদ্ধতি: টুর্নামেন্ট পেয়ারওয়াইজ জudge ব্যবহার করে দুটি প্রার্থীকে তুলনা করে, যা "প্রার্থীদের পরস্পরের সাথে প্রতিদ্বন্দ্বিতায় নিয়ে যাওয়া"। যখন রুব্রিক পরিমাপযোগ্য নয় এবং বিচারটি মূলত আপেক্ষিক, তখন এটি আরও নির্ভরযোগ্য।

3.6 লুপ মোড

মূল লজিকটি হল অ্যাডাপ্টিভ ইটারেশন, নিয়মিত প্রয়াস করা, বাধা পেলে ত্রুটির তথ্য সংগ্রহ করা, প্রেক্ষাপট পূরণ করা এবং গ্রহণযোগ্যতা শর্ত পূরণ হওয়া পর্যন্ত পুনরায় চেষ্টা করা।

ছবি

এটি মূলত এআইয়ের র‍্যান্ডমনেসের বিরুদ্ধে লড়াই: কয়েকবার চেষ্টা করলেই ভালো ফলাফল পাওয়া যাবে। কিন্তু আরও পরিপক্ক পদ্ধতি হলো বিরোধী যাচাইকে সংযুক্ত করা, যাতে প্রতিটি চক্র শুধুমাত্র র‍্যান্ডমের উপর নির্ভর না করে আরও বেশি তথ্য নিয়ে কাজ করে।

এর সুবিধা হল কাজের পরিমাণ অজানা কাজগুলি পরিচালনা করার ক্ষমতা। অন্য পাঁচটি মোড সবসময় কাজের সীমানা নির্ধারিত বলে ধরে নেয়, যেখানে Loop Until Done হল একমাত্র মোড যা "কতগুলি লুপ চালাতে হবে তা অজানা" এমন পরিস্থিতি পরিচালনা করতে পারে।

দুর্বলতাটি হল অনিয়ন্ত্রিত ঝুঁকি—ভালোভাবে ডিজাইন করা না হলে বন্ধ শর্তগুলি অসীম লুপে পরিণত হতে পারে। প্রতিটি রাউন্ডের এজেন্ট একটি সম্পূর্ণ নতুন কনটেক্সট, যা রাউন্ডগুলির মধ্যে অবস্থা সঞ্চয় করতে পারে না (যদি স্পষ্টভাবে ফাইলে লেখা না হয়)।

চতুর্থ, আমার নিজস্ব দক্ষতা এবং অফিসিয়াল ওয়ার্কফ্লোর যুদ্ধ

ডাইনামিক ওয়ার্কফ্লো বের হওয়ার আগে, আমি নিজের জন্য একটি ডিপ-রিসার্চ সিস্টেম ডিজাইন করেছিলাম। আমার সেই স্কিলের যুক্তি ছিল এরকম:

একটি সাধারণ তথ্য দিন (যেমন কোনো প্রকল্প নতুন কোনো ফিচার যোগ করেছে)
এআইকে সমস্ত সংশ্লিষ্ট তথ্য খুঁজে বের করতে দিন: অফিসিয়াল ডকুমেন্টেশন, সোর্স কোড, মার্কেট রিয়্যাকশন
তথ্যটিকে অর্থপূর্ণ সারাংশে সংক্ষিপ্ত করুন
অনেকগুলি এজেন্ট ভূমিকা দ্বারা প্রতিদ্বন্দ্বিতামূলক বিশ্লেষণ করা হয়, রিপোর্ট তৈরি করা হয়
অটো ডুপ্লিকেট রিমুভ, কারণ মাল্টি-এজেন্টের কন্টেন্টের ডুপ্লিকেশন রেট খুব বেশি

কিছু সময় ব্যবহার করার পর, আমি মনে করি এটি খুব ভালো কাজ করে। কিন্তু এটির একটি মৌলিক ত্রুটি রয়েছে: লক্ষ্য-ভিত্তিক অভিসরণের অভাব।

এছাড়াও, অনেক সময় পঞ্চম ধাপের ডুপ্লিকেট সরানোর পরেও, তিনি প্রায়শই মূল্যবান তথ্য মুছে ফেলেন; যদি ডুপ্লিকেট সরানো না করা হয়, তবে skill আপনাকে একটি দশহাজার শব্দের দীর্ঘ নিবন্ধ দেবে, যাতে সমস্ত তথ্য রয়েছে, কিন্তু আপনাকে সরাসরি বলা হবে না যে "এই বিষয়টি আপনার সাথে কীভাবে সম্পর্কিত, আপনাকে কী করা উচিত"।

তবে, গবেষণা হল “সিদ্ধান্ত” গ্রহণের জন্য, এই কারণেই অনেক দক্ষতা শুধুমাত্র গবেষণার মধ্যেই সীমাবদ্ধ থাকে, ৮০ পায়, কিন্তু সবচেয়ে গুরুত্বপূর্ণ ২০ পায় কম।

যতটা প্রাথমিক গবেষণা সম্পন্ন হয়, ততটাই সন্তোষজনক ও সম্পূর্ণ সিদ্ধান্তে পৌঁছাতে এআইকে আরও দশবার চিন্তা ও কথোপকথন করতে হয়।

অফিসিয়াল আপডেট ওয়ার্কফ্লোটি আরও কী করেছে

এই সপ্তাহের কয়েকটি জটিল গবেষণা টাস্কের পরীক্ষার মাধ্যমে, আমি দেখেছি যে Claude Code-এর বিল্ট-ইন deep research ওয়ার্কফ্লো (মনে রাখবেন, এটি শুধুমাত্র skill নয়, বরং cc-এর মধ্যে এমবেড করা মডিউল), আমার নিজস্ব skill-এর তুলনায় কয়েকটি কী ধাপ যোগ করেছে:

প্রশ্ন বিশ্লেষণ স্তর: এটি সরাসরি অনুসন্ধান শুরু করে না, বরং প্রথমে প্রশ্ন করে, আমার প্রশ্নকে একাধিক উপ-প্রশ্নে বিভক্ত করে: আপনি আসলে কী বুঝতে চান? এই বিষয়টি আপনার সাথে কীভাবে সম্পর্কিত? কোন মাত্রাগুলি গভীরভাবে অনুসন্ধানযোগ্য? এই ধাপটি আমি আগে লাফিয়ে যেতাম।
সুসংগঠিত মূল্যায়ন: প্রতিটি তথ্যের জন্য ফালসিফাইয়েবিলিটি মূল্যায়ন করুন, যা প্রাচীন SEO-এর অথরিটি স্কোরের মতো—উৎসটি বিশ্বস্ত কি? উদ্ধৃতির সংখ্যা কত? এটি আমি আগে যোগ করার কথা ভাবিনি।
ক্রস-ডিলিট বনাম মাধ্যমিক একীভূকরণ: আমি আগে সব উপসংহারগুলির গড় নিতাম, ফলে দলিলটি খুব বড় হয়ে যেত। ডাইনামিক ওয়ার্কফ্লোটি প্রতিটি উপসংহারের জন্য একাধিক এজেন্টের ভোট নেবে, যেগুলির ভোট যথেষ্ট নয়, সেগুলি বাদ দেওয়া হবে, শুধুমাত্র একীভূত করা হবে না।
লক্ষ্য-ভিত্তিক আউটপুট: চূড়ান্ত রিপোর্টটি শুধু তথ্যের সমষ্টি নয়, বরং আপনার মূল লক্ষ্যের চারপাশে বিচার এবং পরামর্শ প্রদান করে। এটি অর্জনের মূল কৌশল হলো একাধিক সাব-এজেন্টের পূর্বনির্ধারিত ক্ষমতা পরিচালনা করা। আগে আমি কেন দক্ষতা চূড়ান্ত লক্ষ্য-ভিত্তিক হত না, তার কারণ ছিল বিপুল তথ্যের পরে নির্দেশের ওজনের হ্রাস।

এই কৌশলগুলি কী সমস্যাগুলি সমাধান করে?

AI-এর দীর্ঘ কাজের জন্য কয়েকটি প্রতিনিধিত্বকারী সমস্যা:

লক্ষ্য বিচ্যুতি: কাজ শুরুর সময় অবস্থা ভালো, মাঝামাঝি সময়ে কী করছেন তা বুঝতে পারছেন না, এবং শেষের দিকে আবার গতি ফিরে পাচ্ছেন—এটি মানুষের ক্লাসে মনোযোগ হারানোর মতো। কাজটি যত দীর্ঘ হবে, তত বেশি পরিষ্কারভাবে দেখা যাবে।

অতি শীঘ্র বন্ধ: দৌড়াতে থাকাকালীন সমস্যার মুখোমুখি হয়ে, AI মনে করে যে এটি "সম্পন্ন" হয়ে গেছে এবং থেমে যায়, যদিও গ্রহণযোগ্যতার মানদণ্ড এখনও পূরণ হয়নি।

কনটেক্সট পলিউশন: একটি এজেন্ট জটিল কাজ করলে, পূর্ববর্তী বড় প্রম্পটগুলি পরবর্তী বাস্তবায়নের জন্য স্থান কমিয়ে দেয়। এর চেয়ে ভালো হবে পূর্ববর্তী প্রম্পটগুলিকে কয়েক কেবির মধ্যে সীমাবদ্ধ রাখা এবং কনটেক্সট বণ্টনের জন্য একাধিক এজেন্ট ব্যবহার করা।

আউটপুট বায়াস: এআই আপনার প্রত্যাশা অনুযায়ী উত্তর দেওয়ার প্রবণতা রাখে, কথ্য প্রশ্নগুলি এই সমস্যাটি ট্রিগার করতে সহজ।

এবং ডায়নামিক ওয়ার্কফ্লো চারটি সমস্যাকে স্ট্রাকচারড পদ্ধতিতে সমাধান করে: অতি শীঘ্র বন্ধ হওয়া রোধের জন্য স্বয়ংক্রিয়ভাবে অ্যাকসেপটেন্স মেট্রিক্স যোগ করা; সমান্তরালভাবে কনটেক্সট আলাদা করা; আউটপুট বায়াসের বিরুদ্ধে ভেরিফিকেশন কন্ট্রাস্ট করা; সমস্যাকে ধাপে ধাপে ভাঙা, যাতে AI প্রথমে লক্ষ্যটি বুঝতে পারে এবং তারপর কাজ শুরু করে।

পাঁচ, সংক্ষেপ

শেষ পর্যন্ত, লেখক হিসাবে একজন দীর্ঘদিনের গবেষক, আমি এই সিসিসি নতুন পদ্ধতিটির প্রতি অবাক হয়েছি—এটির অন্তর্নির্মিত ছয়টি মোড—রাউটিং বাছাই, বিভাজন ও সংযোজন, প্রতিদ্বন্দ্বী যাচাইকরণ, জেনারেটিভ ফিল্টারিং, টুর্নামেন্ট প্রতিযোগিতা এবং লুপ লুপ—এগুলি বেশিরভাগ জটিল গবেষণা কাজের সময়সূচী প্রয়োজনীয়তা কভার করে।

আমাকে ম্যানুয়ালি এজেন্ট স্কিডিউলিং ডিজাইন করার প্রয়োজন নেই, আর নিজেকে ডুপ্লিকেট বাদ দিতে বা ক্রস-ভেরিফিকেশন করারও প্রয়োজন নেই, এগুলো সবই কাজের প্রবাহের মধ্যে বাস্তবায়িত হয়েছে।

এবং এটি অপর্যাপ্ত তথ্য এবং উন্মুক্ত প্রশ্নের অনুসন্ধানে চিন্তা করার জন্য বিশেষভাবে উপযুক্ত, কারণ প্রাকৃতিক বহু-এজেন্ট সমন্বয় এবং কাজের লক্ষ্যের বিভাজনের কারণে এটি সাধারণীকরণে আবারও উন্নতি লাভ করেছে। আসলে, ৩ বছর আগের AI ইতিমধ্যেই স্তরবদ্ধ সীমাবদ্ধতা এবং খুবই স্পষ্ট ছোট সমস্যা সমাধানের জন্য ভালোভাবে কাজ করছিল, কিন্তু AI-এর প্রকৃত গুণগত পরিবর্তনটি সাধারণীকরণের মধ্যে রয়েছে, এটিই এর প্রতিদ্বন্দ্বীকে সহজ কোড থেকে প্রকৃত Agent-এ পরিণত করেছে, একটি নির্দিষ্ট সমস্যা সমাধানের স্থির পদ্ধতি থেকে যেকোনো সমস্যা অনুযায়ী খাপখাওয়ানোর দিকে।

সুতরাং ডায়নামিক ওয়ার্কফ্লো হল শুধুমাত্র "একটি বুদ্ধিমান একক কথোপকথন" নয়, বরং গবেষণা প্রক্রিয়াটিকেই সংগঠিত করে।

আগে আমাকে দশটিরও বেশি স্বতন্ত্র সংলাপের সার্ভে করতে হত, এখন এটি ৩-৪ বারে সংকুচিত হয়েছে। যদিও সংশ্লিষ্ট টোকেন খরচ দশগুণ বেড়েছে।

তাহলে কেন আরও 3-4 বার প্রয়োজন? আমি মনে করি মূল কারণ হল এই প্রয়োজনীয়তাগুলির পার্থক্য।

প্রথমত, যাচাইকরণ প্রক্রিয়ার কঠোরতা; আমি মূলত ব্লকচেইনের উপর নতুন প্রযুক্তি নিয়ে গবেষণা করি, অনেক বিষয়ে অফিসিয়াল ডকুমেন্টেশন পিছিয়ে থাকে, এবং আরও বেশি রেফারেন্সের জন্য ওপেন-সোর্স কোড, চেইন-অন ট্রানজেকশন ইত্যাদি ডেটা আছে, কিন্তু বর্তমানে AI ডিফল্টভাবে ঘটনাগত যাচাইকরণের পরিবর্তে অফিসিয়াল ডকুমেন্টেশনকেই ভিত্তি হিসাবে ধরে নেয়।

দ্বিতীয়ত, সম্পূর্ণ বিভিন্ন ক্ষেত্রের গভীর চিন্তাভাবনা, যদিও এটি কাজের প্রবাহ পূর্বনির্ধারণের মাধ্যমে কিছুটা সমাধান করা যায় (বিভিন্ন মাত্রার subAgent পূর্বনির্ধারিত করে একই সমস্যার উপর চিন্তা করা)। তবে AI এর পক্ষে প্রধান চিন্তাভাবনা মডেলগুলির সাথেই ভালোভাবে কাজ করা হয়, খুব নতুন, খুব গভীর, এবং ডেটা-ভিত্তিক সমর্থনহীন বিষয়গুলির ক্ষেত্রে এটি কিছুটা অপর্যাপ্ত।

তৃতীয় হল সমাধান ডিজাইন এবং যাচাইকরণ, সমাধানের গুরুত্ব শুধু প্রস্তাব করার মধ্যে নয়, বরং এটি যাচাই এবং সমর্থনের মধ্যে রয়েছে, এটি বিদ্যমান প্রক্রিয়া, বিনিয়োগ এবং খরচের পরিমাপের উপর নির্ভর করে। যদি AI-কে ভালভাবে ট্রেন করা যায়, তবে এটি আরও ভালভাবে করা যেতে পারে, তবে এটি সাধারণীকরণের সাথে বিরোধিতা করে।

শেষে তথ্যের সর্বোচ্চ সংক্ষেপণ আসে, যা তথ্যের প্রাপকের প্রতি আপনার বোঝার মাত্রার উপর নির্ভর করে—কিছু মানুষের কাছে কোনো পটভূমি নেই, তাদের জন্য আপনাকে মানবিক চিত্র দিয়ে ব্যাখ্যা করতে হবে, আবার কিছু শ্রোতার জন্য একটি বাক্যই তাদের মন জয় করবে~।