টোকেন বার্নের সাথে এআই এজেন্ট আউটপুট গুণমান সম্পর্কিত

লেখক: সিস্টেমেটিক লং শর্ট

স্যাংচাও টেকফ্লো

শিনচাওয়ের পরিচয়: এই নিবন্ধের মূল যুক্তি শুধু একটি বাক্য: AI এজেন্টের আউটপুট গুণমান আপনি ব্যয় করা টোকেনের পরিমাণের সাথে সমানুপাতিক।

লেখক শুধু সাধারণ তত্ত্ব নিয়ে কথা বলছেন না, বরং আজই ব্যবহার করা যায় এমন দুটি বিশেষ পদ্ধতি প্রস্তাব করেছেন এবং 'নতুনত্বের সমস্যা' নামক টোকেন তৈরির সীমানা স্পষ্টভাবে চিহ্নিত করেছেন।

এজেন্ট ব্যবহার করে কোড লিখছেন বা ওয়ার্কফ্লো চালাচ্ছেন এমন পাঠকদের জন্য তথ্যের ঘনত্ব এবং কার্যকরীতা অত্যন্ত উচ্চ।

ভূমিকা

ঠিক আছে, আপনাকে স্বীকার করতে হবে যে এই শিরোনামটি সত্যিই খুব আকর্ষণীয়—কিন্তু সত্যি বলছি, এটা হাসির বিষয় নয়।

২০২৩ সালে, যখন আমরা এখনও LLM ব্যবহার করছিলাম প্রোডাকশন কোড চালানোর জন্য, আশেপাশের সবাই অবাক হয়ে গিয়েছিল, কারণ সেই সময়ে সাধারণ বোঝাপড়া ছিল যে LLM শুধুমাত্র ব্যবহারযোগ্য নয় এমন কুৎসিত আউটপুটই তৈরি করে। কিন্তু আমরা একটি বিষয় জানতাম যা অন্যরা বুঝতে পারেননি: Agent-এর আউটপুটের গুণগত মান হল আপনি যতটা Token ব্যয় করেন, তারই একটি ফাংশন। এটাই সব।

আপনি নিজে কয়েকটি পরীক্ষা চালালেই এটি দেখতে পাবেন। এজেন্টকে একটি জটিল, কিছুটা অপরিচিত প্রোগ্রামিং কাজ সম্পন্ন করতে দিন—যেমন, সীমাবদ্ধতা সহ একটি কনভেক্স অপ্টিমাইজেশন অ্যালগরিদম শূন্য থেকে বাস্তবায়ন করা। প্রথমে সর্বনিম্ন চিন্তার লেভেলে চালান; তারপর সর্বোচ্চ চিন্তার লেভেলে স্যুইচ করুন, এবং এটিকে তার কোডটি পরীক্ষা করতে দিন, যাতে এটি কতগুলি বাগ খুঁজে পায়। মধ্যম এবং উচ্চ লেভেলগুলিও পরীক্ষা করুন। আপনি পরীক্ষা করে দেখবেন: Token-এর পরিমাণ বাড়ানোর সাথে সাথে বাগের সংখ্যা একঘেয়েভাবে হ্রাস পাচ্ছে।

এটি বুঝতে কঠিন নয়, তাই না?

যত বেশি টোকেন = তত কম ত্রুটি। আপনি এই যুক্তিটিকে আরও এগিয়ে নিতে পারেন, যা মূলত কোড রিভিউ পণ্যের (সরলীকৃত) কেন্দ্রীয় ধারণা। একটি সম্পূর্ণ নতুন প্রেক্ষাপটে, প্রচুর টোকেন ব্যবহার করুন (যেমন: এটিকে কোডের প্রতিটি লাইন বিশ্লেষণ করতে দিন এবং প্রতিটি লাইনে বাগ আছে কিনা তা চেক করুন)—এতে প্রায় সমস্ত, এমনকি সমস্ত বাগই ধরা পড়বে। এই প্রক্রিয়াটি দশবার, শতবার পুনরাবৃত্তি করা যেতে পারে, প্রতিবার কোডবেসকে 'ভিন্ন দৃষ্টিকোণ' থেকে পর্যালোচনা করে, এবং আপনি চূড়ান্তভাবে সমস্ত বাগই খুঁজে পাবেন।

"অধিক টোকেন পোড়ানোর মাধ্যমে এজেন্টের গুণগত মান বাড়ানো যায়" এই ধারণার জন্য একটি প্রমাণও রয়েছে: যারা দাবি করে যে তারা এজেন্ট ব্যবহার করে সম্পূর্ণভাবে কোড লিখে উৎপাদনে চালু করতে পারে, তারা হয় মূল মডেল সরবরাহকারী, অথবা অত্যন্ত প্রচুর অর্থের সম্পদ সম্পন্ন কোম্পানি।

তাই, যদি আপনি এখনও এজেন্ট থেকে প্রোডাকশন-লেভেলের কোড পাচ্ছেন না বলে হতাশ হচ্ছেন—সোজা কথায়, সমস্যাটা আপনার মধ্যে। অথবা, আপনার ওয়ালেটের মধ্যে।

আপনি কতটা টোকেন পোড়ানো উচিত তা কিভাবে বুঝবেন?

আমি একটি পুরো নিবন্ধ লিখেছিলাম যেখানে বলেছিলাম যে সমস্যাটি আপনার তৈরি করা হারনেসে নয়, "সহজ রাখুন" বজায় রেখেও আপনি উত্তম কিছু তৈরি করতে পারেন, আমি এখনও এই মতামতকে সমর্থন করি। আপনি সেই নিবন্ধটি পড়েছেন, তা অনুসরণ করেছেন, কিন্তু এখনও এজেন্টের আউটপুটের প্রতি অসন্তুষ্ট। আপনি আমাকে DM করেছেন, আমি দেখেছি, কিন্তু উত্তর দিইনি।

এইটাই উত্তর।

আপনার এজেন্টের পারফরম্যান্স খারাপ এবং সমস্যা সমাধান করতে অক্ষম হওয়ার সবচেয়ে বড় কারণ হলো আপনি যথেষ্ট টোকেন ব্যয় করছেন না।

একটি সমস্যা সমাধানের জন্য কতগুলি টোকেন প্রয়োজন হবে, তা সম্পূর্ণভাবে সমস্যাটির আকার, জটিলতা এবং নতুনত্বের উপর নির্ভর করে।

「2+2 কত?」এর জন্য কম টোকেন লাগে।

"পলিমার্কেট এবং ক্যালশির মধ্যে সমস্ত মার্কেট স্ক্যান করে এমন একটি বট লিখুন, যা অর্থপূর্ণভাবে সদৃশ, একই ঘটনার আগে-পরে সেটেলমেন্ট হওয়ার জন্য উপযুক্ত মার্কেটগুলি শনাক্ত করবে, অ্যাবিট্রেজ বোর্ডার সেট করবে, এবং একবার অ্যাবিট্রেজ সুযোগ দেখা দিলে লো-ল্যাটেন্সির মাধ্যমে স্বয়ংক্রিয়ভাবে ট্রেড করবে" — এটির জন্য অনেকগুলি টোকেন পোড়াতে হবে।

আমরা ব্যবহারের মাধ্যমে একটি আকর্ষণীয় বিষয় উদ্ভাবন করেছি।

যদি আপনি পরিমাণ এবং জটিলতার কারণে উত্থাপিত সমস্যাগুলি সমাধানের জন্য যথেষ্ট পরিমাণ টোকেন বিনিয়োগ করেন, তবে এজেন্ট যেকোনোভাবেই সমস্যাগুলি সমাধান করতে পারবে। অন্যভাবে বললে, যদি আপনি একটি অত্যন্ত জটিল, অসংখ্য উপাদান এবং কোড লাইন সহ কিছু তৈরি করতে চান, তবে আপনি যদি এই সমস্যাগুলিতে যথেষ্ট পরিমাণ টোকেন বিনিয়োগ করেন, তবে শেষপর্যন্ত এগুলি সম্পূর্ণভাবে সমাধান করা যাবে।

এখানে একটি ছোট কিন্তু গুরুত্বপূর্ণ ব্যতিক্রম রয়েছে।

আপনার প্রশ্ন খুব নতুন হতে পারে না। বর্তমান পর্যায়ে, কোনও পরিমাণ টোকেনই «নতুনত্ব» সমস্যা সমাধান করতে পারে না। যথেষ্ট পরিমাণ টোকেন জটিলতার কারণে ত্রুটিগুলিকে শূন্যে নামিয়ে আনতে পারে, কিন্তু এজেন্টকে এটি যা জানে না তা আবিষ্কার করতে পারে না।

এই উপসংহারটি আসলে আমাদের শান্তি দিয়েছে।

আমরা অসংখ্য টোকেন ব্যয় করেছি, এবং প্রায় কোনও গাইডলাইন ছাড়াই এজেন্টকে প্রতিষ্ঠানগত বিনিয়োগ প্রক্রিয়াটি পুনর্গঠন করতে সক্ষম করার চেষ্টা করেছি। এটি বুঝতে চেয়েছিলাম যে, আমরা (কোয়ান্টিটেটিভ গবেষক হিসাবে) AI দ্বারা সম্পূর্ণরূপে প্রতিস্থাপিত হওয়ার আগে আরও কত বছর আছে। ফলাফলটি দেখলাম যে, এজেন্টগুলি একটি যথাযথ প্রতিষ্ঠানগত বিনিয়োগ প্রক্রিয়ার কাছাকাছি যেতেও অক্ষম। আমরা মনে করি, এর একটি কারণ হলো—এগুলি কখনও এই ধরনের কিছু দেখেনি—অর্থাৎ, প্রতিষ্ঠানগত বিনিয়োগ প্রক্রিয়াটি প্রশিক্ষণ ডেটাতেই অনুপস্থিত।

তাই, যদি আপনার প্রশ্নটি নতুন হয়, তাহলে টোকেন জমা করে সমাধান করার আশা করবেন না। আপনাকে নিজেই অনুসন্ধানের প্রক্রিয়াটি পরিচালনা করতে হবে। কিন্তু যখন আপনি বাস্তবায়নের পদ্ধতি নিশ্চিত করে ফেলবেন, তখন আপনি নিরাপদে টোকেন জমা করে এটি বাস্তবায়ন করতে পারেন—কোডবেসটি যতই বড় বা উপাদানগুলি যতই জটিল হোক, এটি কোনও সমস্যা নয়।

একটি সহজ হিউরিস্টিক নীতি হল: টোকেন বাজেট কোডের লাইন সংখ্যার সাথে সমানুপাতিকভাবে বৃদ্ধি পাবে।

বেশি পোড়ানো টোকেন কী করছে

ব্যবহারিকভাবে, অতিরিক্ত টোকেনগুলি সাধারণত নিম্নলিখিত পদ্ধতিগুলির মাধ্যমে এজেন্টের ইঞ্জিনিয়ারিং মান উন্নত করে:

একই চেষ্টায় বেশি সময় ধরে যুক্তি দিন, নিজে নিজে ভুল যুক্তি খুঁজে পাওয়ার সুযোগ বাড়ান। যত বেশি যুক্তি দেবেন = তত ভালো পরিকল্পনা = একবারে সফল হওয়ার সম্ভাবনা তত বেশি।

এটিকে একাধিক স্বাধীন প্রচেষ্টা করতে দিন, বিভিন্ন সমাধানের পথ অনুসরণ করুন। কিছু পথ অন্যগুলির চেয়ে ভালো। একাধিকবার প্রচেষ্টা করার অনুমতি দিলে, এটি সর্বোত্তমটি বেছে নেবে।

অনুরূপভাবে, আরও বেশি স্বাধীন পরিকল্পনা এটিকে দুর্বল দিকগুলি ত্যাগ করতে এবং সবচেয়ে প্রতিশ্রুতিশীলগুলি রাখতে সক্ষম করে।

আরও টোকেন এটিকে নিজের আগের কাজকে একটি সম্পূর্ণ নতুন প্রেক্ষাপটে সমালোচনা করতে এবং একটি উন্নতির সুযোগ দিতে দেয়, যাতে এটি কোনো একটি “যুক্তিগত অভ্যাস”-এ আটকে না যায়।

অবশ্যই, আমার প্রিয় বিষয়গুলির মধ্যে একটি: বেশি টোকেন মানে এটি পরীক্ষা এবং টুলস দিয়ে যাচাই করা যায়। কোডটি বাস্তবে চালানো এবং দেখা যে এটি কাজ করে কিনা, এটি উত্তরটি সঠিক কিনা তা নিশ্চিত করার সবচেয়ে বিশ্বস্ত উপায়।

এই লজিক কাজ করে, কারণ এজেন্টের ইঞ্জিনিয়ারিং ব্যর্থতা দৈবিক নয়। এটি প্রায় সবসময় আগে থেকেই ভুল পথ বেছে নেওয়ার কারণে, এই পথটি আসলেই চলবে কিনা তা পরীক্ষা করা হয়নি (প্রাথমিক পর্যায়ে), অথবা ভুল শনাক্ত করার পরে পুনরুদ্ধার ও পিছনে ফিরে আসার জন্য যথেষ্ট বাজেট ছিল না।

এটাই গল্প। টোকেন বর্তমানে আপনি যে সিদ্ধান্তের মান কিনেছেন, তার অক্ষরগত অর্থ। এটিকে গবেষণার কাজ হিসেবে ভাবুন: যদি আপনি কাউকে একটি কঠিন প্রশ্নের উত্তর দিতে বলেন, তাহলে সময়ের চাপ বাড়ার সাথে সাথে উত্তরের মান কমে যায়।

গবেষণা, মূলত, হল উত্তর জানা এই মৌলিক জিনিসটি উৎপাদন করা। মানুষ বায়োলজিক্যাল সময় ব্যয় করে ভালো উত্তর উৎপাদন করে, আর এজেন্টগুলি আরও বেশি ক্যালকুলেশন সময় ব্যয় করে ভালো উত্তর উৎপাদন করে।

আপনার এজেন্টকে কীভাবে উন্নত করবেন

আপনি হয়তো এখনও সন্দেহজনক, কিন্তু এটির সমর্থনে অসংখ্য গবেষণাপত্র রয়েছে, সত্যি বলতে কি, "রিজনিং" রেগুলেটরের অস্তিত্বই আপনার প্রয়োজনীয় সম্পূর্ণ প্রমাণ।

আমি যে পেপারটি সবচেয়ে বেশি পছন্দ করি, সেখানে গবেষকরা কিছু সুনির্দিষ্টভাবে প্রস্তুতকৃত রিজনিং নমুনা দিয়ে প্রশিক্ষণ দেন, এবং মডেলটিকে থামতে চাইলেও চিন্তা করতে বাধ্য করার জন্য একটি পদ্ধতি ব্যবহার করেন—এটি হলো, যেখানে এটি থামতে চাইবে, সেখানে “Wait” (অপেক্ষা করুন) যোগ করা। একটি মাত্র এই পদ্ধতির জন্য, একটি বেঞ্চমার্ক 50% থেকে 57% পর্যন্ত উন্নতি পায়।

আমি যতটা সম্ভব সরাসরি বলতে চাই: যদি আপনি এজেন্ট দ্বারা লেখা কোডের উপর সবসময় অভিযোগ করেন, তাহলে একবারের সর্বোচ্চ চিন্তার স্তরটি আপনার জন্য এখনও যথেষ্ট নাও হতে পারে।

আমি আপনাকে দুটি খুব সহজ সমাধান দিচ্ছি।

সহজ পদ্ধতি এক: WAIT (অপেক্ষা করুন)

আজই আপনি যা শুরু করতে পারেন তা হলো: একটি অটোমেটেড সাইকেল তৈরি করুন—এটি তৈরি করার পরে, এজেন্টকে নতুন কনটেক্সট দিয়ে N বার রিভিউ করতে দিন, প্রতিবার সমস্যা পেলে সেগুলো ঠিক করুন।

যদি আপনি এই সহজ কৌশলটি আপনার এজেন্ট ইঞ্জিনিয়ারিং ফলাফল উন্নত করেছে বলে বুঝতে পারেন, তাহলে আপনি অন্তত বুঝতে পেরেছেন যে আপনার সমস্যাটি শুধুমাত্র টোকেন সংখ্যার সমস্যা—তাহলে টোকেন পোড়ানো ক্লাবে যোগ দিন।

সহজ পদ্ধতি দুই: VERIFY (যাচাইকরণ)

এজেন্টকে তার কাজ যত তাড়াতাড়ি এবং প্রায় প্রতিবারই যাচাই করতে হবে। প্রমাণ করতে টেস্ট লিখুন যে নির্বাচিত পথটি সত্যিই কাজ করে। এটি অত্যন্ত জটিল এবং গভীরভাবে নেস্টেড প্রকল্পগুলির জন্য বিশেষভাবে উপকারী—একটি ফাংশনকে অনেকগুলি ডাউনস্ট্রিম ফাংশন দ্বারা কল করা হতে পারে। উপরের পর্যায়েই ত্রুটি ধরে ফেলা আপনাকে পরবর্তীতে অনেক গণনা সময় (টোকেন) বাঁচিয়ে দেবে। তাই, সম্ভব হলে, সমস্ত বিল্ডিং প্রক্রিয়ার মধ্যে "ভেরিফিকেশন চেকপয়েন্ট"গুলি সেট করুন।

একটি অংশ লেখার পর, মূল এজেন্ট বলেছে শেষ হয়ে গেছে? দ্বিতীয় এজেন্টকে একবার যাচাই করতে হবে। অসংশ্লিষ্ট চিন্তার প্রবাহ পদ্ধতিগত বাস্তবতা বিকৃতির উৎসকে ঢাকতে পারে।

এটাই মূল বিষয়। এই বিষয়ে আমি আরও অনেক কিছু লিখতে পারি, কিন্তু আমি মনে করি এই দুটি বিষয় বুঝে ভালোভাবে বাস্তবায়ন করলেই আপনি 95% সমস্যা সমাধান করতে পারবেন। আমি বিশ্বাস করি যে সহজ বিষয়গুলিকে চরম পর্যায়ে পৌঁছানোই গুরুত্বপূর্ণ, এবং তারপর প্রয়োজন অনুযায়ী জটিলতা যোগ করা।

আমি উল্লেখ করেছিলাম যে "নতুনত্ব" হল টোকেন দিয়ে সমাধান করা যায় না এমন একটি সমস্যা, আমি আবারও জোর দিয়ে বলছি, কারণ আপনি অবশ্যই এই সমস্যার মুখোমুখি হবেন, এবং তারপর আমার কাছে অশ্রু প্রবাহিত করবেন যে টোকেন জমা করলে কিছুই হয়নি।

যখন আপনার সমাধান করার প্রয়োজন হয় এমন সমস্যা ট্রেনিং সেটে না থাকে, তখনই আপনি সেই সমাধান প্রদানকারী হন। তাই, ডোমেইন-বিশেষজ্ঞতা এখনও অত্যন্ত গুরুত্বপূর্ণ।