বিশেষজ্ঞরা ওপেনক্লসের এআই এজেন্ট এবং কম্পিউট চ্যালেঞ্জের উপর প্রভাব নিয়ে আলোচনা করছেন

লেখক: চেন জুনদা

চিজিশির ২৭ মার্চের প্রতিবেদন অনুযায়ী, আজ জ়োংগুয়ান ফোরামে, জিজ়ু সি এইচ পি এর সিইও জাং পেঙ, মুন অফ দ্য ডার্কনেসের সিইও ইয়াং জিলিন (পরিচালক হিসেবে), মিইমি মি মো বড় মডেলের প্রধান লুও ফুলি, উয়ানওয়েন শিনকিয়ং-এর সিইও শিয়া লিশুএবং হংকং বিশ্ববিদ্যালয়ের সহকারী অধ্যাপক হুয়াং চাও দুর্লভভাবে একসাথে উপস্থিত হয়ে ওপেন-সোর্স বড় মডেল এবং স্মার্ট এজেন্টের ভবিষ্যতের দিকে একটি গভীর আলোচনা করেন।

এই আলোচনাটি বর্তমানের সবচেয়ে জনপ্রিয় OpenClaw দিয়ে শুরু হয়েছে, যেখানে কয়েকজন অতিথি একমত হয়েছেন যে, এজেন্টগুলি বড় মডেলগুলিকে প্রকৃতপক্ষে “কাজ” করতে শুরু করেছে। OpenClaw বড় মডেলের ক্ষমতার সীমানা বাড়ায়, কিন্তু মডেলগুলিকে বেশি প্রত্যাশা রাখে। Zhipu দীর্ঘ-পরিসরের পরিকল্পনা, আত্ম-ডিবাগিং ইত্যাদি ক্ষমতা অধ্যয়ন করছে, যখন Luo Fuli-এর দলটি আরও বেশি গুরুত্ব দিচ্ছে আর্কিটেকচারাল উদ্ভাবনের মাধ্যমে খরচ কমিয়ে গতি বাড়ানোর দিকে, এমনকি মডেলের আত্ম-বিবর্তনও সম্ভব করে তোলার দিকে।

অবকাঠামোকেও এজেন্টগুলির গতির সাথে সামঞ্জস্য করতে হবে। শিয়াং লিক্সিয়ে মনে করেন যে বর্তমানের ক্যালকুলেশন সিস্টেম এবং সফটওয়্যার আর্কিটেকচার মানুষের জন্য তৈরি, এজেন্টের জন্য নয়—এটি আসলে মানুষের অপারেশনাল ক্ষমতা দ্বারা এজেন্টের প্রদর্শনের স্থানকে সীমাবদ্ধ করছে। তাই, আমাদের Agentic Infra তৈরি করতে হবে।

অনেক অতিথির দৃষ্টিতে, ওপেন সোর্স হল বড় মডেল এবং এজেন্টগুলির বিকাশের একটি মূল চালিকাশক্তি। হংকং বিশ্ববিদ্যালয়ের সহকারী অধ্যাপক হুয়াং চাও মনে করেন, এজেন্টগুলির জন্য “খেলার জন্য” থেকে “প্রকৃত কর্মচারী”-এ যাওয়ার কীও হল ওপেন সোর্স ইকোসিস্টেমের প্রসুপ্তি, শুধুমাত্র সম্প্রদায়ের সহযোগিতায়ই সফটওয়্যার, ডেটা এবং প্রযুক্তি সম্পূর্ণরূপে এজেন্ট-নেটিভ আকারে পরিণত হতে পারে এবং চূড়ান্তভাবে একটি টেকসই বিশ্বব্যাপী AI ইকোসিস্টেম গড়ে উঠতে পারে।

এছাড়াও, কয়েকজন অতিথি বড় মডেলের দাম বৃদ্ধি, টোকেন ব্যবহারের বিস্ফোরণ, এবং AI-এর পরবর্তী 12 মাসের কীওয়ার্ডসহ বিষয়গুলি নিয়ে আলোচনা করেন। এই রাউন্ডটেবিল আলোচনার মূল দৃষ্টিভঙ্গি হল:

১। চাং পেং: মডেলটি বড় হওয়ার পর উপসংহার খরচও প্রাসঙ্গিকভাবে বৃদ্ধি পায়; সম্প্রতি জিজ্ঞাপের মূল্যবৃদ্ধির কৌশল আসলে স্বাভাবিক ব্যবসায়িক মূল্যের দিকে ফিরে আসছে, দীর্ঘমেয়াদি নিম্নমূল্যের প্রতিযোগিতা শিল্পের বিকাশের জন্য ক্ষতিকর।

২। জাং পেং: এজেন্ট এবং অন্যান্য নতুন প্রযুক্তির বিস্ফোরণের ফলে টোকেনের ব্যবহার ১০ গুণ বেড়েছে, কিন্তু প্রকৃত চাহিদা ১০০ গুণ বেড়েছে হতে পারে, এখনও অসংখ্য চাহিদা পূরণ হয়নি, তাই ক্যালকুলেশন ক্ষমতা আগামী ১২ মাসের জন্য একটি কী সমস্যা হয়ে রয়েছে।

৩। লুও ফুলি: বেস বড় মডেল প্রদানকারীদের দৃষ্টিকোণ থেকে, ওপেনক্লস বেসিক বড় মডেলের ন্যূনতম মান নিশ্চিত করে এবং সর্বোচ্চ মান বাড়ায়। দেশীয় ওপেন-সোর্স মডেল + ওপেনক্লস-এর কার্যসম্পাদন এখন ক্লাউডের কাছাকাছি।

৪. লুও ফুলি: ডিপসিক দেশীয় বড় মডেল প্রস্তুতকারকদের সাহস এবং আত্মবিশ্বাস দিয়েছে। কিছু মডেল স্ট্রাকচার ইনোভেশন, যা মনে হচ্ছে "দক্ষতার জন্য সমঝোতা" করা হয়েছে, প্রকৃত পরিবর্তন ঘটিয়েছে, যা শিল্পকে কম্পিউটিং পাওয়ার সীমিত থাকা অবস্থায় সর্বোচ্চ বুদ্ধিমত্তা অর্জনের অনুমতি দিয়েছে।

৫। লুও ফুলি: পরবর্তী বছরের AGI পথে সবচেয়ে গুরুত্বপূর্ণ বিষয় হল "স্ব-বিকাশ"। স্ব-বিকাশ বড় মডেলগুলিকে শীর্ষ বিজ্ঞানীদের মতো অন্বেষণের ক্ষমতা দেয়, এটিই একমাত্র "নতুন কিছু তৈরি" করার পথ। মিই ইতিমধ্যে Claude Code+ শীর্ষস্থানীয় মডেলের সাহায্যে গবেষণার দক্ষতা ১০ গুণ বাড়িয়েছে।

৬। শিয়া শুয়ে: যখন এজিআই যুগ আসবে, তখন অবকাঠামোটিই স্বয়ংক্রিয় হওয়া উচিত, যা সম্পূর্ণ অবকাঠামোকে স্বয়ংসম্পূর্ণভাবে পরিচালনা করবে এবং এআই গ্রাহকদের প্রয়োজনের ভিত্তিতে অবকাঠামোকে পুনরায় বিকশিত করে নিজেকে উন্নত ও পুনরায় পুনরায় বিকশিত করবে।

৭। শিয়া সুয়ে: ওপেনক্লস টোকেন ব্যবহারকে বিস্ফোরিত করেছে। বর্তমানে টোকেন খরচের গতি ঠিক তেমনি, যেমন 3G যুগের শুরুতে মোবাইল ডেটা প্রতি মাসে মাত্র 100MB পরিমাণের সীমা ছিল।

৮। হুয়াং চাও: ভবিষ্যতে অনেক সফটওয়্যারই মানুষের জন্য নয়, সফটওয়্যার, ডেটা এবং প্রযুক্তি সবই Agent-Native আকারে পরিণত হবে, ভবিষ্যতে মানুষকে শুধুমাত্র সেই “যা আপনাকে আনন্দিত করে” GUI-এর সাথে ব্যবহার করতে হবে।

এই রাউন্ডটেবিল আলোচনার সম্পূর্ণ ট্রান্সক্রিপ্ট নিচে দেওয়া হল:

01. OpenClaw হল "স্ক্যাফোল্ডিং", বড় মডেলের টোকেন খরচ এখনও 3G যুগে রয়ে গেছে

যাং জিলিন: আজ আমরা বিভিন্ন প্রতিষ্ঠানের গুরুত্বপূর্ণ অতিথিদের আমন্ত্রণ জানাতে পেরে অত্যন্ত সন্মানিত বোধ করছি, যারা মডেল লেয়ার, কম্পিউটিং পাওয়ার লেয়ার থেকে শুরু করে এজেন্ট লেয়ার পর্যন্ত বিভিন্ন স্তরের। আজের প্রধান কীওয়ার্ডগুলি হল ওপেন সোর্স এবং এজেন্ট।

প্রথম প্রশ্নটি হল বর্তমানে সবচেয়ে জনপ্রিয় OpenClaw নিয়ে আলোচনা করা। দৈনন্দিন জীবনে OpenClaw বা এর মতো পণ্যগুলি ব্যবহারকারীদের কাছে সবচেয়ে কল্পনাশীল বা প্রভাবিত করা বিষয়গুলি কী? প্রযুক্তিগত দৃষ্টিকোণ থেকে, আজকের OpenClaw এবং সংশ্লিষ্ট Agent-এর বিকাশকে কীভাবে দেখা উচিত?

জাং পেং: আমি খুব আগে থেকেই OpenClaw নিয়ে নিজে খেলতাম, সময়টা তখন Clawbot নামে পরিচিত ছিল। আমি নিজেই হাতে-কলমে কাজ করতাম, কারণ আমি একজন প্রোগ্রামার, এই ধরনের জিনিস নিয়ে আমার নিজস্ব অভিজ্ঞতা ছিল।

আমার মনে হয়, ওপেনক্লস যে সবচেয়ে বড় উল্লেখযোগ্য বিপ্লব বা নতুনত্ব আনে, তা হলো এটি এখন শুধুমাত্র প্রোগ্রামার বা পিকেটদের জন্য সীমাবদ্ধ নয়। সাধারণ মানুষও সহজেই শীর্ষস্থানীয় মডেলগুলির ক্ষমতা, বিশেষ করে প্রোগ্রামিং এবং এজেন্টগুলির দিকে অ্যাক্সেস করতে পারে।

তাই এখন পর্যন্ত আমি যে যোগাযোগটি আপনাদের সাথে করেছি, আমি খুব বেশি পছন্দ করি OpenClaw-কে “স্ক্যাফোল্ডিং” হিসাবে উল্লেখ করা। এটি মডেলের ভিত্তির উপর একটি শক্তিশালী, সুবিধাজনক কিন্তু খুবই নমনীয় স্ক্যাফোল্ডিং প্রদান করে। আপনি নিজেদের ইচ্ছা অনুযায়ী, অনেকগুলি বেসিক মডেল দ্বারা প্রদানকৃত নতুন ফিচারগুলি ব্যবহার করতে পারেন।

আগে আমার নিজের ধারণাগুলি কোডিং করতে না পারার কারণে বা অন্যান্য সংশ্লিষ্ট দক্ষতা অর্জন করতে না পারার কারণে সীমাবদ্ধ ছিল, আজ OpenClaw-এর মাধ্যমে এটি খুব সহজেই সম্পন্ন করা যাচ্ছে।

OpenClaw আমাকে খুব বেশি প্রভাবিত করেছে, বা আমাকে এই বিষয়টি পুনরায় চিনতে সাহায্য করেছে।

শা লিশুয়ে: আসলে আমি যখন প্রথম ওপেনক্লস ব্যবহার করি, তখন এটির সাথে খুব বেশি খাপ খাইয়ে নিতে পারিনি, কারণ আমি বড় মডেলের সাথে কথা বলার পদ্ধতির সাথে অভ্যস্ত ছিলাম, ব্যবহারের পর আমি অনুভব করি যে ওপেনক্লসের প্রতিক্রিয়া খুব ধীর।

কিন্তু পরে আমি একটি সমস্যা বুঝতে পারলাম, যে এটি আগের চ্যাটবটের চেয়ে একটি বড় পার্থক্য রাখে—এটি একজন বড় কাজ সম্পন্ন করতে আমাকে সাহায্য করতে পারে এমন “মানুষ”। আমি এটিকে আরও জটিল কাজ দিতে শুরু করলাম, এবং দেখলাম যে এটি প্রকৃতপক্ষে খুব ভালোভাবে কাজ করতে পারে।

এই বিষয়টি আমাকে বড় প্রভাবিত করেছে। মডেলটি শুরুতে টোকেন ভিত্তিক চ্যাট করত, এখন একটি এজেন্টে পরিণত হয়েছে, একটি ঝিঁঝিঁপোকায় পরিণত হয়েছে, যা আপনার কাজগুলি সম্পন্ন করতে সাহায্য করতে পারে। এটি AI-এর সামগ্রিক কল্পনাশক্তির সীমা বড় পরিমাণে বাড়িয়েছে।

একইসাথে, এটি সম্পূর্ণ সিস্টেমের ক্ষমতার জন্যও অনেক বেশি প্রয়োজনীয়তা তৈরি করে। এটিই কারণ যে আমি প্রথমে OpenClaw ব্যবহার করার সময় এটি কিছুটা ধীর মনে হয়েছিল। অবকাঠামো স্তরের প্রতিষ্ঠান হিসাবে, আমি দেখছি যে OpenClaw AI-এর পিছনের বড় সিস্টেম এবং ইকোসিস্টেমকে আরও বেশি সুযোগ এবং চ্যালেঞ্জ দিয়েছে।

আমাদের এখন যে সমস্ত সম্পদ রয়েছে, তা এই দ্রুত বৃদ্ধি পাচ্ছে যুগকে সমর্থন করতে অপর্যাপ্ত। উদাহরণস্বরূপ, আমাদের কোম্পানির ক্ষেত্রে, জানুয়ারির শেষের দিক থেকে প্রায় প্রতি দুই সপ্তাহে টোকেন ব্যবহার দ্বিগুণ হয়েছে, এখন পর্যন্ত এটি প্রায় ১০ গুণ বেড়েছে।

গতকাল এই গতি দেখা গিয়েছিল যখন আমি 3G মোবাইল ব্যবহার করে ডেটা খরচ করতাম। আমার একটা অনুভূতি হচ্ছে, বর্তমানের টোকেন ব্যবহার ঠিক সেই সময়ের মতো, যখন প্রতি মাসে শুধুমাত্র 100MB মোবাইল ডেটা ছিল।

এই পরিস্থিতিতে, আমাদের সমস্ত সম্পদকে আরও ভালভাবে অপ্টিমাইজ এবং একীভূত করতে হবে, যাতে প্রতিটি ব্যক্তি, শুধুমাত্র AI ক্ষেত্রেই নয়, বরং সমাজের প্রতিটি ব্যক্তি ওপেনক্লসের AI ক্ষমতা ব্যবহার করতে পারে।

প্রাথমিক অবকাঠামোর খেলোয়াড় হিসেবে, আমি এই যুগের প্রতি অত্যন্ত উত্তেজিত এবং গভীরভাবে প্রভাবিত। আমি মনে করি এখানে অনেক অপ্টিমাইজেশনের সুযোগ আছে যা আমাদের এখনও অন্বেষণ এবং চেষ্টা করা উচিত।

02. OpenClaw দেশীয় মডেলের সীমানা বাড়িয়ে দেয়, ইন্টারেক্টিভ মোডের বিপ্লবী প্রগতি

রো ফুলি: আমি নিজে ওপেনক্লসকে এজেন্ট ফ্রেমওয়ার্কের বিকাশের প্রক্রিয়ায় একটি অত্যন্ত বিপ্লবী এবং বিপর্যাস্তকারী ঘটনা হিসাবে দেখি।

আসলে আমার চারপাশের যারা অত্যন্ত গভীর কোডিং করছে, তাদের প্রথম পছন্দ এখনও Claude Code। কিন্তু আমি বিশ্বাস করি, OpenClaw ব্যবহারকারীরা অনুভব করবেন যে এটি Agent ফ্রেমওয়ার্কের অনেক ডিজাইন Claude Code-এর চেয়ে এগিয়ে। সাম্প্রতিককালে Claude Code-এর অনেক আপডেট আসলে OpenClaw-এর দিকে এগিয়ে যাচ্ছে।

আমি যখন নিজে OpenClaw ব্যবহার করি, তখন অনুভব করি যে এই ফ্রেমওয়ার্কটি আমার কল্পনাকে যেকোনো সময় যেকোনো জায়গায় বিস্তার করতে সাহায্য করে। Claude Code শুধুমাত্র আমার ডেস্কটপে আমার ক্রিয়েটিভিটি বিস্তার করতে পারত, কিন্তু OpenClaw যেকোনো সময় যেকোনো জায়গায় আমার ক্রিয়েটিভিটি বিস্তার করতে পারে।

OpenClaw-এর মূল মূল্য দুটি। প্রথমটি এটি ওপেন সোর্স। ওপেন সোর্স হওয়াটি সম্পূর্ণ সম্প্রদায়কে গভীরভাবে অংশগ্রহণ করতে, এই ফ্রেমওয়ার্কের উন্নয়নকে গুরুত্ব দিতে এবং এটি এগিয়ে নিয়ে যেতে অত্যন্ত সহায়ক, যা একটি গুরুত্বপূর্ণ পূর্বশর্ত।

OpenClaw এর মতো একটি এআই ফ্রেমওয়ার্কের একটি বড় মূল্য হল এটি দেশীয় মডেলগুলির সর্বোচ্চ সীমাকে খুব উঁচুতে তুলে দেয়, যেগুলি বন্ধ মডেলগুলির স্তরের কাছাকাছি কিন্তু এখনও সম্পূর্ণরূপে অনুসরণ করেনি।

অধিকাংশ পরিস্থিতিতে, আপনি দেখতে পাবেন যে এটি (স্থানীয় ওপেন-সোর্স মডেল + ওপেনক্লস) এর কাজ সম্পন্নের মাত্রা ক্লাউডের সর্বশেষ মডেলের সাথে খুব কাছাকাছি। এছাড়াও, এটি একটি হারনেস সিস্টেম বা এর স্কিলস সিস্টেমের মতো বিভিন্ন ডিজাইনের মাধ্যমে নিম্নতম মানদণ্ডকেও ভালোভাবে নিশ্চিত করে—যা কাজের সম্পূর্ণতা এবং সঠিকতা নিশ্চিত করে।

বেস লার্জ মডেল প্রোভাইডারের ডেভেলপারদের দৃষ্টিকোণ থেকে, ওপেনক্লক বেসিক লার্জ মডেলের ন্যূনতম মান নিশ্চিত করে এবং সর্বোচ্চ মান বাড়ায়।

এছাড়াও, আমি মনে করি এটি সম্পূর্ণ সম্প্রদায়ের জন্য আরেকটি মূল্য যোগ করেছে, যেহেতু এটি সবার চেতনাকে জাগিয়ে তুলেছে যে বড় মডেলের বাইরেও Agent স্তরে অসীম কল্পনার সম্ভাবনা লুকিয়ে আছে।

আমি সম্প্রতি লক্ষ্য করেছি যে, গবেষকদের বাইরেও সম্প্রদায়ে আরও বেশি মানুষ AGI-এর পরিবর্তনে অংশগ্রহণ করতে শুরু করেছে, এবং Harness, Scaffold এর মতো আরও শক্তিশালী এজেন্ট ফ্রেমওয়ার্কগুলির সাথে বেশি মানুষ পরিচিত হচ্ছে। এই মানুষগুলি এই টুলগুলির মাধ্যমে নিজেদের কাজের কিছুটা প্রতিস্থাপন করছে, এবং একইসাথে নিজেদের সময়কে আরও কল্পনাশীল বিষয়গুলিতে বিনিয়োগ করার জন্য মুক্ত করছে।

হুয়াং চাও: আমি মনে করি, প্রথমত ইন্টারেকশন মডেলের দিক থেকে, ওপেনক্লস এবার জনপ্রিয় হওয়ার প্রথম কারণ হতে পারে এটি একটি বেশি "মানুষের মতো" অভিজ্ঞতা প্রদান করেছে। আসলে, আমরা এক বা দুই বছর ধরে এজেন্ট তৈরি করছি, কিন্তু আগের কার্সর, ক্লাউড কোডের মতো এজেন্টগুলি বেশি "টুলের" অনুভূতি দিয়েছিল। অন্যদিকে, ওপেনক্লস প্রথমবারের মতো "ইমিডিয়েট মেসেজিং অ্যাপের সমন্বয়" পদ্ধতিতে, মানুষকে তাদের মনের "ব্যক্তিগত জার্ভিস"-এর কাছাকাছি অনুভব করিয়েছে। আমি মনে করি, এটি ইন্টারেকশন মডেলের একটি বিপ্লব।

একটি অতিরিক্ত বিষয় হলো, এটি সম্পূর্ণ সম্প্রদায়কে এই প্রেরণা দেয় যে, Agent Loop এর মতো সরল কিন্তু দক্ষ ফ্রেমওয়ার্ক আবারও কার্যকর বলে প্রমাণিত হয়েছে। এছাড়াও, এটি আমাদের একটি প্রশ্নের পুনরালোচনা করতে বাধ্য করে: আমাদের কি সবকিছু করতে পারে এমন একটি সুপার এজেন্টের প্রয়োজন, নাকি একটি ভালো “ছোট পরিচালক”-এর—যেমন একটি হালকা অপারেটিং সিস্টেম বা স্ক্যাফোল্ডিং-এর?

OpenClaw-এর ধারণা হলো, এই “ছোট সিস্টেম” বা “লবস্টার অপারেটিং সিস্টেম” এবং এর ইকোসিস্টেমের মাধ্যমে সবাইকে আসলেই “খেলার” মনোভাব দিয়ে সম্পূর্ণ ইকোসিস্টেমের সমস্ত টুলগুলি চালু করা।

স্কিলস, হারনেস এর মতো ক্ষমতাগুলির উদ্ভবের সাথে সাথে, আরও বেশি মানুষ ওপেনক্লকের মতো সিস্টেমগুলির জন্য অ্যাপ্লিকেশন ডিজাইন করতে পারবে, যা বিভিন্ন শিল্পকে সক্ষম করবে। আমার মতে, এটি স্বাভাবিকভাবেই সমগ্র ওপেন-সোর্স ইকোসিস্টেমের সাথে খুব ঘনিষ্ঠভাবে যুক্ত। আমার দৃষ্টিতে, এই দুটি বিষয়ই আমাদের পাওয়া সবচেয়ে বড় অনুপ্রেরণা।

03. GLM নতুন মডেলটি "কাজ করার" জন্য তৈরি, দাম বাড়ানো হল স্বাভাবিক ব্যবসায়িক মূল্যের প্রত্যাবর্তন

ইয়াং জিলিন: জাং পেঙকে একটা প্রশ্ন করতে চাই। সাম্প্রতিক সময়ে জিজ্ঞাসা দ্বারা GLM-5 Turbo মডেল প্রকাশ করা হয়েছে, আমি বুঝেছি যে এটি Agent ক্ষমতায় বড় প্রগতি ঘটিয়েছে। এই নতুন মডেলটি অন্যান্য মডেলগুলির থেকে কীভাবে ভিন্ন? এছাড়াও, আমরা দেখেছি যে মূল্যবৃদ্ধির কৌশল অবলম্বন করা হয়েছে, এটি কী ধরনের বাজার সংকেত প্রদান করে?

জাং পেং: এটি একটি খুব ভালো প্রশ্ন। আগের দিনগুলিতে আমাদের প্রকৃতপক্ষে একটি জরুরি আপডেট করেছিলাম, যা আসলে আমাদের সম্পূর্ণ বিকাশ পথের একটি পর্যায়, কিন্তু আমরা এটিকে আগেই প্রকাশ করেছি।

প্রধান উদ্দেশ্য হলো পূর্বের “সাধারণ কথোপকথন” থেকে “প্রকৃত কাজ করা”-এ সরে যাওয়া—এটিই সম্প্রতি সবাই অনুভব করছে: বড় মডেলগুলি শুধু কথা বলতে পারে না, বরং বাস্তবিকভাবে মানুষের কাজে সাহায্য করতে পারে।

কিন্তু “কাজ করা”-এর পিছনে অন্তর্নিহিত ক্ষমতার প্রয়োজনীয়তা খুব বেশি। মডেলটিকে দীর্ঘমেয়াদি কাজের পরিকল্পনা নিজেই করতে হবে, অবিরাম পরীক্ষা-ভুল করতে হবে, প্রসঙ্গ সংকুচিত করতে হবে, ডিবাগ করতে হবে, এবং সম্ভবত মাল্টিমোডাল তথ্য প্রক্রিয়াকরণও করতে হবে। তাই এটি মডেলের ক্ষমতার প্রয়োজনীয়তা, পারম্পরিক কথোপকথন-ভিত্তিক সাধারণ মডেলের সাথে আসলে ভিন্ন। GLM-5 Turbo-এ এই দিকগুলিতে বিশেষভাবে উন্নতি করা হয়েছে, বিশেষ করে আপনি যা উল্লেখ করেছেন—এটিকে কাজ করতে, সাতাশটি ঘন্টা চালাতে, কীভাবে অবিরাম loop-এ থাকা যায়, এইসবের জন্য আমরা অনেক কাজ করেছি।

অন্যদিকে, টোকেন খরচের বিষয়টিও ব্যবহারকারীদের কাছে বড় মনোযোগের বিষয়। একটি বুদ্ধিমান মডেলকে জটিল কাজ করানোর জন্য টোকেন খরচ অনেক বেশি হয়। সাধারণ ব্যবহারকারীদের এটি সম্ভবত খুব বেশি অনুভব হয় না, কিন্তু বিল দেখলে দেখা যায় যে টাকা খুব দ্রুত কমে যাচ্ছে। তাই আমরা এই দিকেও অপ্টিমাইজেশন করেছি—জটিল কাজের সময়, মডেলটি আরও দক্ষ টোকেন দক্ষতা ব্যবহার করে কাজটি সম্পন্ন করতে পারে। সামগ্রিকভাবে, মডেলটির আর্কিটেকচার এখনও একটি মাল্টি-টাস্ক কোঅপারেটিভ জেনারেল-পারপাস আর্কিটেকচার, শুধুমাত্র ক্ষমতা বৃদ্ধির জন্য এটির প্রবণতা পরিবর্তন করা হয়েছে।

মূল্য বৃদ্ধির বিষয়টি আসলে খুব সহজেই ব্যাখ্যা করা যায়। আগেই বলা হয়েছে, এখন শুধু একটি প্রশ্ন জিজ্ঞাসা করে একটি উত্তর পাওয়া যায় না, পিছনের যুক্তির শৃঙ্খল খুব দীর্ঘ। অনেক কাজের জন্য কোড লিখতে হয় এবং লো-লেভেল ইনফ্রাস্ট্রাকচারের সাথে কাজ করতে হয়, এছাড়াও নিরন্তরভাবে ডিবাগ করতে হয়, ভুলগুলি ঠিক করতে হয়, যার ফলে খরচ অনেক বেশি। একটি জটিল কাজ সম্পন্ন করতে যে টোকেনের পরিমাণ লাগে, তা আগের একটি সহজ প্রশ্নের উত্তরের চেয়ে দশগুণ বা এমনকি শতগুণ।

অতএব, মূল্যে কিছু বৃদ্ধি প্রয়োজন হয়েছে, মডেলটিও বড় হয়েছে, যার ফলে উপসংহার খরচও বেড়েছে। আমরা এটিকে সাধারণ ব্যবসায়িক মূল্যের দিকে ফিরিয়ে আনছি, কারণ দীর্ঘমেয়াদীভাবে কম মূল্যের উপর নির্ভর করে প্রতিযোগিতা পুরো শিল্পের উন্নয়নের জন্য ক্ষতিকর। এটিই আমাদের ব্যবসায়িককরণকে একটি সুস্থ চক্রে পরিণত করে, মডেলের ক্ষমতা নিয়মিতভাবে উন্নত করে, এবং আপনাদের জন্য ভালো সেবা প্রদানের জন্য।

04. একটি আরও দক্ষ টোকেন ফ্যাক্টরি তৈরি করুন, অবকাঠামোটিও একটি এজেন্ট হওয়া উচিত

ইয়াং জিলিন: এখন ওপেন-সোর্স মডেলগুলির সংখ্যা বাড়ছে এবং এগুলি একটি ইকোসিস্টেম গঠন করছে, যাতে বিভিন্ন মডেল বিভিন্ন কম্পিউটিং প্ল্যাটফর্মে ব্যবহারকারীদের জন্য বেশি মূল্য তৈরি করতে পারে। টোকেন ব্যবহারের বিস্ফোরণের সাথে সাথে, বড় মডেলগুলি এখন প্রশিক্ষণের যুগ থেকে উপসংহারের যুগে যাচ্ছে। আমি লিশুয়েকে জিজ্ঞাসা করতে চাই, ইনফ্রাস্ট্রাকচারের দিক থেকে, উপসংহারের যুগটি উয়ানওয়েনের জন্য কী অর্থবহ?

শা লিসুe: আমরা একটি এআই যুগের প্রাথমিক প্রতিষ্ঠান, যা এখন জিজ্ঞাপ, কিমি, মিমো ইত্যাদির জন্য সমর্থন প্রদান করছে, যাতে ব্যবহারকারীরা টোকেন ফ্যাক্টরি আরও দক্ষতার সাথে ব্যবহার করতে পারে। আমরা একইসাথে অনেক বিশ্ববিদ্যালয় এবং গবেষণা প্রতিষ্ঠানের সাথেও সহযোগিতা করছি।

তাই আমরা একটি বিষয় নিয়ে ভাবছিলাম: এজিআই যুগের জন্য কী ধরনের অবকাঠামো প্রয়োজন? এবং আমরা এটিকে কীভাবে ধাপে ধাপে বাস্তবায়ন ও প্রতিফলিত করব? আমরা সংক্ষিপ্ত, মধ্যম এবং দীর্ঘমেয়াদী পর্যায়ের জন্য সমাধানের প্রয়োজনীয়তা নিয়ে পুরোপুরি প্রস্তুত।

বর্তমানে সবচেয়ে সরাসরি সমস্যা হলো আগের আলোচনায় উঠে আসা—সম্পূর্ণ Open-এর ফলে টোকেনের পরিমাণ বিস্ফোরিত হওয়া, যা সিস্টেমের দক্ষতার জন্য উচ্চতর অপ্টিমাইজেশনের প্রয়োজনীয়তা তৈরি করেছে। মূল্যের সমন্বয়ও এই প্রয়োজনীয়তার অধীনে একটি প্রতিক্রিয়া।

আমরা সর্বদা সফটওয়্যার এবং হার্ডওয়্যারের মধ্যে সংযোগ স্থাপনের মাধ্যমে বিন্যাস এবং সমাধান করে আসছি। উদাহরণস্বরূপ, আমরা প্রায় সমস্ত ধরনের কম্পিউটিং চিপ যুক্ত করেছি, দেশের দশটিরও বেশি ভিন্ন চিপ এবং পঞ্চাশটিরও বেশি ভিন্ন ক্যালকুলেশন ক্লাস্টারকে একীভূতভাবে সংযুক্ত করেছি। এটি AI সিস্টেমের মধ্যে ক্যালকুলেশন সম্পদের অভাবের সমস্যা সমাধান করতে পারে; সম্পদের অভাবে, সেরা উপায় হলো প্রথমে যা ব্যবহারযোগ্য, তা সবগুলোই ব্যবহার করা, এবং প্রতিটি ক্যালকুলেশনকেই সবচেয়ে গুরুত্বপূর্ণ কাজে ব্যবহার করা, যাতে সর্বোচ্চ রূপান্তর দক্ষতা অর্জন করা যায়।

এই পর্যায়ে, আমাদের লক্ষ্য হল একটি আরও দক্ষ টোকেন ফ্যাক্টরি তৈরি করা। আমরা অনেক অপ্টিমাইজেশন করেছি, যেমন মডেল এবং হার্ডওয়্যারের ভিডিও মেমোরি সহ বিভিন্ন সংস্থানগুলিকে সর্বোত্তমভাবে সামঞ্জস্য করা, এবং সর্বশেষ মডেল এবং হার্ডওয়্যার স্ট্রাকচারের মধ্যে আরও গভীর প্রতিক্রিয়া সম্ভব কিনা তা পর্যবেক্ষণ করছি। তবে বর্তমান দক্ষতা সমস্যা সমাধান করা শুধুমাত্র একটি স্ট্যান্ডার্ডাইজড টোকেন ফ্যাক্টরি তৈরির মতো।

এজেন্ট যুগের জন্য, আমরা মনে করি এটি যথেষ্ট নয়। কারণ এজেন্ট একজন মানুষের মতো, আপনি এটিকে একটি কাজ দিতে পারেন। আমি দৃঢ়ভাবে বিশ্বাস করি যে, বর্তমানে অনেক ক্লাউড কম্পিউটিং যুগের ভিত্তিগত ব্যবস্থা একটি প্রোগ্রামকে সেবা দেওয়ার জন্য, মানুষের ইঞ্জিনিয়ারদের জন্য ডিজাইন করা হয়েছে, এআই-এর জন্য নয়। এটি ঠিক তখনই হয়, যখন আমরা একটি ভিত্তিগত ব্যবস্থা তৈরি করি, যার উপরে মানুষের জন্য ইন্টারফেস, এবং তারপরের স্তরে এজেন্টকে সংযুক্ত করা হয়, এইভাবে আসলে মানুষের অপারেশনাল ক্ষমতা এজেন্টের সম্ভাবনার সীমা চিহ্নিত করছে।

উদাহরণস্বরূপ, এজেন্ট মিলিসেকেন্ড স্তরে চিন্তা করে এবং টাস্ক শুরু করতে পারে, কিন্তু K8s (কুবারনেটিস) এর মতো বেসমেন্ট ক্ষমতা এটির জন্য প্রস্তুত নয়, কারণ মানুষ টাস্ক শুরু করে মিনিট স্তরে। তাই আমাদের আরও উন্নত ক্ষমতার প্রয়োজন, আমরা এটিকে “Agentic Infra” বা “স্মার্ট টোকেন ফ্যাক্টরি” বলি, যা উয়েন হসিয়ং করছে।

দীর্ঘমেয়াদে, যখন প্রকৃত এজিআই যুগ আসবে, আমরা মনে করি প্রতিটি অবকাঠামোই একটি এজেন্ট হওয়া উচিত। আমরা যে ফ্যাক্টরি তৈরি করছি, তা নিজেকে উন্নত ও পুনরায় পুনরায় বিকাশ করতে পারবে, এবং একটি স্বয়ংসম্পূর্ণ সংগঠন গঠন করবে। এটি একটি সিইও-এর মতো, যিনি নিজেই একটি এজেন্ট, সম্ভবত OpenClaw, যিনি সমস্ত অবকাঠামোর পরিচালনা করবেন, এবং AI গ্রাহকদের প্রয়োজনীয়তা অনুযায়ী নিজেই প্রয়োজনীয়তা চাইবেন এবং অবকাঠামোকে আপডেট করবেন। এভাবেই AI এবং AI-এর মধ্যে ভালোভাবে সংযোগ স্থাপিত হবে। আমরা কিছু অনুসন্ধানও করছি, যেমন: এজেন্টগুলির মধ্যে ভালোভাবে যোগাযোগ, Cache to Cache-এর মতো ক্ষমতা।

তাই আমরা সবসময় ভাবছি যে, অবকাঠামো এবং এআই-এর উন্নয়ন একটি বিচ্ছিন্ন অবস্থা হওয়া উচিত নয়—যেমন আমি যে চাহিদা পাই, তা শুধু বাস্তবায়ন করি; বরং এটি খুব ধনী রাসায়নিক বিক্রিয়া তৈরি করা উচিত। এটিই প্রকৃতপক্ষে সফটওয়্যার এবং হার্ডওয়্যারের সমন্বয়, অ্যালগরিদম এবং অবকাঠামোর সমন্বয়, এবং এটিই Wuwen Xinqiong-এর সর্বদা অর্জনের লক্ষ্য। ধন্যবাদ।

০৫। দক্ষতার জন্য সমঝোতা করা নতুন উদ্ভাবনও গুরুত্বপূর্ণ, ডিপসিক দেশীয় দলকে সাহস ও আত্মবিশ্বাস দেয়

ইয়াং জিলিন: এরপর আমি ফুলির কাছে একটি প্রশ্ন করতে চাই। মিই সম্প্রতি নতুন মডেল প্রকাশ এবং পিছনের প্রযুক্তি ওপেন-সোর্স করে সম্প্রদায়কে বড় অবদান রেখেছে। আমি আপনাকে জিজ্ঞাসা করতে চাই, মিইয়ের বড় মডেল নিয়ে কাজ করার ক্ষেত্রে আপনার মতে কী কী অনন্য সুবিধা রয়েছে?

লু ফুলি: আমি মনে করি আমরা প্রথমে মিই এর অনন্য সুবিধাগুলির বিষয়টি এড়িয়ে যেতে পারি, আমি চাই আমরা চীনা দলগুলির মডেল তৈরির সামগ্রিক সুবিধা নিয়ে আলোচনা করি। আমি মনে করি এই বিষয়টির আরও ব্যাপক মূল্য রয়েছে।

প্রায় দুই বছর আগে, চীনের বেস মডেল টিম উল্লেখযোগ্য বিপ্লব ঘটিয়েছিল—আমরা সীমিত কম্পিউটিং ক্ষমতা, বিশেষ করে কিছু NVLink ইন্টারকানেকশন ব্যান্ডউইথ সীমাবদ্ধ কম্পিউটিং পরিস্থিতিতে, এই নিম্ন-স্তরের কম্পিউটিং সীমাবদ্ধতা কাটিয়ে উঠতে পারি কিভাবে, যেমন DeepSeek V2, V3 সিরিজ, এবং MoE, MLA ইত্যাদির মতো “দক্ষতার জন্য সমঝোতা” মডেল স্ট্রাকচারের নবায়ন করি।

কিন্তু পরে আমরা দেখি যে এই উদ্ভাবনগুলি একটি পরিবর্তনকে উদ্দীপিত করেছিল: একটি নির্দিষ্ট ক্যালকুলেশন ক্ষমতার মধ্যে সর্বোচ্চ বুদ্ধিমত্তা কীভাবে অর্জন করা যায়। এটিই DeepSeek যা দেশীয় সব বেস মডেল দলকে সাহস ও আত্মবিশ্বাস দিয়েছে। যদিও আজ আমাদের দেশীয় চিপ, বিশেষ করে ইনফারেন্স চিপ এবং ট্রেনিং চিপ, এই সীমাবদ্ধতার মধ্যে নেই, কিন্তু এই সীমাবদ্ধতার মধ্যেই আমরা উচ্চতর ট্রেনিং দক্ষতা এবং কম ইনফারেন্স খরচের জন্য মডেল স্ট্রাকচারের নতুন অনুসন্ধানের দিকে নিয়ে গেছি।

সাম্প্রতিক সময়ে হাইব্রিড স্পার্স, লিনিয়ার অ্যাটেনশন এর মতো স্ট্রাকচারগুলি দেখা গেছে, যেমন DeepSeek-এর NSA, Kimi-এর KSA, এবং Xiaomi-এর হাইপারস্পার্স। এগুলি MoE এই প্রজন্মের স্ট্রাকচার থেকে আলাদা এবং Agent যুগের জন্য করা মডেল স্ট্রাকচারের নবায়ন।

আমি কেন স্ট্রাকচারাল ইনোভেশনকে এতটাই গুরুত্বপূর্ণ বলি? বাস্তবিক কথা হলো, যদি আপনি প্রকৃতপক্ষে OpenClaw ব্যবহার করেন, তবে আপনি দেখবেন যে এটি ব্যবহার করতে করতে আরও ভালোভাবে কাজ করে এবং আরও বুদ্ধিমান হয়ে ওঠে। এর মধ্যে একটি পূর্বশর্ত হলো রিজনিংয়ের কনটেক্সট লম্বাই। দীর্ঘ কনটেক্সট হলো আমরা অনেকদিন ধরে আলোচনা করেছি এমন একটি বিষয়, কিন্তু এখনও কি কোনো মডেল আছে যা দীর্ঘ কনটেক্সটে ভালোভাবে পারফর্ম করে, পারফরম্যান্স শক্তিশালী এবং রিজনিংয়ের খরচ খুবই কম?

বাস্তবে, অনেক মডেল 1M বা 10M কনটেক্সট পরিচালনা করতে অক্ষম নয়, বরং 1M, 10M কনটেক্সট ইনফারেন্সের খরচ খুব বেশি এবং গতি খুব ধীর। শুধুমাত্র খরচ কমিয়ে এবং গতি বাড়িয়েই আমরা প্রকৃত উৎপাদনশীলতা মূল্যবান কাজগুলিকে মডেলের দায়িত্বে দিতে পারব, এবং এই দীর্ঘ কনটেক্সটের মধ্যে আরও জটিল কাজগুলি সম্পন্ন করতে পারব, এমনকি মডেলের স্ব-পুনরাবৃত্তি অর্জনও করতে পারব।

মডেলের স্ব-পুনরাবৃত্তি বলতে বোঝায় যে এটি একটি জটিল পরিবেশে দীর্ঘ কনটেক্সটের সাহায্যে নিজেকে উন্নত করতে পারে। এই উন্নতি হতে পারে Agent ফ্রেমওয়ার্কের নিজস্ব, অথবা মডেল প্যারামিটারের নিজস্ব—কারণ আমি মনে করি, কনটেক্সট নিজেই প্যারামিটারের একটি উন্নতি। তাই, দীর্ঘ কনটেক্সট আর্কিটেকচার কীভাবে বাস্তবায়িত হবে, এবং ইনফারেন্স পাশে দীর্ঘ কনটেক্সটের দক্ষ ইনফারেন্স কীভাবে অর্জন করা যায়, এটি একটি সমগ্রতা প্রতিযোগিতা।

আমি যা সাম্প্রতিক উল্লেখ করেছি তা হলো প্রি-ট্রেনিং পর্যায়ে long-context-efficient আর্কিটেকচার প্রস্তুত করা—এটি প্রায় এক বছর আগে থেকেই আমরা অনুসন্ধান শুরু করেছি। এখন, দীর্ঘ-পরিসরের কাজে স্থিতিশীলতা এবং উচ্চ সীমানা অর্জনের জন্য, আমরা পোস্ট-ট্রেনিং পর্যায়ে একটি নতুন ইটারেশন পদ্ধতি বিকাশ করছি।

আমরা কিভাবে আরও কার্যকরী শেখার অ্যালগরিদম তৈরি করব, কিভাবে 1M, 10M, 100M কনটেক্সটে বাস্তব পরিস্থিতিতে দীর্ঘমেয়াদী নির্ভরশীলতা সহ টেক্সট সংগ্রহ করব, এবং জটিল পরিবেশের সাথে সম্পর্কিত ট্রাজেক্টরি ডেটা একত্রিত করব—এটিই আমাদের পোস্ট-ট্রেনিংয়ের বর্তমান কাজ।

কিন্তু দীর্ঘমেয়াদে, বড় মডেলগুলির নিজস্ব দ্রুত প্রগতি এবং এজেন্ট ফ্রেমওয়ার্কের সমর্থনের কারণে, লিসুয়ে যা বলেছেন, গত কিছুকালে যুক্তিসঙ্গত চাহিদা প্রায় দশগুণ বেড়েছে। তাহলে এই বছর মোট টোকেন ব্যবহারের বৃদ্ধি 100 গুণ হবে?

এখানে আরেকটি মাত্রার প্রতিযোগিতা শুরু হয়েছে—ক্ষমতা, বা উপসংহার চিপ, এমনকি তার নিচে শক্তি পর্যন্ত। তাই আমি মনে করি, যদি আমরা সবাই এই সমস্যাটি নিয়ে চিন্তা করি, তাহলে আমি আপনাদের কাছ থেকে আরও বেশি শিখতে পারি। ধন্যবাদ।

06. এজেন্টের তিনটি প্রধান মডিউল রয়েছে, এবং মাল্টি-এজেন্টের বিস্ফোরণ বড় প্রভাব ফেলবে

ইয়াং জিলিন: অত্যন্ত প্রতিভাবান শেয়ারিং। এখন আমি হুয়াং চাওকে জিজ্ঞাসা করতে চাই, আপনি ন্যানোবটের মতো প্রভাবশালী এজেন্ট প্রকল্প ডেভেলপ করেছেন এবং অনেক সম্প্রদায়ের ফ্যান আছে। এজেন্টের হারনেস বা অ্যাপ্লিকেশন লেভেল থেকে দৃষ্টিভঙ্গি নিয়ে, আপনি কোন প্রযুক্তিগত দিকগুলির দিকে মনোযোগ দিতে চান, যা আপনার মতে গুরুত্বপূর্ণ এবং সবার জন্য দরকারি?

হুয়াং চাও: আমি মনে করি যদি এজেন্টের প্রযুক্তিকে সারাংশ করা হয়, তবে এর মূল মডিউলগুলি হল প্ল্যানিং, মেমোরি এবং টুল ব্যবহার।

প্রথমে প্ল্যানিং নিয়ে কথা বলি। বর্তমানে সমস্যাটি হলো দীর্ঘমেয়াদী কাজ বা খুব জটিল প্রেক্ষাপটে, যেমন ৫০০ ধাপ বা তার বেশি ধাপে, অনেক মডেল ভালোভাবে প্ল্যানিং করতে পারে না। আমার মনে হয়, মূলত মডেলগুলির এই ধরনের নিহিত জ্ঞান থাকতে পারে না, বিশেষ করে কিছু জটিল উল্লেখযোগ্য ক্ষেত্রে। তাই ভবিষ্যতে সম্ভবত বিভিন্ন জটিল কাজের জ্ঞানকে মডেলের মধ্যে স্থির করে দেওয়ার দরকার হবে, যা একটি সম্ভাব্য দিক।

অবশ্যই, স্কিল এবং হারনেস কিছুটা প্ল্যানিং-এর ত্রুটি কমাচ্ছে, কারণ এটি উচ্চ মানের স্কিল প্রদান করে, যা মডেলকে কিছু কঠিন কাজ সম্পন্ন করতে পরিচালিত করছে।

আবার মেমোরি নিয়ে কথা বলি। মেমোরির অনুভূতি হচ্ছে, এটি প্রায়শই তথ্য সংকুচিতকরণ এবং অনুসন্ধানের অস্পষ্টতার সম্মুখীন হয়। বিশেষ করে দীর্ঘ-পরিসরের কাজ এবং জটিল পরিস্থিতিতে, মেমোরির চাপ বেড়ে যায়। এখন, OpenClaw-এর মতো প্রকল্পগুলিতে, সবাই আসলে শুধুমাত্র সাধারণ ফাইল সিস্টেম-ভিত্তিক Markdown ফরম্যাটের মেমোরি ব্যবহার করছে, যা শেয়ারড ফাইলের মাধ্যমে কাজ করে। ভবিষ্যতে, মেমোরি সম্ভবত স্তরবদ্ধ ডিজাইনের দিকে এগিয়ে যাবে, এবং এটিকে আরও সাধারণীকরণ করা প্রয়োজন।

সত্যি বলতে কি, বর্তমান মেমোরি মেকানিজমটি সাধারণীকরণ করা কঠিন—কারণ কোডিং স্কেনারিও, ডিপ রিসার্চ স্কেনারিও এবং মাল্টিমোডাল স্কেনারিওর ডেটা মোডালিটি খুবই ভিন্ন, এই মেমোরির জন্য ভালোভাবে রিট্রিভ এবং ইনডেক্সিং করা এবং একইসাথে দক্ষতা বজায় রাখা সবসময়ই একটি সমন্বয়।

এছাড়াও, এখন ওপেনক্লক এজেন্ট তৈরির বাধা অনেক কমিয়ে দিয়েছে, ভবিষ্যতে শুধু একটি “ক্রব” নয়, অনেকগুলো হতে পারে। আমি দেখেছি কিমিরও এজেন্ট সুয়ার্ম মেকানিজম আসছে, ভবিষ্যতে প্রতিটি ব্যক্তির হতে পারে “একটি ক্রবের গুচ্ছ”।

একটি ক্রিমস্টিকের তুলনায় একটি গুচ্ছ ক্রিমস্টিক আনা যায়, যা প্রসঙ্গের বৃদ্ধির কল্পনা করা যায়, এবং এটি মেমোরির উপর খুব বেশি চাপ সৃষ্টি করে। এখনও এই "একটি গুচ্ছ ক্রিমস্টিক" দ্বারা সৃষ্ট প্রসঙ্গ পরিচালনার জন্য কোনও ভালো মেকানিজম নেই, বিশেষ করে জটিল কোডিং, বৈজ্ঞানিক আবিষ্কারের মতো পরিস্থিতিতে, মডেল এবং সমগ্র এজেন্ট আর্কিটেকচার উভয়েরই চাপ অনেক।

টুল ব্যবহার, অর্থাৎ স্কিল সম্পর্কে আবার কথা বলি। বর্তমানে স্কিলের যে সমস্যা রয়েছে, তা আসলে MCP-এর সময়কার সমস্যার সমান—MCP-এর সময়ে গুণগত মানের অভাব, নিরাপত্তা ঝুঁকি ইত্যাদি সমস্যা ছিল। এখন স্কিলের ক্ষেত্রেও একই বিষয়টি দেখা যাচ্ছে—প্রতিটি স্কিলের সংখ্যা অনেক, কিন্তু উচ্চমানের স্কিল খুবই কম; নিম্নমানের স্কিলগুলি Agent-এর কাজের সঠিকতা প্রভাবিত করে। এছাড়াও ক্ষতিকর ইনজেকশনের ঝুঁকি রয়েছে। তাই টুল ব্যবহারের দিক থেকে, সম্ভবত সম্পূর্ণ স্কিল ইকোসিস্টেমকে উন্নত করতে কমিউনিটির ভূমিকা গুরুত্বপূর্ণ, এমনকি স্কিলগুলি বাস্তবায়নের সময়ই নতুন স্কিলগুলি নিজেদেরই উন্নত করতে পারবে।

সামগ্রিকভাবে, প্ল্যানিং, মেমোরি থেকে টুল ব্যবহার পর্যন্ত, এগুলি বর্তমানে এজেন্টের কিছু প্রধান চ্যালেঞ্জ, এবং ভবিষ্যতের সম্ভাব্য দিকনির্দেশ।

07. পরবর্তী 12 মাসের কীওয়ার্ড: ইকোসিস্টেম, স্থায়ী টোকেন, স্ব-বিকাশ এবং ক্যালকুলেশন ক্ষমতা

যাং জিলিন: দেখা যাচ্ছে যে দুইজন অতিথি একটি সাধারণ সমস্যা নিয়ে বিভিন্ন দৃষ্টিকোণ থেকে আলোচনা করেছেন—যখন কাজের জটিলতা বাড়ে, তখন কনটেক্সট বিস্ফোরিত হয়ে যায়। মডেল স্তরে, মূল কনটেক্সট দৈর্ঘ্য বাড়ানো যায়, এবং Agent Harness স্তরে, Planning, Memory, Multi-Agent-এর মতো মেকানিজমগুলি নির্দিষ্ট মডেল ক্ষমতার ভিত্তিতে আরও জটিল কাজগুলির সমর্থন করতে পারে। আমি মনে করি, এই দুটি দিক আগামীতে আরও বেশি রাসায়নিক প্রতিক্রিয়া তৈরি করবে এবং কাজের সম্পাদন ক্ষমতা আরও বাড়িয়ে তুলবে।

শেষে, আসুন একটি খোলা দৃষ্টিভঙ্গি নিয়ে শেষ করি। অনুগ্রহ করে পরবর্তী 12 মাসের বড় মডেল বিকাশের প্রবণতা এবং আপনার আশা বর্ণনা করতে একটি শব্দ ব্যবহার করুন। এবার হুয়াং চাও থেকে শুরু করি।

হুয়াং চাও: এআই ক্ষেত্রে 12 মাস অনেক দূরে মনে হয়, কীভাবে 12 মাস পরে এটি বিকশিত হবে তা জানা যায় না।

যাং জিলিন: এখানে মূলত পাঁচ বছর লেখা ছিল, আমি এটি পরিবর্তন করেছি।

হুয়াং চাও: হ্যাঁ, হাহাহা। আমি যে শব্দটি ভাবছি তা হল "ইকোসিস্টেম"। বর্তমানে OpenClaw সবাইকে খুব সক্রিয় করে তুলেছে, কিন্তু ভবিষ্যতে Agent কে শুধুমাত্র মজা করার বা নতুন কিছু পরীক্ষা করার জন্য নয়, বরং সত্যিকারের "কর্মচারী" হতে হবে। ভবিষ্যতে এটিকে প্রকৃতপক্ষে স্থায়ীভাবে বাস্তব টুল হিসেবে, প্রকৃত coworker হিসেবে গড়ে তোলা উচিত।

এটি সম্পূর্ণ ইকোসিস্টেমের প্রচেষ্টা প্রয়োজন, বিশেষ করে ওপেন সোর্সিং—যখন টেকনোলজি এবং মডেল টেকনোলজি সব ওপেন সোর্স করা হয়, তখন সম্পূর্ণ কমিউনিটি একসাথে কাজ করবে—মডেলের ইটারেশন, স্কিল প্ল্যাটফর্মের ইটারেশন, এবং বিভিন্ন টুলস, সবকিছুকেই ক্র্যাবগুলির জন্য ভালোভাবে ডিজাইন করতে হবে।

একটি স্পষ্ট প্রবণতা হলো, ভবিষ্যতের সফটওয়্যার কি আর মানুষের জন্য হবে? আমি বিশ্বাস করি ভবিষ্যতে অনেক সফটওয়্যার অবশ্যই মানুষের জন্য নাও হতে পারে—কারণ মানুষের প্রয়োজন GUI, কিন্তু ভবিষ্যত হতে পারে Agent-নেটিভ ব্যবহারের। আকর্ষণীয় বিষয় হলো, মানুষ শুধুমাত্র সেই GUI-গুলি ব্যবহার করবে যা তাদের আনন্দদায়ক করে। এখন সমগ্র ইকোসিস্টেম GUI, MCP-এর পরিবর্তে CLI মডেলে সরে গেছে। এটি ইকোসিস্টেমকে সফটওয়্যার সিস্টেম, ডেটা, বিভিন্ন প্রযুক্তিকে Agent Native-এর আকারে পরিণত করতে বাধ্য করছে, যাতে সমগ্র উন্নয়নটি আরও ধনবান হয়।

রো ফুলি: প্রশ্নটিকে এক বছরে সীমাবদ্ধ করা আমার কাছে অত্যন্ত গুরুত্বপূর্ণ। যদি পাঁচ বছর নেওয়া হয়, তাহলে আমার মনে এজিআইয়ের সংজ্ঞা অনুযায়ী, আমি মনে করি এটি ইতিমধ্যেই অর্জিত হয়েছে। তাই, পরবর্তী এক বছরের এজিআই যাত্রার সবচেয়ে গুরুত্বপূর্ণ বিষয়টি একটি বাক্যে বলতে গেলে, আমি মনে করি এটি "স্ব-বিকাশ"।

এই শব্দটি কিছুটা অদ্ভুত শোনায়, গত বছর অনেকেই এটির কথা বারবার উল্লেখ করেছেন। কিন্তু আমি সাম্প্রতিককালে এটির প্রতি আরও গভীরভাবে বুঝতে পেরেছি, বা বলা যাক, “স্ব-বিকাশ” কীভাবে করতে হয় তার জন্য আরও ব্যবহারিক ও সম্ভবপর পদ্ধতি পেয়েছি। কারণ, শক্তিশালী মডেলগুলির উপস্থিতিতে, আমরা Chat প্যারাডাইমের মাধ্যমে প্রি-ট্রেনড মডেলগুলির সর্বোচ্চ সীমা পূরণ করিনি, কিন্তু Agent ফ্রেমওয়ার্কটি এই সর্বোচ্চ সীমাকে সক্রিয় করেছে। যখন আমরা মডেলকে দীর্ঘসময়ের কাজগুলি সম্পাদনের জন্য নির্দেশ দিই, তখন আমরা দেখি যে এটি নিজেই শিখতে এবং বিকশিত হতে পারে।

একটি সহজ প্রচেষ্টা হল: বর্তমান এজেন্ট ফ্রেমওয়ার্কে একটি যাচাইযোগ্য শর্ত যোগ করুন এবং একটি লুপ সেট করুন যাতে মডেলটি লক্ষ্যকে ধারাবাহিকভাবে পুনরায় অপ্টিমাইজ করতে পারে, তাহলে আপনি দেখতে পাবেন যে এটি ধারাবাহিকভাবে ভালো সমাধান প্রস্তুত করতে পারে। এই স্ব-বিকাশটি এখনই এক থেকে দুই দিন পর্যন্ত চলতে পারে, যদিও এটি কাজের জটিলতার উপর নির্ভর করে।

যেমন কিছু বৈজ্ঞানিক গবেষণায়, যেমন ভালো মডেল স্ট্রাকচার খোঁজা, কারণ মডেল স্ট্রাকচারের মূল্যায়নের মাপকাঠি আছে, যেমন কম PPL। এই নির্ধারণমূলক কাজগুলিতে, আমরা দেখেছি যে এটি দুই থেকে তিন দিন ধরে স্বয়ংক্রিয়ভাবে অপ্টিমাইজ এবং বাস্তবায়ন করতে পারছে।

তাই আমার দৃষ্টিকোণ থেকে, স্ব-উন্নয়নই একমাত্র স্থান যেখানে “নতুন কিছু তৈরি” হয়। এটি আমাদের বর্তমান মানুষের উৎপাদনশীলতাকে প্রতিস্থাপন করে না, বরং শীর্ষ বিজ্ঞানীদের মতো, বিশ্বের এখনও অজানা জিনিসগুলি অন্বেষণ করে। এক বছর আগে আমি মনে করতাম এই সময়সীমা তিন থেকে পাঁচ বছরের মধ্যে হবে, কিন্তু সাম্প্রতিককালে আমি মনে করি এটি এক থেকে দুই বছরের মধ্যে কমিয়ে আনা উচিত। খুব শীঘ্রই আমরা বড় মডেলের উপর একটি শক্তিশালী স্ব-উন্নয়ন Agent ফ্রেমওয়ার্ক যোগ করে, বৈজ্ঞানিক গবেষণার জন্য ít-এরও বেশি গতিতে ত্বরণ ঘটাতে পারি।

সম্প্রতি আমি দেখেছি যে আমাদের দলের বড় মডেল গবেষণা করা ছাত্রদের ওয়ার্কফ্লো অত্যন্ত অনিশ্চিত এবং সৃজনশীল, কিন্তু Claude Code এবং শীর্ষস্থানীয় মডেলের সহায়তায় আমাদের গবেষণার দক্ষতা প্রায় দশগুণ বেড়েছে। আমি এই পদ্ধতির আরও বিস্তৃত বিষয় এবং ক্ষেত্রে প্রভাব পড়ার জন্য অপেক্ষা করছি, তাই আমি মনে করি “স্ব-বিকাশ” খুবই গুরুত্বপূর্ণ।

শা লিশুয়ে: আমার কীওয়ার্ড হল "স্থায়ী টোকেন"। আমি দেখছি সমগ্র এআই-এর বিকাশ এখনও একটি দীর্ঘমেয়াদী প্রক্রিয়ার মধ্যে রয়েছে, এবং আমরা চাই এটির দীর্ঘস্থায়ী জীবন থাকুক। অবকাঠামোর দিক থেকে, একটি বড় সমস্যা হল সম্পদ চূড়ান্তভাবে সীমিত।

যেমন আগে সাস্টেইনেবল ডেভেলপমেন্ট নিয়ে কথা বলা হত, আমরা একটি টোকেন ফ্যাক্টরি হিসাবে, শীর্ষস্থানীয় মডেলগুলিকে আরও বেশি ডাউনস্ট্রিম সার্ভিসের জন্য স্থিতিশীলভাবে, বড় পরিসরে টোকেন প্রদান করতে পারি কিনা, এটি আমরা একটি অত্যন্ত গুরুত্বপূর্ণ সমস্যা হিসাবে দেখছি।

আমাদের পুরো ইকোসিস্টেমের দিকে তাকাতে হবে—শক্তি থেকে কম্পিউটিং পাওয়ার, তারপর টোকেন এবং শেষ পর্যন্ত অ্যাপ্লিকেশন পর্যন্ত, যাতে একটি স্থায়ী অর্থনৈতিক পুনরাবৃত্তি গড়ে উঠে। আমরা শুধু দেশের বিভিন্ন কম্পিউটিং পাওয়ারগুলোকেই ব্যবহার করব না, বরং এই ক্ষমতাগুলোকে বিদেশেও রপ্তানি করব, যাতে বিশ্বব্যাপী সম্পদগুলোকে সংযুক্ত ও একীভূত করা যায়।

আমিও মনে করি যে “টেকসই” বাস্তবে চীনা বৈশিষ্ট্যযুক্ত টোকেন অর্থনীতি গড়ে তুলছে। অতীতে আমরা মেড ইন চাইনা নিয়ে কথা বলতাম, যেখানে চীনের কম খরচে উৎপাদন ক্ষমতাকে বিশ্বব্যাপী ভালো পণ্যে রূপান্তরিত করা হয়েছিল।

এখন আমাদের যা করতে হবে তা হলো “AI Made in China” — চীনের শক্তি এবং অন্যান্য ক্ষেত্রের সুবিধাগুলিকে টোকেন ফ্যাক্টরির মাধ্যমে স্থায়ীভাবে উৎকৃষ্ট টোকেনে রূপান্তরিত করে বিশ্বব্যাপী রপ্তানি করা, যাতে এটি বিশ্বের টোকেন ফ্যাক্টরি হয়ে উঠতে পারে। এটিই আমি এই বছর চাইছি যে, চীন বিশ্বকে কৃত্রিম বুদ্ধিমত্তার মাধ্যমে কী মূল্য দিচ্ছে।

জাং পেং: আমি সংক্ষেপে বলছি। সবাই আকাশের দিকে তাকাচ্ছে, আমি তো মাটিতে নামছি। আমার কীওয়ার্ড হলো “ক্যালকুলেশন পাওয়ার”。

আগেই বলা হয়েছে, সমস্ত প্রযুক্তি এবং এজেন্ট ফ্রেমওয়ার্ক আপনার সৃজনশীলতা এবং দক্ষতা দশগুণ বাড়িয়ে দেয়, কিন্তু এর শর্ত হল আপনি এগুলিকে প্রকৃতপক্ষে ব্যবহার করতে পারবেন। আপনি একটি প্রশ্ন তুলে ধরে তাকে দীর্ঘ সময় চিন্তা করতে দিলেও উত্তর দেবেন না, এটা অসম্ভব। এজন্যই অনেক গবেষণার অগ্রগতি এবং অনেক করার ইচ্ছা বাধাগ্রস্ত হয়।

আমি গত দুই বছর আগে মেইজ়ুং ফোরামে একজন একাডেমিশিয়ানের কথা মনে করি, যিনি বলেছিলেন: "কার্ড নেই, তাহলে আবেগও নেই; কার্ড নিয়ে কথা বললে আবেগ ক্ষতি হয়।" আমি মনে করি আজ আবার এই পর্যায়ে পৌঁছেছি, কিন্তু পরিস্থিতি আলাদা। এখন আমরা উপসংহারের পর্যায়ে প্রবেশ করেছি, চাহিদা সত্যিই বিস্ফোরিত হচ্ছে—দশগুণ, শতগুণ বৃদ্ধি পাচ্ছে। আপনি ঠিকই বলেছেন, ব্যবহার ১০ গুণ বেড়েছে, কিন্তু চাহিদা হয়তো ১০০ গুণ? এখনও অসংখ্য চাহিদা পূরণ হয়নি, তাহলে কীভাবে? চলুন, আমরা সবাই মিলে একটি সমাধান খুঁজি।