WeChat-এর AI শেষ পর্যন্ত চলে এল।
অ্যাপল WWDC-এর একই দিনে, উইচ্যাট অ্যাপলের চেয়ে বেশি গুরুত্বপূর্ণ একটি কাজ করেছে, এবং একটি সাদামাটা ঘোষণা প্রকাশ করেছে: "উইচ্যাট AI ইকোসিস্টেমে ডেভেলপারদের যোগাযোগের নির্দেশিকা"।

আজ থেকে, মাইক্রোপ্রোগ্রাম ডেভেলপাররা ওয়েইক্স এআইকে মাইক্রোপ্রোগ্রাম পড়া, অপারেশন এবং কল করার অনুমতি দিতে পারবেন।
ওয়েইচ্যাট দুটি এক্সেস পদ্ধতি প্রদান করে, একটি হল "অটোমেটিক মোড" — যার প্রবেশ দরজা প্রায় শূন্য। ডেভেলপাররা একটি সুইচ চালু করলে, প্ল্যাটফর্মটি নিজেই সোর্স কোড পড়ে, পেজ বিশ্লেষণ করে, মিনি-প্রোগ্রামটি কী করতে পারে তা বুঝে নেয়, এবং AI সরাসরি অপারেশন শুরু করে, কোনো কোড লিখতে হয় না।
অন্যটি হল "ডেভেলপার মোড", যেখানে ডেভেলপাররা নিজেদের কাস্টমাইজড স্কিল তৈরি করে, যা অনুমোদনের পর AI দ্বারা ব্যবহার করা হয়। দুটি একসাথে সক্রিয় করা যায়। মেইটুয়ান ইতিমধ্যে এটির সাথে যুক্ত হওয়ার ঘোষণা করেছে।
এটিকে শুধু আরেকটি নতুন ফিচার লঞ্চ হিসেবে বুঝা উচিত নয়, বরং এটি দেখা উচিত যে উইচ্যাট তার সম্পূর্ণ ইকোসিস্টেম—লক্ষ লক্ষ মাইক্রোপ্রোগ্রাম, WeChat পেমেন্ট, সার্ভিস নোটিফিকেশন, গিয়ার পাবলিক অ্যাকাউন্ট—কে AI-এর এক্সিকিউশন লেয়ারে পরিণত করছে।
স্কিল ডকুমেন্ট পরীক্ষা করুন, ওয়েচ্যাট এআই কিভাবে মিনি প্রোগ্রাম কল করে
ওয়েইচ্যাটের ওপেন ডকুমেন্টে মিনি প্রোগ্রামের জন্য AI স্কিল টেকনিক্যাল স্পেসিফিকেশন প্রকাশিত হয়েছে, ভালোভাবে দেখুন, এতে অনেক ডিজাইন ডিটেইল লুকিয়ে আছে।
অফিসিয়াল স্কিল ডকুমেন্টের জন্য পথনির্দেশ👇🏻:
https://developers.weixin.qq.com/miniprogram/dev/ai/best-practices.html

অ্যার্কিটেকচারের দিক থেকে, এআই ডেভেলপমেন্ট করা ব্যক্তিদের তাৎক্ষণিকভাবে চিনতে পারবেন যে এটি মূলত MCP। mcp.json প্রতিটি পরম ইন্টারফেসের ফাংশন এবং প্যারামিটার ঘোষণা করে, SKILL.md সম্পূর্ণ ব্যবসায়িক প্রক্রিয়াটি কীভাবে চলবে তা বর্ণনা করে, যা Claude, Cursor, VS Code-এর MCP+Skills অ্যার্কিটেকচারের সাথে প্রায় একই। উইচ্যাট কোনো নতুন ব্যবস্থা তৈরি করেননি, বরং শিল্পের যে মানকটি এখন সংকুচিত হচ্ছে, তা সরাসরি গ্রহণ করেছে।
নির্দেশনা প্রক্রিয়ায়, উইচ্যাট একটি স্পষ্ট "注意力权重" সিস্টেম প্রদান করেছে। AI কোন ইন্টারফেস কল করবে এবং কী প্যারামিটার জেনারেট করবে তা নির্ধারণের সময়, সর্বপ্রথম এটি ইন্টারফেসের রিটার্ন কনটেন্ট (পাঁচটি তারকা) দেখে, তারপর mcp.json-এর ইন্টারফেস বর্ণনা (চারটি তারকা) এবং প্যারামিটার বর্ণনা (চারটি তারকা), এবং SKILL.md-কে সবচেয়ে কম গুরুত্ব দেয় (তিনটি তারকা)। এর অর্থ হলো, ডেভেলপারদের জন্য কোথায় লিখতে হবে তা, কী লিখতে হবে তার চেয়ে বেশি গুরুত্বপূর্ণ—একই নিয়মটি যদি ইন্টারফেস রিটার্নে লেখা হয় এবং SKILL.md-তে লেখা হয়, AI তাকে সম্পূর্ণভাবে ভিন্নভাবে ওজন দেয়।

ইন্টারফেস রিটার্ন লেভেলে একটি মূল নিয়ম রয়েছে: "তথ্য + কার্য" দুই-পর্যায়ক্রমিক পদ্ধতি। প্রথমে AI-কে বলুন "কী ঘটেছে", তারপর বলুন "পরবর্তী পদক্ষেপ কী"। যদি শুধুমাত্র কার্য লেখা হয় এবং তথ্য না লেখা হয়, তাহলে AI "কার্ডটি প্রদর্শন করুন" কে "পরবর্তী ইন্টারফেসটি কল করুন" হিসাবে বুঝতে পারে এবং ব্যবহারকারীর নিশ্চিতকরণ বাদ দিয়ে দিতে পারে। এটি অনেকগুলি ত্রুটির অভিজ্ঞতা থেকেই প্রাপ্ত একটি নিয়ম।

চতুর্থত, প্যারামিটার পাস করার সময় প্রাকৃতিক ভাষার পরিবর্তে আইডি ব্যবহার করুন। চিত্রের «কফি অর্ডার» স্কেনারিওটির সাথে উদাহরণ দেওয়া যাক, ব্যবহারকারী যখন অনুরোধ জানায়, AI অস্পষ্ট ইচ্ছা, বিকল্প, স্পেসিফিকেশন পরিবর্তন এবং পেমেন্ট প্রক্রিয়াকরণ বুঝতে পারে, এবং সম্পূর্ণ প্রক্রিয়াটি ডায়ালগ বক্সের বাইরে ঘটে।
এই ডিজাইনটি সংকেত দেয় যে উইচ্যাট যথেষ্ট সংখ্যক কেসের উপর প্রায়োগিকভাবে কাজ করেছে, এবং AI-এর বাহ্যিক সেবা কলের সমস্যাগুলি চিনতে পেরেছে, এবং এই অভিজ্ঞতাগুলিকে ডেভেলপার নিয়মে পরিণত করেছে।
বাস্তবে, যদি একইভাবে 'ইকোসিস্টেম' এর জন্য পরিচিত উইচ্যাট মিনি প্রোগ্রাম এবং অ্যাপল অ্যাপগুলির তুলনা করা হয়, তাহলে উইচ্যাটের নিজস্ব ইকোসিস্টেমের প্রতি একটি 'ঈশ্বরের দৃষ্টিভঙ্গি' রয়েছে, যা সবকিছুর বাস্তবায়নের পূর্বশর্ত।
আপেল এআই এর চেয়ে কেন গুরুত্বপূর্ণ
এই বছর এপল এর WWDC-এ প্রকাশ করা নতুন সিরি এআই, যদিও এটির অধীনে গুগল জেমিনি যুক্ত করা হয়েছে এবং শর্টকাটগুলিতে প্রাকৃতিক ভাষা সমর্থন রয়েছে, তবুও এটি বেশি আলোচনার সৃষ্টি করেনি।

দেখতে গেলে পার্থক্যটি স্পষ্ট হয়: অ্যাপল এমন একটি AI তৈরি করেছে যা iOS সিস্টেমের মধ্যে কিছু ন্যাটিভ ফাংশনকে সমন্বয় করে, কিন্তু তৃতীয় পক্ষের অ্যাপগুলি, অর্থাৎ আপনার ফোনে ইনস্টল করা অ্যাপগুলির ক্ষেত্রে, এটি সমস্যায় পড়ে।
উদাহরণস্বরূপ, এলিবাবা এর কোড এলিবাবা নিজস্ব সার্ভারে চলে, যা অ্যাপল পড়তে পারে না। সিরি যদি এলিবাবা ব্যবহার করতে চায়, তাহলে এলিবাবা এর ইঞ্জিনিয়ারদের অবশ্যই App Intents ইন্টারফেসটির সাথে একে একে সংযোগ স্থাপন করতে হবে, যা সময় ও শ্রম খরচ করে।

ওয়েচ্যাট এআইকে সংখ্যালঘু তৃতীয় পক্ষের সেবাগুলি সরাসরি চালানোর অনুমতি দেয়, কারণ সামান্য প্রোগ্রামগুলি ভিন্ন। প্রতিটি সামান্য প্রোগ্রামের কোড, ডেভেলপার দ্বারা জমা দেওয়ার থেকে শুরু করে ওয়েচ্যাট দ্বারা পরীক্ষা এবং শেষ পর্যন্ত ব্যবহারকারীর ফোনে চলমান পর্যন্ত, সমস্তই ওয়েচ্যাটের প্রযুক্তিগত ব্যবস্থার মধ্যে থাকে। ওয়েচ্যাট পরীক্ষা পর্যায়েই কোডটি স্ক্যান করতে পারে, এবং "এই সামান্য প্রোগ্রামটির কোন পৃষ্ঠা রয়েছে, এটি কী করতে পারে, ইনপুট-আউটপুট কী" তা স্বয়ংক্রিয়ভাবে বিশ্লেষণ করতে পারে।
সুতরাং শুধুমাত্র “অটোমেটিক মোড”ই কাজ করে—ডেভেলপারদের একটিও কোড লিখতে হয় না, শুধু একটি সুইচ চালু করলেই উইচ্যাট নিজেই আপনার প্রোগ্রামকে AI-এর দ্বারা কল করা যায় এমন টুলে অনুবাদ করে দেয়। উইচ্যাটের বেসিক ইনফ্রাস্ট্রাকচার এটি করার জন্য প্রাকৃতিকভাবেই সমর্থন করে, এটির “ঈশ্বরের দৃষ্টিভঙ্গি” রয়েছে, যা কেন্দ্রীয়করণের ভিত্তিতে স্কিডিউলিং করতে পারে।
এই আর্কিটেকচারের সুবিধা অ্যাপলের নেই, গুগলেরও নেই।
এছাড়াও উল্লেখ্য যে, সাম্প্রতিক সময়ে শোনা গিয়েছিল যে উইচ্যাট হুয়াওয়ে, হোনর, শাওমি, ওপিপি এবং ভিভোর সাথে একসাথে কাজ করছে এবং A2A (এজেন্ট-টু-এজেন্ট) সহায়ক ক্ষমতা চালু করছে, যাতে ব্যবহারকারীরা তাদের মোবাইল ভয়েস অ্যাসিস্ট্যান্টের মাধ্যমে সরাসরি উইচ্যাট ভিডিও বা অডিও কল শুরু করতে বা বার্তা পাঠাতে পারবেন।

ভিতরে, উইচ্যাট AI লাখ লাখ মাইক্রোপ্রোগ্রাম ব্যবহার করতে পারে; বাইরে, মোবাইল প্রস্তুতকারকদের AI সহায়ক উইচ্যাট ব্যবহার করতে পারে। উইচ্যাট এখন AI যুগের একটি সুপার কানেক্টর হয়ে উঠছে, যেখানে সব AI সংযুক্ত হতে পারে।
"ওয়েইচিন ওএস"-এর পুরনো পূর্বাভাস
ছোট প্রোগ্রাম চালুর সময়, অনেকে বলেছিলেন যে উইচ্যাট "উইচ্যাট OS" তৈরি করছে। তখন এটি বেশি একটি রূপক ছিল—ছোট প্রোগ্রামগুলি কিছু অ্যাপের কাজ প্রতিস্থাপন করেছিল, কিন্তু মূলত এটি একটি "হালকা অ্যাপ্লিকেশন প্ল্যাটফর্ম" ছিল।
আরও অপ্রত্যাশিতভাবে, যখন কেন্দ্রীয় পরীক্ষার ব্যবস্থা ডিজাইন করা হয়েছিল, তখন এটি গুণগত মান এবং নিরাপত্তা নিয়ন্ত্রণের জন্য ছিল। কিন্তু নয় বছর পর, যে ডিজাইনটি তখন "অতি-নিয়ন্ত্রণ" বলে সমালোচিত হয়েছিল, সেটি আজ AI যুগের জন্য অপরিহার্য অবকাঠামোগত সুবিধা হয়ে উঠেছে। বিকেন্দ্রীকৃত অ্যাপ ইকোসিস্টেম (অ্যাপল/অ্যান্ড্রয়েড) তখন আরও "স্বাধীন" মনে হয়েছিল, কিন্তু এখন এটি AI-এর সংযোগের জন্য বাধা হয়ে দাঁড়িয়েছে।

একটি পুরনো প্রতিজ্ঞা, যা নতুন যুগের প্রযুক্তি—AI—এর উত্থানের কারণে বিপ্লবী পরিবর্তন ঘটিয়েছে।
OpenClaw এবং Feishu লিখার সময়, আমি একটি বিচার উত্থাপন করেছিলাম: IM হল AI Agent-এর সবচেয়ে প্রাকৃতিক প্রবেশদ্বার, কারণ কথোপকথনই মানুষ এবং AI-এর মধ্যে সবচেয়ে প্রাকৃতিক ইন্টারঅ্যাকশন, এবং IM-এর নিজস্ব সেবা পরিবেশ (রোবট, পেমেন্ট, মাইক্রোপ্রোগ্রাম) এর মাধ্যমে AI শুধুমাত্র 'কথা' বলতেই সীমাবদ্ধ থাকে না, বরং 'কাজ'ও করতে পারে। Feishu এই দিকে এগিয়ে যাচ্ছে, Bot API শক্তিশালীকরণ এবং AI Agent নোড চালু করেছে।

তবে, Feishu হল একটি কর্পোরেট সহযোগিতার টুল, যা অফিস স্কেনারিওকে কভার করে। WeChat এর সম্পূর্ণ ভিন্ন পরিসর রয়েছে—14.32 বিলিয়ন মাসিক সক্রিয় ব্যবহারকারী, হাজার হাজার সূক্ষ্ম ক্ষেত্রের মাইক্রোপ্রোগ্রাম, যা খাবার অর্ডার করা থেকে ডাক্তারের অ্যাপয়েন্টমেন্ট নেওয়া, বিমান টিকিট কেনা থেকে বিদ্যুৎ ও জলের বিল পরিশোধ পর্যন্ত, প্রায় একজন ব্যক্তির দৈনন্দিন জীবনের সমস্ত সেবা চাহিদাকে কভার করে।

যদি উইচ্যাট এআই সত্যিই এই মাইক্রোপ্রোগ্রামগুলি সহজে ব্যবহার করে কাজ সম্পন্ন করতে পারে, তবে যেমন পূর্বাভাস করা হয়েছিল, এটি প্রাকৃতিক ভাষায় চালিত একটি অপারেটিং সিস্টেম হয়ে উঠেছে।
ব্যবহারকারী বলেন, "আমাকে কাল বিকাল তিনটায় বেইজিং থেকে শাংহাইয়ের জন্য হাই-স্পিড ট্রেন বুকিং করে দিন," AI উদ্দেশ্য বিশ্লেষণ করে, 12306 মাইক্রোপ্রোগ্রাম ব্যবহার করে টিকিট চেক করে, আসন নির্বাচন করে এবং WeChat পেমেন্টের মাধ্যমে অর্ডার সম্পন্ন করে, সম্পূর্ণ প্রক্রিয়া WeChat-এর ভিতরেই শেষ হয়। এই লিঙ্কটি তাত্ত্বিকভাবে আজই চালু করা যায়।
অবশ্যই, তত্ত্ব এবং বাস্তবতার মধ্যে এখনও দূরত্ব রয়েছে। AI-এর পেমেন্ট স্কেনারিওতে সেবা কল করার ক্ষেত্রে ত্রুটি সহনশীলতা প্রায় শূন্য—একটি কফি ভুল করা ছোট বিষয়, কিন্তু একটি টিকিট ভুল করা বড় বিষয়। নীচের মডেলের সঠিকতার প্রয়োজনীয়তা কথোপকথনের স্কেনারিওর চেয়ে অনেক বেশি। এটিই বিশ্বব্যাপী AI Agent-এর বাস্তবায়নের সাধারণ বাধা: “কথা বলতে পারা” থেকে “কাজ করতে পারা”-এর মধ্যে যা পার্থক্য, তা হলো প্রযুক্তিগত মাপকাঠি নয়, বরং বিশ্বাস।

কিন্তু উইচ্যাট কমপক্ষে একটি বিষয় সঠিকভাবে করেছে: এটি শূন্য থেকে সেবা নেটওয়ার্ক তৈরি করেনি। বছরগুলি ধরে, ChatGPT যা করছে তা হলো প্রথমে একটি বুদ্ধিমানের মস্তিষ্ক থাকা, তারপর Shopify, DoorDash, Stripe-এর সাথে একে একে সংযোগ করা, প্রতিটি সংযোগই শূন্য থেকে তৈরি করা, আজও ট্রানজেকশন-সংক্রান্ত জিজ্ঞাসার অংশ মাত্র 3%।
যে পরিবর্তনগুলি প্রকৃতপক্ষে ঘটতে যাচ্ছে, তা বেশিরভাগ ব্যবহারকারীর জন্য নিঃশব্দে ঘটতে পারে। একদিন আপনি উইচ্যাটে লিখবেন “আজ রাত ৯টায় শাংহাইয়ের জন্য টিকিট বুকিং করে দাও”, এবং এটি স্বয়ংক্রিয়ভাবে বুকিং করে দেবে, আপনি জানবেন না পিছনে কোন মিনি-অ্যাপটি কল করা হয়েছে বা কোন পেমেন্ট প্রক্রিয়াটি চলেছে।
এই "অনুভূতিহীন সম্পন্নতা" হল এআই এজেন্টের প্রকৃত পরিপক্কতার লক্ষণ, এবং উইচ্যাট এই পদক্ষেপে অন্য যারা আছেন, তাদের চেয়ে সবচেয়ে কাছাকাছি।
এই লেখাটি ওয়েইচ্যাট গ্রুপ "APPSO" থেকে এসেছে, লেখক: APPSO, যিনি আগামীকালের পণ্য আবিষ্কার করেন।
