WeChat এআই-চালিত মিনি প্রোগ্রাম বাস্তুতন্ত্র চালু করেছে, এআই একীকরণে অ্যাপলকে ছাড়িয়ে গেছে

WeChat-এর AI শেষ পর্যন্ত চলে এল।

অ্যাপল WWDC-এর একই দিনে, উইচ্যাট অ্যাপলের চেয়ে বেশি গুরুত্বপূর্ণ একটি কাজ করেছে, এবং একটি সাদামাটা ঘোষণা প্রকাশ করেছে: "উইচ্যাট AI ইকোসিস্টেমে ডেভেলপারদের যোগাযোগের নির্দেশিকা"।

WeChat

আজ থেকে, মাইক্রোপ্রোগ্রাম ডেভেলপাররা ওয়েইক্স এআইকে মাইক্রোপ্রোগ্রাম পড়া, অপারেশন এবং কল করার অনুমতি দিতে পারবেন।

ওয়েইচ্যাট দুটি এক্সেস পদ্ধতি প্রদান করে, একটি হল "অটোমেটিক মোড" — যার প্রবেশ দরজা প্রায় শূন্য। ডেভেলপাররা একটি সুইচ চালু করলে, প্ল্যাটফর্মটি নিজেই সোর্স কোড পড়ে, পেজ বিশ্লেষণ করে, মিনি-প্রোগ্রামটি কী করতে পারে তা বুঝে নেয়, এবং AI সরাসরি অপারেশন শুরু করে, কোনো কোড লিখতে হয় না।

অন্যটি হল "ডেভেলপার মোড", যেখানে ডেভেলপাররা নিজেদের কাস্টমাইজড স্কিল তৈরি করে, যা অনুমোদনের পর AI দ্বারা ব্যবহার করা হয়। দুটি একসাথে সক্রিয় করা যায়। মেইটুয়ান ইতিমধ্যে এটির সাথে যুক্ত হওয়ার ঘোষণা করেছে।

এটিকে শুধু আরেকটি নতুন ফিচার লঞ্চ হিসেবে বুঝা উচিত নয়, বরং এটি দেখা উচিত যে উইচ্যাট তার সম্পূর্ণ ইকোসিস্টেম—লক্ষ লক্ষ মাইক্রোপ্রোগ্রাম, WeChat পেমেন্ট, সার্ভিস নোটিফিকেশন, গিয়ার পাবলিক অ্যাকাউন্ট—কে AI-এর এক্সিকিউশন লেয়ারে পরিণত করছে।

স্কিল ডকুমেন্ট পরীক্ষা করুন, ওয়েচ্যাট এআই কিভাবে মিনি প্রোগ্রাম কল করে

ওয়েইচ্যাটের ওপেন ডকুমেন্টে মিনি প্রোগ্রামের জন্য AI স্কিল টেকনিক্যাল স্পেসিফিকেশন প্রকাশিত হয়েছে, ভালোভাবে দেখুন, এতে অনেক ডিজাইন ডিটেইল লুকিয়ে আছে।

অফিসিয়াল স্কিল ডকুমেন্টের জন্য পথনির্দেশ👇🏻:

https://developers.weixin.qq.com/miniprogram/dev/ai/best-practices.html

WeChat

অ্যার্কিটেকচারের দিক থেকে, এআই ডেভেলপমেন্ট করা ব্যক্তিদের তাৎক্ষণিকভাবে চিনতে পারবেন যে এটি মূলত MCP। mcp.json প্রতিটি পরম ইন্টারফেসের ফাংশন এবং প্যারামিটার ঘোষণা করে, SKILL.md সম্পূর্ণ ব্যবসায়িক প্রক্রিয়াটি কীভাবে চলবে তা বর্ণনা করে, যা Claude, Cursor, VS Code-এর MCP+Skills অ্যার্কিটেকচারের সাথে প্রায় একই। উইচ্যাট কোনো নতুন ব্যবস্থা তৈরি করেননি, বরং শিল্পের যে মানকটি এখন সংকুচিত হচ্ছে, তা সরাসরি গ্রহণ করেছে।

নির্দেশনা প্রক্রিয়ায়, উইচ্যাট একটি স্পষ্ট "注意力权重" সিস্টেম প্রদান করেছে। AI কোন ইন্টারফেস কল করবে এবং কী প্যারামিটার জেনারেট করবে তা নির্ধারণের সময়, সর্বপ্রথম এটি ইন্টারফেসের রিটার্ন কনটেন্ট (পাঁচটি তারকা) দেখে, তারপর mcp.json-এর ইন্টারফেস বর্ণনা (চারটি তারকা) এবং প্যারামিটার বর্ণনা (চারটি তারকা), এবং SKILL.md-কে সবচেয়ে কম গুরুত্ব দেয় (তিনটি তারকা)। এর অর্থ হলো, ডেভেলপারদের জন্য কোথায় লিখতে হবে তা, কী লিখতে হবে তার চেয়ে বেশি গুরুত্বপূর্ণ—একই নিয়মটি যদি ইন্টারফেস রিটার্নে লেখা হয় এবং SKILL.md-তে লেখা হয়, AI তাকে সম্পূর্ণভাবে ভিন্নভাবে ওজন দেয়।

WeChat

ইন্টারফেস রিটার্ন লেভেলে একটি মূল নিয়ম রয়েছে: "তথ্য + কার্য" দুই-পর্যায়ক্রমিক পদ্ধতি। প্রথমে AI-কে বলুন "কী ঘটেছে", তারপর বলুন "পরবর্তী পদক্ষেপ কী"। যদি শুধুমাত্র কার্য লেখা হয় এবং তথ্য না লেখা হয়, তাহলে AI "কার্ডটি প্রদর্শন করুন" কে "পরবর্তী ইন্টারফেসটি কল করুন" হিসাবে বুঝতে পারে এবং ব্যবহারকারীর নিশ্চিতকরণ বাদ দিয়ে দিতে পারে। এটি অনেকগুলি ত্রুটির অভিজ্ঞতা থেকেই প্রাপ্ত একটি নিয়ম।

WeChat

চতুর্থত, প্যারামিটার পাস করার সময় প্রাকৃতিক ভাষার পরিবর্তে আইডি ব্যবহার করুন। চিত্রের «কফি অর্ডার» স্কেনারিওটির সাথে উদাহরণ দেওয়া যাক, ব্যবহারকারী যখন অনুরোধ জানায়, AI অস্পষ্ট ইচ্ছা, বিকল্প, স্পেসিফিকেশন পরিবর্তন এবং পেমেন্ট প্রক্রিয়াকরণ বুঝতে পারে, এবং সম্পূর্ণ প্রক্রিয়াটি ডায়ালগ বক্সের বাইরে ঘটে।

এই ডিজাইনটি সংকেত দেয় যে উইচ্যাট যথেষ্ট সংখ্যক কেসের উপর প্রায়োগিকভাবে কাজ করেছে, এবং AI-এর বাহ্যিক সেবা কলের সমস্যাগুলি চিনতে পেরেছে, এবং এই অভিজ্ঞতাগুলিকে ডেভেলপার নিয়মে পরিণত করেছে।

বাস্তবে, যদি একইভাবে 'ইকোসিস্টেম' এর জন্য পরিচিত উইচ্যাট মিনি প্রোগ্রাম এবং অ্যাপল অ্যাপগুলির তুলনা করা হয়, তাহলে উইচ্যাটের নিজস্ব ইকোসিস্টেমের প্রতি একটি 'ঈশ্বরের দৃষ্টিভঙ্গি' রয়েছে, যা সবকিছুর বাস্তবায়নের পূর্বশর্ত।

আপেল এআই এর চেয়ে কেন গুরুত্বপূর্ণ

এই বছর এপল এর WWDC-এ প্রকাশ করা নতুন সিরি এআই, যদিও এটির অধীনে গুগল জেমিনি যুক্ত করা হয়েছে এবং শর্টকাটগুলিতে প্রাকৃতিক ভাষা সমর্থন রয়েছে, তবুও এটি বেশি আলোচনার সৃষ্টি করেনি।

WeChat

দেখতে গেলে পার্থক্যটি স্পষ্ট হয়: অ্যাপল এমন একটি AI তৈরি করেছে যা iOS সিস্টেমের মধ্যে কিছু ন্যাটিভ ফাংশনকে সমন্বয় করে, কিন্তু তৃতীয় পক্ষের অ্যাপগুলি, অর্থাৎ আপনার ফোনে ইনস্টল করা অ্যাপগুলির ক্ষেত্রে, এটি সমস্যায় পড়ে।

উদাহরণস্বরূপ, এলিবাবা এর কোড এলিবাবা নিজস্ব সার্ভারে চলে, যা অ্যাপল পড়তে পারে না। সিরি যদি এলিবাবা ব্যবহার করতে চায়, তাহলে এলিবাবা এর ইঞ্জিনিয়ারদের অবশ্যই App Intents ইন্টারফেসটির সাথে একে একে সংযোগ স্থাপন করতে হবে, যা সময় ও শ্রম খরচ করে।

WeChat

ওয়েচ্যাট এআইকে সংখ্যালঘু তৃতীয় পক্ষের সেবাগুলি সরাসরি চালানোর অনুমতি দেয়, কারণ সামান্য প্রোগ্রামগুলি ভিন্ন। প্রতিটি সামান্য প্রোগ্রামের কোড, ডেভেলপার দ্বারা জমা দেওয়ার থেকে শুরু করে ওয়েচ্যাট দ্বারা পরীক্ষা এবং শেষ পর্যন্ত ব্যবহারকারীর ফোনে চলমান পর্যন্ত, সমস্তই ওয়েচ্যাটের প্রযুক্তিগত ব্যবস্থার মধ্যে থাকে। ওয়েচ্যাট পরীক্ষা পর্যায়েই কোডটি স্ক্যান করতে পারে, এবং "এই সামান্য প্রোগ্রামটির কোন পৃষ্ঠা রয়েছে, এটি কী করতে পারে, ইনপুট-আউটপুট কী" তা স্বয়ংক্রিয়ভাবে বিশ্লেষণ করতে পারে।

সুতরাং শুধুমাত্র “অটোমেটিক মোড”ই কাজ করে—ডেভেলপারদের একটিও কোড লিখতে হয় না, শুধু একটি সুইচ চালু করলেই উইচ্যাট নিজেই আপনার প্রোগ্রামকে AI-এর দ্বারা কল করা যায় এমন টুলে অনুবাদ করে দেয়। উইচ্যাটের বেসিক ইনফ্রাস্ট্রাকচার এটি করার জন্য প্রাকৃতিকভাবেই সমর্থন করে, এটির “ঈশ্বরের দৃষ্টিভঙ্গি” রয়েছে, যা কেন্দ্রীয়করণের ভিত্তিতে স্কিডিউলিং করতে পারে।

এই আর্কিটেকচারের সুবিধা অ্যাপলের নেই, গুগলেরও নেই।

এছাড়াও উল্লেখ্য যে, সাম্প্রতিক সময়ে শোনা গিয়েছিল যে উইচ্যাট হুয়াওয়ে, হোনর, শাওমি, ওপিপি এবং ভিভোর সাথে একসাথে কাজ করছে এবং A2A (এজেন্ট-টু-এজেন্ট) সহায়ক ক্ষমতা চালু করছে, যাতে ব্যবহারকারীরা তাদের মোবাইল ভয়েস অ্যাসিস্ট্যান্টের মাধ্যমে সরাসরি উইচ্যাট ভিডিও বা অডিও কল শুরু করতে বা বার্তা পাঠাতে পারবেন।

WeChat

ভিতরে, উইচ্যাট AI লাখ লাখ মাইক্রোপ্রোগ্রাম ব্যবহার করতে পারে; বাইরে, মোবাইল প্রস্তুতকারকদের AI সহায়ক উইচ্যাট ব্যবহার করতে পারে। উইচ্যাট এখন AI যুগের একটি সুপার কানেক্টর হয়ে উঠছে, যেখানে সব AI সংযুক্ত হতে পারে।

"ওয়েইচিন ওএস"-এর পুরনো পূর্বাভাস

ছোট প্রোগ্রাম চালুর সময়, অনেকে বলেছিলেন যে উইচ্যাট "উইচ্যাট OS" তৈরি করছে। তখন এটি বেশি একটি রূপক ছিল—ছোট প্রোগ্রামগুলি কিছু অ্যাপের কাজ প্রতিস্থাপন করেছিল, কিন্তু মূলত এটি একটি "হালকা অ্যাপ্লিকেশন প্ল্যাটফর্ম" ছিল।

আরও অপ্রত্যাশিতভাবে, যখন কেন্দ্রীয় পরীক্ষার ব্যবস্থা ডিজাইন করা হয়েছিল, তখন এটি গুণগত মান এবং নিরাপত্তা নিয়ন্ত্রণের জন্য ছিল। কিন্তু নয় বছর পর, যে ডিজাইনটি তখন "অতি-নিয়ন্ত্রণ" বলে সমালোচিত হয়েছিল, সেটি আজ AI যুগের জন্য অপরিহার্য অবকাঠামোগত সুবিধা হয়ে উঠেছে। বিকেন্দ্রীকৃত অ্যাপ ইকোসিস্টেম (অ্যাপল/অ্যান্ড্রয়েড) তখন আরও "স্বাধীন" মনে হয়েছিল, কিন্তু এখন এটি AI-এর সংযোগের জন্য বাধা হয়ে দাঁড়িয়েছে।

WeChat

একটি পুরনো প্রতিজ্ঞা, যা নতুন যুগের প্রযুক্তি—AI—এর উত্থানের কারণে বিপ্লবী পরিবর্তন ঘটিয়েছে।

OpenClaw এবং Feishu লিখার সময়, আমি একটি বিচার উত্থাপন করেছিলাম: IM হল AI Agent-এর সবচেয়ে প্রাকৃতিক প্রবেশদ্বার, কারণ কথোপকথনই মানুষ এবং AI-এর মধ্যে সবচেয়ে প্রাকৃতিক ইন্টারঅ্যাকশন, এবং IM-এর নিজস্ব সেবা পরিবেশ (রোবট, পেমেন্ট, মাইক্রোপ্রোগ্রাম) এর মাধ্যমে AI শুধুমাত্র 'কথা' বলতেই সীমাবদ্ধ থাকে না, বরং 'কাজ'ও করতে পারে। Feishu এই দিকে এগিয়ে যাচ্ছে, Bot API শক্তিশালীকরণ এবং AI Agent নোড চালু করেছে।

WeChat

তবে, Feishu হল একটি কর্পোরেট সহযোগিতার টুল, যা অফিস স্কেনারিওকে কভার করে। WeChat এর সম্পূর্ণ ভিন্ন পরিসর রয়েছে—14.32 বিলিয়ন মাসিক সক্রিয় ব্যবহারকারী, হাজার হাজার সূক্ষ্ম ক্ষেত্রের মাইক্রোপ্রোগ্রাম, যা খাবার অর্ডার করা থেকে ডাক্তারের অ্যাপয়েন্টমেন্ট নেওয়া, বিমান টিকিট কেনা থেকে বিদ্যুৎ ও জলের বিল পরিশোধ পর্যন্ত, প্রায় একজন ব্যক্তির দৈনন্দিন জীবনের সমস্ত সেবা চাহিদাকে কভার করে।

WeChat

যদি উইচ্যাট এআই সত্যিই এই মাইক্রোপ্রোগ্রামগুলি সহজে ব্যবহার করে কাজ সম্পন্ন করতে পারে, তবে যেমন পূর্বাভাস করা হয়েছিল, এটি প্রাকৃতিক ভাষায় চালিত একটি অপারেটিং সিস্টেম হয়ে উঠেছে।

ব্যবহারকারী বলেন, "আমাকে কাল বিকাল তিনটায় বেইজিং থেকে শাংহাইয়ের জন্য হাই-স্পিড ট্রেন বুকিং করে দিন," AI উদ্দেশ্য বিশ্লেষণ করে, 12306 মাইক্রোপ্রোগ্রাম ব্যবহার করে টিকিট চেক করে, আসন নির্বাচন করে এবং WeChat পেমেন্টের মাধ্যমে অর্ডার সম্পন্ন করে, সম্পূর্ণ প্রক্রিয়া WeChat-এর ভিতরেই শেষ হয়। এই লিঙ্কটি তাত্ত্বিকভাবে আজই চালু করা যায়।

অবশ্যই, তত্ত্ব এবং বাস্তবতার মধ্যে এখনও দূরত্ব রয়েছে। AI-এর পেমেন্ট স্কেনারিওতে সেবা কল করার ক্ষেত্রে ত্রুটি সহনশীলতা প্রায় শূন্য—একটি কফি ভুল করা ছোট বিষয়, কিন্তু একটি টিকিট ভুল করা বড় বিষয়। নীচের মডেলের সঠিকতার প্রয়োজনীয়তা কথোপকথনের স্কেনারিওর চেয়ে অনেক বেশি। এটিই বিশ্বব্যাপী AI Agent-এর বাস্তবায়নের সাধারণ বাধা: “কথা বলতে পারা” থেকে “কাজ করতে পারা”-এর মধ্যে যা পার্থক্য, তা হলো প্রযুক্তিগত মাপকাঠি নয়, বরং বিশ্বাস।

WeChat

কিন্তু উইচ্যাট কমপক্ষে একটি বিষয় সঠিকভাবে করেছে: এটি শূন্য থেকে সেবা নেটওয়ার্ক তৈরি করেনি। বছরগুলি ধরে, ChatGPT যা করছে তা হলো প্রথমে একটি বুদ্ধিমানের মস্তিষ্ক থাকা, তারপর Shopify, DoorDash, Stripe-এর সাথে একে একে সংযোগ করা, প্রতিটি সংযোগই শূন্য থেকে তৈরি করা, আজও ট্রানজেকশন-সংক্রান্ত জিজ্ঞাসার অংশ মাত্র 3%।

যে পরিবর্তনগুলি প্রকৃতপক্ষে ঘটতে যাচ্ছে, তা বেশিরভাগ ব্যবহারকারীর জন্য নিঃশব্দে ঘটতে পারে। একদিন আপনি উইচ্যাটে লিখবেন “আজ রাত ৯টায় শাংহাইয়ের জন্য টিকিট বুকিং করে দাও”, এবং এটি স্বয়ংক্রিয়ভাবে বুকিং করে দেবে, আপনি জানবেন না পিছনে কোন মিনি-অ্যাপটি কল করা হয়েছে বা কোন পেমেন্ট প্রক্রিয়াটি চলেছে।

এই "অনুভূতিহীন সম্পন্নতা" হল এআই এজেন্টের প্রকৃত পরিপক্কতার লক্ষণ, এবং উইচ্যাট এই পদক্ষেপে অন্য যারা আছেন, তাদের চেয়ে সবচেয়ে কাছাকাছি।

এই লেখাটি ওয়েইচ্যাট গ্রুপ "APPSO" থেকে এসেছে, লেখক: APPSO, যিনি আগামীকালের পণ্য আবিষ্কার করেন।