ভার্টিক্যাল এআই স্টার্টআপগুলি জেনারেল মডেলের অধিকারে বেঁচে থাকার পথ খুঁজছে

বুদ্ধিমত্তা অরেখাগতভাবে বৃদ্ধি পাচ্ছে, এবং এআই প্রতিষ্ঠানগুলির মূল যুক্তি পুনর্গঠিত হচ্ছে।

লেখক এবং উৎস: জিকে পার্ক

৯০%, এটি বিনিয়োগকারীদের দ্বারা ২০২৬ সালের জন্য এআই স্টার্টআপের ব্যর্থতার সম্ভাবনা।

এপ্রিলে, a16z দ্বারা নেতৃত্ব দেওয়া এবং 33 মিলিয়ন ডলারের বীজ বিনিয়োগ সহ একটি এআই মডেল মূল্যায়ন প্ল্যাটফর্ম Yupp হঠাৎ করে বন্ধ হয়ে যায়। এই প্ল্যাটফর্মটি Google-এর চিফ সায়েন্টিস্ট জেফ ডিন, Twitter-এর সহ-প্রতিষ্ঠাতা বিজ স্টোনসহ অনেক সিলিকন ভ্যালির বড়দের সমর্থন পেয়েছিল, এবং প্ল্যাটফর্মটি চালুর এক বছরেরও কম সময়ে 130 লাখ ব্যবহারকারীকে আকর্ষণ করেছিল, কিন্তু হঠাৎ করেই প্রতিষ্ঠাতারা এটি বন্ধ করে দেন। যদিও ব্যবসায়িকভাবে এখনও অনেক অর্থ রয়েছে, তবুও প্রতিষ্ঠাতারা কোনও আশা দেখতে পাচ্ছেন না। "গত একবছরের মধ্যেই AI মডেলের ক্ষমতার পরিসর অসাধারণভাবে পরিবর্তিত হয়েছে, ভবিষ্যতে শুধুমাত্র মডেলই নয়, Agent সিস্টেমই গুরুত্বপূর্ণ।" Yupp-এর প্রতিষ্ঠাতা Pankaj Gupta তাঁর বিদায়ী ব্লগে লিখেছেন।

একই সময়ে, এআই ইমেজ কোম্পানি নিউরোপিক্সেল গুগল ন্যানোবানানা প্রো এর মতো বড় মডেলের ক্ষমতার বৃদ্ধির কারণে বন্ধ হয়ে যায়, এবং নিউরোপিক্সেলের প্রতিষ্ঠাতা এই পরাজয়কে বর্ণনা করতে একটি শব্দ ব্যবহার করেন: outgunned—“এক রাতের মধ্যে অসহায়ভাবে পরাজিত”。

বেস মডেলের বুদ্ধিমত্তার ধাপে ধাপে উন্নতির প্রেক্ষাপটে, এআইয়ের ক্ষমতার সীমানা বর্ধিত হচ্ছে। প্রথমে কথোপকথন বক্সটি অনুসন্ধানকে খেয়ে ফেলল, ব্যবহারকারীদের ফলাফল খুঁজতে পৃষ্ঠা উল্টানোর দরকার হল না। তারপর, এজেন্টগুলি সফটওয়্যারকে খেয়ে ফেলতে শুরু করল—একটি টুল কল করতে এবং কাজগুলি বিভক্ত করতে পারে এমন একটি বুদ্ধিমান এজেন্ট, যা আগে একটি সম্পূর্ণ মেনু এবং অ্যাপের প্রয়োজন হত। যখন এআই সরাসরি টার্মিনালে কোড লিখতে, ইন্টারফেস কল করতে এবং কাজগুলি সম্পন্ন করতে পারবে, তখন প্রচলিত সফটওয়্যার সিস্টেমের সীমানা পুনর্গঠিত হচ্ছে।

পণ্য পরিচালকদের জন্য, তাদের পণ্যের রূপ এবং ইন্টারঅ্যাকশন পদ্ধতি পুনর্সংজ্ঞায়িত করা বিবেচনা করা দরকার। আর প্রতিষ্ঠাতাদের জন্য, জীবন ও মৃত্যুর প্রশ্নটি এখন সামনে রাখা হয়েছে:

যখন বেস মডেলের বুদ্ধিমত্তা আরও শক্তিশালী হয়ে উঠছে, আমি কীভাবে উদ্যোগ শুরু করব? আমি যা করছি, তা কীভাবে পরবর্তী মডেল আপডেটের দ্বারা সরাসরি নিঃশেষিত হবে না?

ফ্ল্যাশল্যাবসের প্রতিষ্ঠাতা শি ই, গত বছর ধরে এই প্রশ্নটির মধ্যে বেঁচে আছেন। তিনি একটি সিরিজ অপ্রচলিত সিদ্ধান্ত নিয়েছেন: পণ্যের পথনির্দেশ বাতিল করা, সচেতনভাবে দলকে ছোট করা, সংক্ষিপ্ত-মেয়াদি বাণিজ্যিক সূচকগুলি ত্যাগ করা, এমনকি কোম্পানির নামও পরিবর্তন করা। আমরা তাঁর সাথে কথা বলেছি, সাধারণ মডেলের উন্নতির যুগে, পূর্বের বিশেষায়িত AI স্টার্টআপগুলি কীভাবে বেঁচে থাকবে।

01 নাম পরিবর্তন, সংকুচিতকরণ, এআই-ন্যাটিভে পরিণত, বড় মডেলের চাপে জীবন-মৃত্যুর রূপান্তর

প্রতিষ্ঠাতাদের চোখে হঠাৎ করে আজ হুমকির অনুভূতি আসেনি। ২০২৪ সালের শেষের দিকেই শি ই বুঝতে পেরেছিলেন যে জেনারিক মডেলের বুদ্ধিমত্তার উন্নতির গতি খুবই দ্রুত।

যে বিষয়টি প্রথমে তাকে অস্বাভাবিক বলে মনে করিয়ে দেয়, তা হলো একটি এআই ইউনিকর্ন কোম্পানি জ্যাস্পারের পতন। এআই অ্যাপ্লিকেশন লেয়ারের একটি স্টার কোম্পানি হিসেবে বিবেচিত এই কোম্পানিটি ১৮ মাসের মধ্যে ১.৫ বিলিয়ন ডলারের মূল্যায়নে পৌঁছেছিল, কিন্তু GPT-এর ন্যাটিভ ক্ষমতা খোলা হওয়ার পর তার আয় অর্ধেক হয়ে যায়। “জ্যাস্পারের ARR সরাসরি অর্ধেক হয়ে গেল,” শি ইয়ি মন্তব্য করেন, “যেসব কোম্পানি NLP-এর উপর নির্ভরশীল ছিল, বড় মডেলের ক্ষমতা বৃদ্ধির সাথে সাথে, এগুলোকেই বড় মডেলগুলো ‘খেয়ে’ ফেলবে।”

এই বিচার তার মনে একটি কাঁটার মতো বসে গেছে, অস্বস্তি দিচ্ছে। সেই সময়, তার কোম্পানির নাম ছিল FlashIntel, এবং তারা আরও প্রচলিত To B SaaS ব্যবসা করছিল। প্রচলিত To B SaaS-এর যুক্তি অনুযায়ী, যদি আপনি একটি যথেষ্ট সূক্ষ্ম ক্ষেত্রে যথেষ্ট শিল্প-ডেটা জমা করেন, এবং নিয়ম-অনুগত এবং নিরাপদভাবে প্রযুক্তিগত বাধা গড়ে তোলেন, তবে অবশ্যই বাজারের জন্য জীবনযাপনের জায়গা থাকবে, কিন্তু আজকের দিনে এই সবকিছুই কাজ করছে না।

“আমি যা করছি, তাতেও কি একই সমস্যা দেখা দেবে?” এই প্রশ্নটি তার চিন্তার মধ্যে বারবার ফিরে আসতে শুরু করল। শীঘ্রই সে বুঝতে পারল যে, তার করা কাজটি Jasper-এর সাথে মৌলিকভাবে একই। অতীতের পণ্য ব্যবস্থা সবসময় এই ধারণার উপর ভিত্তি করে গড়ে উঠেছিল যে, মডেলের ক্ষমতা বিশেষজ্ঞ মডেলের চেয়ে বেশি হবে না। যদি বেস মডেলের বুদ্ধিমত্তা কোনও সীমানা অতিক্রম করে, তবে বিশেষজ্ঞ পণ্যগুলিতে জমা হওয়া সমস্ত উপরের ইঞ্জিনিয়ারিং এবং স্কেনারিও-ভিত্তিক অপ্টিমাইজেশনগুলি একটি রাতের মধ্যেই সম্পূর্ণভাবে তাদের সুবিধা হারিয়ে ফেলতে পারে।

সিদ্ধান্ত নেওয়ার পর, তিনি এই কী সমস্যাটিকে কোম্পানির কৌশলগত সর্বোচ্চ অগ্রাধিকারে তুলে ধরেন, যা দলকে সিদ্ধান্ত নিতে বাধ্য করে—কোম্পানিটিকে SaaS থেকে সম্পূর্ণভাবে AI Native-এ স্থানান্তরিত হতে হবে।

এই সমন্বয়টি এক ধাপে ঘটেনি। তিনি প্রথমে নিজেকে জিজ্ঞাসা করেছিলেন, পরবর্তী প্রজন্মের এআই কোম্পানিগুলির জন্য প্রকৃতপক্ষে কী ধরনের সংগঠনগত কাঠামো প্রয়োজন?

তিনি মনে করেন এখন কোম্পানি পরিচালনা করার সময় দলের সদস্য সংখ্যা এবং বিস্তারিত বিভাগীয় বিভাজনের দিকে আর মনোযোগ দেওয়া উচিত নয়। "AI যুগে, যত বেশি মানুষ থাকবে, তত কম AI ব্যবহার হবে, কারণ বিভাগীয় বিভাজন যত বেশি হবে, প্রত্যেকে তত বেশি নিজের কাজের উপর নির্ভরশীল হয়ে পড়বে।" তিনি সক্রিয়ভাবে দলের আকার কমানো শুরু করেছেন, এবং নিয়োগের মানদণ্ডকে "অভিজ্ঞতা এবং প্রকল্পের দিকে তাকানো" থেকে "চিন্তাভাবনা এবং ফুল-স্ট্যাক দক্ষতা" দেখার দিকে সম্পূর্ণভাবে পরিবর্তন করেছেন। তিনি প্রার্থীদের পরীক্ষা করার পদ্ধতিও পরিবর্তন করেছেন—এখন তিনি অতীতের CV বা অভিজ্ঞতা দেখেন না, বরং সরাসরি প্রার্থীদেরকে একটি কাজ দিয়েছেন, যাতে দেখা যায় কোনও ব্যক্তি AI-এর সহায়তায় ফ্রন্টএন্ড-ব্যাকএন্ডটা একসাথে সম্পন্ন করতে পারে কিনা। "যারা এটা করতে পারবে, AI টুলগুলোকে অবশ্যইভালোভাবেই ব্যবহার করবে।"

তারপর তিনি কোম্পানির ভিতরে সম্পদের অগ্রাধিকার পুনর্নির্ধারণ করেন। অধিকাংশ স্টার্টআপ এখনও পণ্য লঞ্চের গতি এবং ব্যবসায়িক যাচাইয়ের দিকে মনোযোগ দিচ্ছে, কিন্তু তিনি বেশিরভাগ সম্পদকে অগ্রণী গবেষণার দিকে নিয়ে যাওয়ার সিদ্ধান্ত নেন, এমনকি কোম্পানির নাম পরিবর্তন করে FlashLabs রাখেন।

"পূর্বে ইন্টারনেটের যুক্তি ছিল পণ্য বা অপারেশন প্রাধান্য, কিন্তু এখন AI করতে হলে গবেষণা প্রাধান্য পাবে।" তিনি নিজেকে এবং তাঁর দলকে গবেষণা পত্র পড়তে, প্রথম নীতি বুঝতে বাধ্য করেন, "শুধুমাত্র প্রথম নীতির কাছাকাছি গেলেই আপনি জানতে পারবেন ভবিষ্যতে AI আর কী করতে পারবে, কীকে প্রতিস্থাপন করতে পারবে।"

এই রূপান্তরটি প্রতিষ্ঠানের ভিতরে একটি “কষ্টকর সময়” এনেছে, যেখানে দলের সবাই এই বড় কাঠামোগত পরিবর্তনটি বুঝতে পারেননি। যখন তিনি দলকে বললেন, “প্রথমে ব্যবসায়িক করণের কথা ভাববেন না, প্রথমে মজাদার জিনিস করুন,” তখন কোম্পানির ভিতরে কেউ উত্তেজিত হলেন, আবার কেউ কেউ চলে গেলেন। কিন্তু তিনি অটিস্টিকভাবে ধরে রাখলেন যে AI যুগে কমিয়ে আনা আরও গুরুত্বপূর্ণ, “আপনি যদি এটির সমর্থন না করেন, তাহলে এটিকেই সরিয়ে ফেলুন।”

কিন্তু আরও গুরুত্বপূর্ণ বিষয় হলো, এআই যুগে কোন ধরনের প্রতিষ্ঠাতা বেঁচে থাকতে পারবেন?

শিয়ির উত্তরটি দুটি অর্ধ-বাক্যে বিভক্ত, প্রথম অংশটি বাস্তবতার দিকে মুখ করে, "অন্তত টাকা জোগাড় করা যায়, তুমি মারা যাও না, অথবা তোমার পকেট যথেষ্ট গভীর, যাতে ধারাবাহিকভাবে রক্তচালনা করা যায়।" দ্বিতীয় অংশটিই তিনি আসলে বলতে চাইছেন, "আপনার কি AI-এর চেয়েও বেশি গভীর চিন্তার ক্ষমতা আছে?"

"বড় মডেল কেন আরও বেশি কাজ করতে পারছে? কারণ সব প্রাকৃতিক বিজ্ঞানের মূল হল গণিত, এবং মডেলগুলি কোড লিখতে পারে, গণিত বুঝতে পারে। এই শৃঙ্খলটি ধাপে ধাপে বিশ্লেষণ করলে, মানুষের প্রকৃতপক্ষে সবচেয়ে কম পাওয়া যায় এমন ক্ষমতা শুধুমাত্র একটি—একটি নির্দিষ্ট ক্ষেত্রে AI-এর চেয়ে গভীরভাবে চিন্তা করা।" শি ইয়ি বিশ্লেষণ করেন, "অনেকের AI-এর প্রতি বোঝা এখনও যথেষ্ট নয়। দেখুন, কতজন প্রতিষ্ঠাতা আসলেই নিজেরা কোড লিখেন, প্রতিদিন AI টুলগুলি ব্যবহার করেন? ভবিষ্যতে কোডিংয়ের দক্ষতা একটি কমোডিটি হয়ে যাবে, প্রত্যেকেই এটি শিখবে। কিন্তু আপনি AI-এর চেয়েও বুদ্ধিমান্‌ হতে পারবেন? এটাইই আসলের 'মোহনা'।"

সংকটের সচেতনতা থেকে সিদ্ধান্ত নেওয়া এবং সংগঠনগত পুনর্গঠনের জন্য খরচ করা পর্যন্ত, শি ইয়ি এক বছর ধরে একটি “স্ব-পুনরাবৃত্তি” সম্পন্ন করেছেন। তিনি মডেলের আপডেটের অপেক্ষায় থাকেননি যাতে চূড়ান্ত ফলাফলটি জানতে পারেন, বরং তিনি আগে থেকেই সেই সঠিক উত্তরটির সম্ভাব্য অবস্থানটি খুঁজে বের করার সিদ্ধান্ত নিয়েছিলেন। এই অবস্থানটি সঠিকভাবে ধরা হয়েছে কিনা, সেটা অন্য একটি প্রশ্ন, কিন্তু এখনও, তিনি AI-এর টেবিল থেকে উঠতে চান না।

02 এন্টারপ্রাইজ-লেভেল এজেন্টকে «Harness» কার্ডটি খেলতে হবে

সংগঠনগত পরিবর্তন হল শুধু কোম্পানির বেঁচে থাকার পথের প্রথম পদক্ষেপ। যা সিয়িকে প্রকৃতপক্ষে পরিবর্তনের সিদ্ধান্ত নিতে বাধ্য করেছিল তা হল পণ্যের পথ।

সে প্রথমে একটি মাল্টি-এজেন্ট সহযোগিতা সিস্টেম তৈরির ইচ্ছা করেছিল, যেখানে বেশি মানুষের শক্তির যুক্তি অনুসরণ করে মানুষের কোম্পানির সংগঠনগত কাঠামোকে অনুকরণ করে একটি মাল্টি-এজেন্ট সিস্টেম গঠন করা যেতে পারে: কিছু অনুসন্ধানের জন্য, কিছু যুক্তিগত উপসংহারের জন্য, আর কিছু ফলাফল সংকলনের জন্য।

কিন্তু বাস্তব পরীক্ষার ফলাফল দেখে শি ই বারবার মাথা নাড়লেন: “খুব ধীর, খুব ক্লান্তিকর, আউটপুট একটি এজেন্টের চেয়েও খারাপ।” তাঁর মতে, এজেন্টগুলির মধ্যে নির্দেশ প্রেরণ একটি নিম্নমানের ফোন গেমের মতো, প্রতিটি মধ্যবর্তী স্তরে তথ্যের ক্ষতি বাড়ে। “আমি একজন ১৫০ IQ-এর প্রতিভাবানকে পছন্দ করি, যিনি সমস্ত অস্ত্র সজ্জিত, নয়তো ১১০ IQ-এর অসংখ্য সাধারণ মানুষকে, যারা অসম্পূর্ণ সরঞ্জাম নিয়ে পরস্পরের সঙ্গে আলোচনা করছে।” শি ই সাক্ষাৎকারে স্পষ্টভাবে বলেছেন।

শেষ পর্যন্ত, তিনি সমস্ত পূর্বনির্ধারিত সাব-এজেন্ট বাতিল করেন এবং একটি যথেষ্ট শক্তিশালী একক এজেন্ট তৈরি করার সিদ্ধান্ত নেন, যা মাল্টিথ্রেডেড প্যারালাল এক্সিকিউশনের মাধ্যমে ক্লাস্টার সহযোগিতাকে প্রতিস্থাপন করবে।

এটি FlashLabs-এর সর্বশেষ পণ্য Super Agent-এর প্রাথমিক রূপ, যা একটি মডেলের বুদ্ধিমত্তাকে সর্বোচ্চ সীমায় নিয়ে যায় এবং সরঞ্জামগুলিকে সর্বোচ্চ সীমায় পৌঁছায়। Super Agent মূলত স্মার্ট অটোমেশন ব্যবহার করে ব্যবহারকারীদের আয়ের ব্যবস্থা একীভূত করে, সম্ভাব্য গ্রাহক উন্মোচন থেকে লেনদেন পর্যন্ত AI Agent সমস্ত ধাপে অংশগ্রহণ করে।

জিক পার্কের সাক্ষাতকারের স্থানে, শি ই একটি তথ্য অনুসন্ধান কাজ দিয়েছিলেন সুপার এজেন্টকে: "গত ছয় মাসের মধ্যে চীনে বিনিয়োগপ্রাপ্ত সমস্ত এআই কোম্পানির প্রতিষ্ঠাতাদের পটভূমি অনুসন্ধান করুন এবং একটি টেবিল আউটপুট দিন।" তারপর, সুপার এজেন্ট একসাথে ডজনখানেক টাস্ক থ্রেড শুরু করে, অনুসন্ধান, ওয়েবস্ক্র্যাপিং, কোডিং, ডেটা ক্লিনিংয়ের কাজগুলি এগিয়ে নিয়ে যায়, ২-৩ মিনিটের মধ্যেই ফলাফল পায়, যেখানে প্রতিষ্ঠাতাদের নাম, ফান্ডিংয়ের পরিমাণ, প্রকাশিতযোগ্যযোগাযোগের তথ্যসহ বিস্তারিত তথ্য রয়েছে।

যদি মাল্টি-এজেন্ট বাদ দেওয়াকে আর্কিটেকচার লেভেলের বিয়োগ বলা যায়, তবে লোকালাইজেশন বাদ দেওয়াকে ডিপ্লয়মেন্ট লজিকের বিপরীত পছন্দ বলা যায়।

যখন ওপেনক্লস ডেভেলপার সম্প্রদায়ে "লোকাল এজেন্ট" তরঙ্গ তৈরি করছে, তখন শিয়ে দৃঢ়ভাবে সুপার এজেন্টকে ক্লাউডে রাখেন। "যদি ওপেনক্লসের মতো সিস্টেম কোম্পানির অভ্যন্তরে চালানো হয়, তাহলে এটি একটি ট্রোজান হর্সের মতো—আপনি সহজেই এটির মাধ্যমে হ্যাক করতে পারবেন।" তিনি মনে করেন, বর্তমান পর্যায়ে যে কোনও কোম্পানি ওপেনক্লসকে কোম্পানির অভ্যন্তরে বড়পরিসরে ডিপ্লয় করার চেষ্টা করছে, তা বিশ্বব্যাপী হ্যাকারদের জন্য দরজা খুলে দিচ্ছে।

তার মতে, ওপেনক্লসের সুবিধা হল ব্যক্তিগত স্তরে প্রাথমিক প্রয়াসের সম্ভাবনা প্রদর্শন। উদাহরণস্বরূপ, ওপেনক্লসের মাধ্যমে এআই ব্যবহারকারীকে ২০০০ ডলার চাইলে কার্ড কিনতে, ব্যবহারকারী বলে দেয়—তুমি নিজেই অর্জন করো, তখন এআই বাজারের পূর্বানুমান এবং কোয়ান্টিটেটিভ স্ট্র্যাটেজি অধ্যয়ন শুরু করে। “কোনও বসই কি প্রাথমিকভাবে কাজ করা কর্মচারীকে পছন্দ করে না?” শি ইয়ি প্রশ্ন করলেন। যখন এই প্রাথমিকতা একটি এন্টারপ্রাইজ-লেভেলের পণ্যের অংশ হয়ে যায়, তখন মানুষের কর্মচারীদের প্রতিস্থাপনের গতি অপেক্ষারও বেশি হবে। “আগের শিল্পবিপ্লবে, ঘোড়াগাড়িকে গাড়িতে পরিণত করতে, আপনাকে গাড়ি কিনতে, ড্রাইভিং লাইসেন্স নিতে, রাস্তা পরিবর্তন করতে—এগুলোতেও অনেক সময় লাগত। কিন্তু এবারের অবস্থা ভিন্ন—হোস্টেড ডিপ্লয়মেন্ট, ‘পট’—একটা শব্দেই, দশটি-বিশটি কর্মচারীর কাজই অদৃশ্য।” তিনি আরও অনুমান করলেন, ২০২৪-এর মধ্যে ব্লু-কলারদের চাকরিরও বড়পরিমাণে AI-এর দ্বারা প্রতিস্থাপন হবে।

এবং অটোমেশন বাস্তবায়নের চ্যালেঞ্জ—যেমন এন্টারপ্রাইজ-লেভেল অ্যাপ্লিকেশনের নিরাপত্তা কিভাবে নিশ্চিত করা যায়—তার জন্য FlashLabs-এর সমাধান হলো macOS-এর মতো স্যান্ডবক্স অনুমতি ব্যবস্থা তৈরি করা, যা ক্লাউড-ভিত্তিক ডিপ্লয়মেন্ট এবং পদক্ষেপবিহীন অনুমতি প্রদানের মাধ্যমে কার্যকর হয়। এর অর্থ হলো, Agent-এর প্রাথমিকভাবে কেবলমাত্র কাজ সম্পন্নের জন্য সর্বনিম্ন অনুমতি থাকে, এবং শুধুমাত্র স্থিতিশীলতা এবং নিরাপত্তা বারবার যাচাইয়ের পরই Agent-এর সীমানা ধীরে ধীরে বৃদ্ধি পায়।

তিনি উদাহরণ হিসেবে উইন্ডোজ এবং ম্যাক উল্লেখ করেন, "উইন্ডোজে একটি সফটওয়্যার ইনস্টল করলে অত্যন্ত উচ্চ অধিকার পাওয়া যায়, চুপচাপ ইনস্টল, ব্রাউজারের সাথে বান্ডিল করা, এমনকি মুছে ফেলাও অসম্ভব হয়ে যায়। ম্যাকের প্রোগ্রামগুলি সবই স্যান্ডবক্সে আলাদা করা থাকে, তাই আপনার কখনও অ্যান্টিভাইরাস ইনস্টল করার প্রয়োজন হয় না।" শি ই বিশ্বাস করেন, এন্টারপ্রাইজ-লেভেল Agent-এর প্রতিযোগিতা চূড়ান্তভাবে মডেল কলিং ক্ষমতা থেকে পরিবেশ ডিজাইন ক্ষমতার দিকে বিস্তৃত হবে—যে কেউ Agent-এর জন্য একটি নিরাপদ, নিয়ন্ত্রিত, এবং অডিটযোগ্য রানটাইম পরিবেশ প্রদান করতে পারবে, সেই কোম্পানিরই গ্রাহকরা প্রকৃতপক্ষে ব্যবহারের জন্য সক্ষম হবে।

কিন্তু, যদি মডেলটি আবার প্রতিষ্ঠিত হয়, তবে বর্তমান এই সমন্বয়গুলির কোনো অর্থ আছে কি? যদি GPT-6 বা Claude-এ আরও শক্তিশালী টাস্ক ডিকমপোজিশন এবং টুল কলিং ক্ষমতা বিদ্যমান থাকে, তবে FlashLabs আজ যা করছে, তা আবার খেয়ে ফেলা হবে কি?

এই প্রশ্নের জবাবে শি ই এড়িয়ে যায়নি, তার চিন্তাভাবনা দুটি দিকে বিভক্ত।

তিনি প্রথমে বিশেষায়িত কোম্পানিগুলির ব্যবসায়িক বাধা চারটি স্তরে সংকলন করেন: পরিচয় (Perception), পরিকল্পনা (Planning), পুনরাবৃত্ত শেখা (Recursive Learning), পরিচালনা (Governance)।

বড় মডেল কোম্পানির বাজারে 5টি কোম্পানি রয়েছে, এবং SOTA র্যাঙ্কিং প্রতি তিন মাসে একবার পরিবর্তিত হয়। আপনি অরকেস্ট্রেশন লেয়ারের মাধ্যমে সমস্ত মডেলকে একীভূত করতে পারেন এবং বিভিন্ন পরিস্থিতিতে সবচেয়ে দক্ষ মডেলটি ব্যবহার করতে পারেন। কিন্তু একটি একক মডেল কোম্পানি শুধুমাত্র নিজের মডেলই ব্যবহার করতে পারে, এবং যখন আপনার বেস মডেলটি সবচেয়ে বুদ্ধিমানটি নয়, তখন আপনার পণ্যের প্রতিযোগিতামূলক সুবিধা সরাসরি কমে যায়।" সাধারণ বড় মডেলগুলি দ্রুত প্রথম দুটি স্তরকে কভার করছে, এবং শি ইয়ির মতে, সত্যিকারের বাধা এখন শুধুমাত্র পরবর্তী দুটি স্তরেই অবশিষ্ট আছে, এবং চূড়ান্ত প্রতিরক্ষা অরকেস্ট্রেশন লেয়ারে (Orchestration Layer)।

তিনি মনে করেন, যখন একাধিক এজেন্ট একটি কর্পোরেট সিস্টেমে সহযোগিতা করে, তখন তারা মানুষের দৃষ্টির বাইরে গোপনে আলোচনা করে পূর্বনির্ধারিত অনুমতি নিয়মগুলি এড়িয়ে যেতে পারে। বিশেষায়িত কোম্পানিগুলির প্রকৃত বাধা হল নির্দিষ্ট পরিস্থিতির জন্য এমন একটি খোলা এবং নিয়ন্ত্রিত পরিবেশ ডিজাইন করার ক্ষমতা।

এই বিচারটি সঠিক কিনা তা নিয়ে তিনি স্বীকার করেন যে তাঁর নিজেরও ১০০% নিশ্চিততা নেই। "এআই খুব দ্রুত পরিবর্তিত হচ্ছে, ভবিষ্যতে কী ঘটবে তা আসলে আপনি জানেন না।" কিন্তু তিনি একটি বিষয়ে নিশ্চিত যে, যদি উল্লম্ব প্রতিষ্ঠানগুলি AI অর্গানাইজেশন এবং AI গভর্ন্যান্স—এই দুটি কার্ডটি ভালোভাবে খেলে, এবং পরিবেশ ডিজাইনের সমস্যাগুলি সমাধান করে, তবে পরবর্তী প্রজন্মের মডেলের উত্থানের সময় অন্ততঃ টেবিল থেকে সরাসরি বাদ পড়বেন না।

03 ভয়েস মডেলের পুনর্গঠন আসছে, এক্টিভ এজেন্ট কার্যকারিতা-ভিত্তিক পেমেন্ট মডেলের সূচনা করতে পারে

প্রতিযোগিতামূলক পণ্য তৈরির উপায় জানার পর, পরবর্তী পদক্ষেপ হল গ্রাহকদের কাছে স্বীকৃতি অর্জন করা।

ফ্ল্যাশল্যাবস এখন ব্যবসায়িকভাবে মূলত দুটি পণ্য নিয়ে কাজ করছে: সুপার এজেন্ট টোকেন ব্যবহারের ভিত্তিতে পেমেন্ট নেয়, যার দাম ওয়েবসাইটে উল্লেখ করা আছে; এছাড়াও, তারা নিজেদের Chroma ভয়েস মডেলটি ওপেন-সোর্স করেছে, কিন্তু মডেলের উপর ভিত্তি করে তৈরি প্ল্যাটফর্ম এবং সার্ভিসগুলির জন্য শুল্ক নেয়। আসলে, এই দুটি পদ্ধতিই বর্তমানে খুবই সাধারণ ব্যবসায়িক পথ, যেখানে ওপেন-সোর্সের মাধ্যমে প্রযুক্তিগত বিশ্বাস গড়ে তোলা হয় এবং প্ল্যাটফর্ম ও সার্ভিসের মাধ্যমে ব্যবসায়িক মূল্য ফিরিয়ে আনা হয়।

বর্তমানে, জাপানের ট্যাক্স এবং ফাইন্যান্সিয়াল কোম্পানিগুলি মানুষের কাস্টমার সার্ভিস এর পরিবর্তে FlashLabs-এর Chroma ভয়েস মডেল ব্যবহার করছে, যা বর্তমানে কর্মচারীদের 1/10 অংশের উপর পরীক্ষা হচ্ছে। AI এবং মানুষ একসাথে অনলাইনে থাকে এবং উভয়ের পারফরম্যান্স স্কোর নিয়মিত তুলনা করা হচ্ছে। যাচাইয়ের পদ্ধতি খুব সহজ: যার সঠিকতা বেশি এবং প্রক্রিয়াকরণ দক্ষতা ভালো, তার ডেটা নিজেই কথা বলবে।

"শব্দের ব্যবহারের সীমানা দৃশ্যমানের সাথে একই পরিমাপের" — যখন পুরো শিল্পটি বহুমাধ্যম এবং ভিডিও বোঝার দিকে তাকিয়েছে, তখন শি ইয়ি তাঁর দলকে নিয়ে রিয়েল-টাইম সাউন্ড মডেল Chroma-এর উপর ফোকাস করেন এবং এন্ড-টু-এন্ড ল্যাটেন্সি 135 মিলিসেকেন্ডে নামিয়ে আনেন।

পাঠ্য বড় মডেল আসার আগে, ওসিআর, এনএলপি এবং বিভিন্ন ছোট মডেল একসাথে জোড়া লাগানো হত। বর্তমানে ভয়েসও ঠিক সেই অবস্থায়—এএসআর, টিটিএস, বিভিন্ন মডিউলের সমন্বয়, প্রতিটি ধাপে স্থানীয় অপ্টিমাইজেশন চলছে। এই পুরনো আর্কিটেকচারটি অবশ্যই একটি এন্ড-টু-এন্ড ভয়েস বড় মডেল দ্বারা সম্পূর্ণভাবে প্রতিস্থাপিত হবে।" তিনি মনে করেন, অন্যদের কাজটি করতে অপেক্ষা করার চেয়ে, নিজেই সেই প্রতিস্থাপনকারীকে তৈরি করা উচিত।

শি ই মনে করেন যে কথা বলা হল মানুষ এবং মানুষের মধ্যে সবচেয়ে প্রাকৃতিক যোগাযোগের মাধ্যম, এবং ভবিষ্যতে এটিই হবে মানুষ এবং এআইয়ের মধ্যে সবচেয়ে গুরুত্বপূর্ণ ইন্টারফেস। "কথা বলার মাধ্যমে পাঠানো যাওয়া তথ্যের ব্যান্ডউইথ পাঠ্যের চেয়ে অনেক বেশি, আমি একটি বাক্য বললেই আপনি তাৎক্ষণিকভাবে বুঝতে পারবেন।"

তিনি মনে করেন যে ভয়েস মডেলগুলি এমবডিড ইন্টেলিজেন্স শিল্পকে এগিয়ে নিয়ে যাওয়ার ক্ষেত্রে কীভাবে কীভাবে গুরুত্বপূর্ণ ভূমিকা পালন করছে। প্রথম স্তরটি হল রিয়েল-টাইম ভয়েস মডেল, যা লো-ল্যাটেন্সি, হাই-ইমোশনাল-ইন্টেলিজেন্স রিপ্লাইগুলির জন্য দায়ী—আবহাওয়া জিজ্ঞাসা করা, কি পোশাক পরতে হবে তা জিজ্ঞাসা করা, এই স্তরটি সরাসরি প্রক্রিয়াকরণ করে; দ্বিতীয় স্তরটি হল ডিপ থিংকিং বড় মডেল, যা জটিল যুক্তি প্রক্রিয়াকরণ করে; তৃতীয় স্তরটি হলওয়ার্ল্ড মডেল, যা পদার্থবিদ্যার নিয়মগুলি বুঝতে পারে। "ভয়েসের ব্যবহারের সীমানা, ভিজুয়ালের সাথে একই পরিমাণে।" এটি তাঁর বর্তমানের সবচেয়ে নিশ্চিত দীর্ঘমেয়াদী বিশ্বাসগুলির মধ্যে একটি।

শি ই মনে করেন যে বর্তমান এআই ব্যবসায়িক মডেলটি কেবলমাত্র একটি অস্থায়ী রূপ। কারণ বর্তমানে সমস্ত এজেন্ট মূলত প্রতিক্রিয়ামূলক, আপনি যা বলেন, তাই করে, একটি নির্দেশ প্রতীক্ষারত কার্যকরী টুলের মতো, এটি এখনও চ্যাটবটের সাথে সদৃশ। তাই ব্যবসায়িক মডেলটি এখনও টোকেন খরচের ভিত্তিতে পেমেন্ট করা হয়, যতটা ব্যবহার করেন, ততটাই পরিশোধ করুন।

কিন্তু যখন এজেন্ট সক্রিয়ভাবে সেবা প্রদান শুরু করে, অর্থাৎ যখন আপনি এটিকে বলেন যে KPI কী এবং OKR কী, তখন এটি নিজেই কাজ খুঁজে বের করে, নিজেই পথ পরিকল্পনা করে এবং পরিমাপযোগ্য ফলাফল প্রদান করে। এই সময়ে, এটির জন্য মাপদণ্ড হয়ে ওঠে টুল নয়, বরং কর্মচারী। পরিষ্কারভাবে, কোম্পানি কর্মচারীর কতটা টাইপ করেছে বা কতগুলি ইমেইল পাঠিয়েছে তার ভিত্তিতে বেতন দেয় না, আপনি দেখেন যে সে কোন লক্ষ্যগুলি সম্পন্ন করেছে।

তাই তিনি মনে করেন যে এজেন্টিক যুগে প্রতিষ্ঠানের পেমেন্ট লজিকটি ফলাফল এবং কেপিআই-এর ভিত্তিতে পরিবর্তন করা উচিত। যখন এই পরিবর্তনটি প্রকৃতপক্ষে ঘটবে, তখন সমস্ত এজেন্ট পণ্যের মূল্যনির্ধারণ ব্যবস্থা, বিক্রয় পদ্ধতি এবং গ্রাহক সম্পর্ক পুনরায় লেখা হবে।

শিল্পের গভীরে নতুন ব্যবসায়িক মডেলের অন্বেষণ শুরু হয়েছে। সাম্প্রতিকভাবে 60 মিলিয়ন ডলারের B-টার্ম ফান্ডিং প্রাপ্ত AI আইনি প্রতিষ্ঠান Crosby প্রতিটি এজেন্টকে চুক্তি পরীক্ষার বিভিন্ন ধাপের দায়িত্ব দিয়েছে, যেমন পটভূমির তথ্য বের করা, সংশোধনের পরামর্শ দেওয়া, মন্তব্য তৈরি ইত্যাদি, এবং তারপর আইনজীবীদের দায়িত্ব হলো AI-এর কাজের ফলাফল পরীক্ষা করা, বাদ পড়া বিস্তারিতগুলি সমাধান করা এবং সঠিকতা নিশ্চিত করা। এর ব্যবসায়িক মডেলটি হলো যাচাইকৃত চুক্তির সংখ্যা অনুযায়ী চার্জ করা, যা 250 থেকে 1000 ডলারের মধ্যে, প্রায়শই পৃষ্ঠা সংখ্যা অনুযায়ী, প্রতি পৃষ্ঠায় 10 থেকে 50 ডলার।

কিন্তু পরবর্তী বাণিজ্যিক মডেলে বিকাশের পূর্বশর্ত হল সক্রিয় এজেন্টগুলি পরিমাপযোগ্য ফলাফল স্থিতিশীলভাবে প্রদান করতে পারা। 'এখনও সেই পর্যায়ে পৌঁছানো হয়নি।'

ফ্ল্যাশইন্টেল থেকে ফ্ল্যাশল্যাবসে, শিয়ি এক বছরের মধ্যে একটি স্পষ্ট খরচ সহ সংগঠন এবং পথ পরিবর্তন করেছেন। চাকরিচ্যুতি, পুরনো পণ্য আর্কিটেকচার বাতিল, বাণিজ্যিকীকরণের চাপ স্থায়ীভাবে কমিয়ে দেওয়া—এই সব পদক্ষেপ বাহিরের জন্য নিরন্তর বিয়োগ করার মতো মনে হচ্ছে।

কিন্তু এআই শিল্পের দ্রুত প্রগতির বাস্তবতার মধ্যে, এটি একটি স্টার্টআপের তীব্র পরিবর্তনের মধ্যে নিজেকে পুনরায় সমন্বয় করার মতো। মডেলের ক্ষমতা কয়েক মাসের মধ্যেই একটি বড় প্রগতি অর্জন করতে পারে, এবং ভবিষ্যতের দিকনির্দেশনা কেউই সম্পূর্ণভাবে পূর্বানুমান করতে পারে না। শি-ই এবং FlashLabs-এর জন্য, বর্তমান পর্যায়ের মূল লক্ষ্য হলো কতটা বাজার দখল করা নয়, বরং নিজেদের প্রযুক্তিগত বাছাই এবং ব্যবসায়িক যুক্তিকে পরবর্তী ঢেউয়ের দ্বারা সহজেই বিলুপ্ত হতে না দেওয়া।

শিল্পটি এখনও এজেন্টের প্রকৃত রূপ খুঁজছে, পেমেন্ট মডেল, নিরাপত্তা সীমানা এবং ইন্টারঅ্যাকশন মোডের চূড়ান্ত আকৃতি এখনও স্থির হয়নি। FlashLabs-এর বেছে নেওয়া পথটি অবশ্যই সর্বোত্তম সমাধান নয়, তবে এটি একটি বিশেষায়িত AI কোম্পানির বাস্তব বেঁচে থাকার পথকে প্রতিফলিত করে: বড় মডেলগুলির নিচের দিকে ধাবমান চাপের মধ্যে, প্রথমে একটি স্থিতিশীল অবস্থান খুঁজে বার করা, এবং তারপরে শিল্পটি প্রকৃতপক্ষে পরিণত হওয়ার জন্য অপেক্ষা করা।