জিপু এআই-এর ইঞ্জিনিয়ারিং অপ্টিমাইজেশন খরচ দক্ষতা এবং বাজারের আত্মবিশ্বাসকে প্রভাবিত করছে

মে দিবসের ছুটির পরের প্রথম ট্রেডিং দিনে, Zhipu এবং MiniMax উভয়ই পাগলের মতো বেড়েছে।

৫ মে, জিজিপু একাধিক ১০% বৃদ্ধি পায়, শেয়ার মূল্য আবার হাজার টাকার সীমানার কাছাকাছি চলে আসে, মিনিম্যাক্স ১২.৬২% বৃদ্ধি পেয়ে ৮০৩ হংকং ডলারে বন্ধ হয়।

মর্গান স্ট্যানলির রিপোর্ট অনুযায়ী, শেয়ার মূল্যের বিপুল বৃদ্ধির কারণ হল চীনের এআই-এর অনন্য “মূল্য-প্রতি-মূল্যের বর্ণনা”।

মর্গান স্ট্যানলির রিপোর্ট "চীনের এআই পথ: বেশি ব্যাং ফর দ্য বাক" এ বলা হয়েছে যে, ক্যালকুলেশন ক্ষমতা সীমাবদ্ধ থাকার পরিস্থিতিতে, মার্কিন এবং চীনা শীর্ষ মডেলগুলির বুদ্ধিমত্তা দ্রুত কাছাকাছি আসছে এবং পার্থক্য এখন 3 থেকে 6 মাসের মধ্যে সংকুচিত হয়েছে।

একইসাথে রিপোর্টটি উল্লেখ করে যে, চীনা মডেলগুলির প্রকৃত বৈশিষ্ট্য হল যে এগুলি মার্কিন সমকক্ষদের তুলনায় ১৫% থেকে ২০% কম ইনফারেন্স খরচে প্রায় একই স্তরের বুদ্ধিমত্তা অর্জন করে।

এই বাক্যটি বুঝতে খুব সহজ। সবাইকে অবশ্যই সবচেয়ে শক্তিশালী মডেল ব্যবহার করার দরকার নেই, কিন্তু বেশিরভাগ মানুষ সস্তা মডেল ব্যবহার করতে চায়।

বাজার শুধু একটি সাধারণ “স্থানীয় বিকল্প” গল্প কিনছে না, বরং চীনা AI যে মূল্য-কার্যকারিতা পরিণত করছে তা হল বাস্তব ব্যবহার, বাস্তব আয় এবং বাস্তব মূল্যায়নের নমনীয়তা।

কিন্তু এই মূল্য-প্রতি-পারফরম্যান্স কোথা থেকে আসছে?

যদি শুধুমাত্র কম দামে গ্রাহক আকর্ষণ করা হয়, তাহলে এটি শীঘ্রই দামের যুদ্ধে পরিণত হবে।

যদি শুধুমাত্র মডেল ডিস্টিলেশন হয়, তবে এখন Anthropic, OpenAI ইত্যাদি কোম্পানিগুলি ডিস্টিলেশনের পথ বন্ধ করে দিয়েছে, তাহলে রেটিং কমানো উচিত নয় কি, তবে এটি কেন বাড়ানো হল?

বাস্তবে, জিজং দ্বারা মেয়ের আগে প্রকাশিত টেকনিক্যাল ব্লগ, "স্কেলিং পেইন: সুপার-স্কেল কোডিং এজেন্ট রিজনিং প্র্যাকটিস" এই বর্ণনাকে আরও বিশ্বাসযোগ্য করে তোলে।

এই ব্লগ পোস্টটি বৃহৎ এজিআই দৃষ্টিভঙ্গির কথা বলে না, বরং KV ক্যাশ, থ্রুপুট, স্কিডিউলিং, অস্বাভাবিক আউটপুট এই নিচের স্তরের ইঞ্জিনিয়ারিংকে মার্কেটের সামনে প্রকাশ করে।

সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, এটি চীনা এআই-এর মূল্য-প্রতি-কার্যক্ষমতার পিছনের গোপন কথাটি উন্মোচন করে দিয়েছে।

01

এই ব্লগ পোস্টে, Zhipu বর্ণনা করেছে কিভাবে ক্যাশ অপ্টিমাইজেশন, স্কিডিউলিং এবং ব্যতিক্রম মনিটরিং করে একই GPU দিয়ে বেশি কাজ করা যায় এবং ভুল কমানো যায়।

জিচু আবিষ্কার করেছে যে, AI ব্যবহার করতে অসুবিধা হওয়ার কারণ শুধুমাত্র মডেলটি বুদ্ধিমান না হওয়া নয়, বরং ব্যাকএন্ড রানিং সিস্টেমটি খুবই বিশৃঙ্খল হতে পারে। এটি ক্যাশে ডেটা কনফ্লিক্টের সমস্যা সমাধান করেছে, GPU স্কিডিউলিং এবং ক্যাশে পুনর্ব্যবহারকে অপ্টিমাইজ করেছে, এবং অস্বাভাবিক আউটপুট আগে থেকেই শনাক্ত করার জন্য একটি অ্যালার্ম যোগ করেছে।

ফলাফল হলো, একই মডেল এবং একই GPU ব্যবহার করে আরও বেশি ব্যবহারকারীকে সার্ভ করা যায় এবং ভুলের সম্ভাবনা কমে যায়। তাই এর “মূল্য-পারফরম্যান্স গল্প” শুধুমাত্র মূল্য কমানো নয়, বরং প্রকৌশল অপ্টিমাইজেশনের মাধ্যমে প্রতিটি GPU থেকে আরও বেশি স্থিতিশীল এবং ব্যবহারযোগ্য কম্পিউটিং পাওয়ার টেনে আনা।

নিচের ইঞ্জিনিয়ারিং অপ্টিমাইজেশনের মাধ্যমে, GLM-5 সিরিজের কোডিং এজেন্ট স্কেনারিওতে সিস্টেম থ্রুপুট সর্বোচ্চ 132% বৃদ্ধি পেয়েছে এবং সিস্টেমের অস্বাভাবিক আউটপুট হার প্রায় দশহাজারে 10 থেকে দশহাজারে 3-এ কমেছে।

যেমন আগে একটি GPU প্রতি ঘন্টায় 100টি টাস্ক সার্ভ করত, এখন অপ্টিমাইজেশনের পর এটি সর্বোচ্চ 232টি টাস্ক সার্ভ করতে পারে।

প্রতিটি বিষয়কে একা দেখলে এটি বিজয় নির্ধারণের জন্য যথেষ্ট নয়। কিন্তু এগুলো একসাথে জমা হলে, সমান ক্ষমতার তুলনায় দ্বিগুণ থ্রুপুট এবং এক ধাপের বেশি স্থিতিশীলতার উন্নতি পাওয়া যায়।

মডেলটি পরিবর্তিত হয়নি। পরিবর্তিত হয়েছে মডেলটিকে "ব্যবহার" করার পদ্ধতি।

বিশদভাবে বলা যায়, মার্চ থেকে, জিজিপু গ্লিম-5-এর অনলাইন মনিটরিং এবং ব্যবহারকারীর প্রতিক্রিয়ায় তিনটি অস্বাভাবিক ঘটনা লক্ষ্য করেছে: বিকৃত অক্ষর, পুনরাবৃত্তি, এবং দুর্লভ অক্ষর। এই ঘটনাগুলি পৃষ্ঠতলে দীর্ঘ প্রসঙ্গের পরিস্থিতিতে সাধারণত দেখা যাওয়া “বুদ্ধির হ্রাস”-এর সমান।

কিন্তু জিজ্ঞাপ দল কোনো মডেল প্রেসিশন হ্রাসকারী অপ্টিমাইজেশন চালু করেননি। সেই অস্বাভাবিকতা কি মডেলের নিজস্ব কারণে, নাকি ইনফারেন্স লিঙ্কের কারণে?

পুনঃপুনঃ বিশ্লেষণ এবং লগ যুক্তিকরণের পর, তারা একটি অপ্রত্যাশিত প্রবেশদ্বার খুঁজে পায়: স্পেকুলেটিভ স্যাম্পলিং ইন্ডিকেটরকে অসামান্যতা শনাক্তকরণের জন্য একটি রেফারেন্স সিগন্যাল হিসাবে ব্যবহার করা যেতে পারে।

স্পেকুলেটিভ স্যাম্পলিং মূলত একটি পারফরম্যান্স অপ্টিমাইজেশন টেকনিক ছিল। প্রথমে ড্রাফট মডেল দ্বারা ক্যান্ডিডেট টোকেন জেনারেট করা হয়, তারপর টার্গেট মডেল দ্বারা যাচাই করা হয় এবং গ্রহণ করা হবে কিনা তা নির্ধারণ করা হয়, যার ফলে চূড়ান্ত আউটপুট ডিস্ট্রিবিউশনকে পরিবর্তন না করে ডিকোডিং দক্ষতা বৃদ্ধি পায়।

ছোট মডেল প্রথমে দ্রুত কিছু উত্তর তৈরি করে, তারপর বড় মডেল সঠিকটি বাছাই করে, যাতে এটি দ্রুত এবং সঠিক হয়।

চিগ্লু দল পায় যে, অস্বাভাবিকতা ঘটলে স্পেকুলেটিভ স্যাম্পলিংয়ের দুটি মেট্রিক্স স্থির প্যাটার্ন দেখায়। তাই তারা স্পেকুলেটিভ স্যাম্পলিংকে শুধুমাত্র পারফরম্যান্স অপ্টিমাইজেশন থেকে আউটপুট কোয়ালিটির রিয়েল-টাইম মনিটরিং সিগন্যালে পরিণত করে।

যখন spec_accept_length ধারাবাহিকভাবে 1.4 এর নিচে থাকে এবং জেনারেটেড লেন্থ 128 টোকেনের বেশি হয়, অথবা spec_accept_rate 0.96 এর বেশি হয়, তখন সিস্টেম বর্তমান জেনারেশন সক্রিয়ভাবে বন্ধ করে অনুরোধটি লোড ব্যালেন্সারের কাছে পুনরায় প্রেরণ করে।

এই দুটি সংখ্যা যেন শারীরিক পরীক্ষার সূচক, যখন এগুলি অস্বাভাবিক হয়, তখন মডেলটি "অসুস্থ" হয়ে যায় এবং পুনরায় শুরু করে চিকিৎসা করা প্রয়োজন।

ব্যবহারকারী এই প্রক্রিয়াটি অনুভব করেননি, তবে ব্যাকএন্ডে এই পুনরায় শুরুটি সম্পন্ন হয়েছে।

অস্বাভাবিকতার মূল কারণ হল KV Cache পুনঃব্যবহারের সংঘাত।

এটি ঠিক যেন রান্নাঘর, খাবারের সময়ের চূড়ান্ত সময়ে অনেকে একসাথে অর্ডার দিতে আসে।

সিস্টেমকে প্রতিটি ব্যবহারকারীর কনটেক্সট, অর্থাৎ KV Cache অস্থায়ীভাবে সংরক্ষণ করতে হবে। এই টেবিলের গ্রাহকরা আগে কী অর্ডার করেছিলেন, কম মরিচ চান নাকি ধনিয়া বাদ দিতে চান। এক-দুইজন গ্রাহকের জন্য তো সমস্যা নেই, কিন্তু গ্রাহকদের সংখ্যা বাড়লে ওয়েটারদের ভুল করা সহজ।

মিনিম্যাক্স

উচ্চ সমান্তরালতার সময়, কিছু ক্যাশ পুনর্ব্যবহার, পুনরুদ্ধার বা পড়ার ক্রম বিকল্প হয়ে যায়। ফলে মডেলটি ভুল কনটেক্সট নিলে এটি অবিবেকী, পুনরাবৃত্তি বা অপরিচিত অক্ষর উত্পাদন করতে পারে।

রিজনিং ইঞ্জিনে, পিডি সেপারেশন আর্কিটেকচারের অধীনে, অনুরোধের লাইফসাইকেল এবং কেভ ক্যাশ রিসাইকেল ও পুনর্ব্যবহারের টাইমিংয়ের মধ্যে অসামঞ্জস্যতা রয়েছে। যখন সমান্তরাল চাপ বাড়ে, তখন সংঘর্ষ বৃদ্ধি পায়, যা ব্যবহারকারীর পক্ষে বিকৃত টেক্সট এবং পুনরাবৃত্তি হিসাবে প্রকাশ পায়।

একাধিক অনুরোধ একসাথে একটি মেমোরি ব্লক দখল করার চেষ্টা করে, ফলে ডেটা বিকৃত হয়ে যায় এবং ব্যবহারকারীরা অপরিষ্কার কোড দেখেন।

চিগ্ল দল এই বাগটি শনাক্ত করেছে এবং এটি ঠিক করেছে।

এছাড়াও, তারা মুখ্যধারার ওপেন-সোর্স ইনফারেন্স ফ্রেমওয়ার্ক SGLang-এর সোর্স কোড লেভেলে হাইক্যাশ মডিউলের লোডিং টাইমিং হ্রাস সমস্যা, অর্থাৎ read-before-ready খুঁজে পেয়েছে এবং এটি ঠিক করেছে।

সমাধানটি পুল রিকোয়েস্ট #22811 এর মাধ্যমে SGLang সম্প্রদায়ে জমা দেওয়া হয়েছিল এবং গ্রহণ করা হয়েছিল।

SGLang একটি ওপেন-সোর্স প্রকল্প, যার পূর্ণ নাম বুঝা যায় একটি বড় ভাষা মডেলের জন্য ইনফারেন্স/সার্ভিস ফ্রেমওয়ার্ক হিসেবে। এটি একটি বড় মডেল নয়, আবার কোনো AI কোম্পানি নয়, বরং একটি বেসিক সফটওয়্যার সেট যা বড় মডেলগুলিকে দক্ষতার সাথে চালানোর জন্য তৈরি।

সিজ়ু এসজিল্যাঙ্গ ওপেন-সোর্স ইনফারেন্স ফ্রেমওয়ার্ক ব্যবহার করার সময় একটি হাই-কনকারেন্সি ক্যাশ বাগ আবিষ্কার করেছে।

এটি শুধুমাত্র নিজের ভিতরে ঠিক করেনি, জিজ্ঞাপ এছাড়াও সংশোধন কোডটি ওপেন সোর্স প্রকল্প SGLang-এ জমা দিয়েছে।

প্রকল্প মেইন্টেইনার দ্বারা পরীক্ষা ও গ্রহণ করে এটি একীভূত করা হয়। তাই, এই সংশোধনটি পাবলিক ভার্সনে যোগ করা হয়, যার ফলে পরবর্তীতে SGLang ব্যবহারকারী অন্যান্য ডেভেলপার এবং কোম্পানিগুলি এটি ব্যবহার করতে পারবে।

এটার অর্থ কী?

যদি কুয়েনের কোনো ডিপ্লয়মেন্ট লাইনে SGLang+HiCache ব্যবহার করা হয়, তাহলে আলিবাবাও জিজ্ঞাপ দ্বারা এই সমস্যাটি আবিষ্কার ও সমাধান করার কারণে লাভবান হবে।

আগের কথাটাই আবার বলছি, মডেলটি অপরিবর্তিত রয়েছে, কিন্তু ইঞ্জিনিয়ারিং অপ্টিমাইজেশনের মাধ্যমে এটিকে ব্যবহার করার সময় আরও বুদ্ধিমানের মতো করে তোলা হয়েছে।

02

চিপু এই ব্লগটি যা সত্যিকার অর্থে ফাঁস করেছে, তা একটি গভীরতর স্তর।

চ্যাটবটের সময়ের সস্তাপনা প্রধানত প্রশিক্ষণ খরচ কম হওয়ার কারণে, যার একটি অংশ শীর্ষস্থানীয় মডেলগুলির থেকে ডিসিলেশন থেকে আসে।

এজেন্ট যুগে, এই পদ্ধতি কাজ করে না।

এই বছর প্রতিটি সময়ে, Anthropic এবং OpenAI ধীরে ধীরে ডিসিলেশন এন্ট্রি বন্ধ করে দিয়েছে এবং তাদের মডেলের আউটপুট ব্যবহার করে প্রতিদ্বন্দ্বী মডেল ট্রেন করার কথা স্পষ্টভাবে নিষেধ করেছে। ডিসিলেশনের মাধ্যমে চালাকির পথটি ধীরে ধীরে বন্ধ হয়ে আসছে।

কিন্তু চীনা এআই কোম্পানিগুলির মূল্য-প্রতি-পারফরম্যান্স বর্ণনা দুর্বল হয়নি, বরং বাজার এই গল্পের জন্য আরও বেশি যোগ করছে।

কারণ হলো, মূল্য-প্রতি-পারফরম্যান্সের সংজ্ঞা পরিবর্তিত হয়েছে।

চ্যাটবট যুগে, গড় প্রসঙ্গ 55K টোকেন, একক সংলাপ, কম সমান্তরালতা।

এজেন্ট যুগে, গড় কনটেক্সট 70K+ টোকেন, দীর্ঘস্থায়ী কাজ (8 ঘন্টার স্তর), উচ্চ সমান্তরালতা, উচ্চ প্রিফিক্স পুনর্ব্যবহার।

চ্যাটবট যুগে, এআই-এর মূল্য প্রতি কার্যক্ষমতার পরিমাপ খুব সরল। একই প্রশ্ন করলে, কার মডেলটি সস্তা এবং কার উত্তরটি প্রথম স্তরের মানের কাছাকাছি।

শিল্পটি প্রতি মিলিয়ন টোকেনের দাম, মডেলের প্যারামিটারের আকার এবং র‍্যাঙ্কিংয়ের ফলাফল নিয়ে আলোচনা করছে।

এজেন্ট যুগে, কেউ এটি জিজ্ঞাসা করেনি, এই অ্যালগরিদম অকার্যকর হয়ে গেছে।

ব্যবহারকারী শুধু একটি উত্তর কিনছেন না। তিনি একটি সম্পূর্ণ কাজের ফলাফল কিনছেন।

একটি কোডিং এজেন্ট কোড পড়ে, প্রেক্ষাপট বুঝে, ধাপগুলি পরিকল্পনা করে, টুলগুলি কল করে, ফাইলগুলি সংশোধন করে, টেস্ট চালায় এবং ব্যর্থ হলে পুনরায় চেষ্টা করে। এটি যে টোকেনগুলি খরচ করে, তা একবারের প্রশ্ন-উত্তরের বৃদ্ধি নয়, বরং একটি কাজের প্রবাহের মোট খাতা।

ওপেনরাউটার বিশ্বের সবচেয়ে বড় কল প্ল্যাটফর্ম হিসাবে, 2026 সালের জানুয়ারির প্রথম সপ্তাহে 6.4 ট্রিলিয়ন টোকেন থেকে শুরু করে 9 ফেব্রুয়ারির সপ্তাহে 13 ট্রিলিয়ন টোকেনে পৌঁছায়, এক মাসের মধ্যে এটি দ্বিগুণ হয়েছে।

অপেনরাউটারের অফিসিয়াল বিবৃতি অনুযায়ী, 100K থেকে 1M দীর্ঘ টেক্সট ইন্টারভালের ইনক্রিমেন্টাল কল ডিমান্ড হল এজেন্ট ওয়ার্কফ্লোর টাইপিক্যাল কনজুমপশন সিনারিও।

ব্যবহারকারীরা AI-এর ব্যবহার প্যাটার্ন পরিবর্তন করেছেন, যা এখন "কথোপকথন-ভিত্তিক" থেকে "প্রক্রিয়া-ভিত্তিক" এ স্থানান্তরিত হয়েছে। তাই, AI-এর মূল্য-প্রতি-দক্ষতার এককও "টোকেন প্রতি মূল্য" থেকে "কাজ প্রতি মূল্য" এ পরিবর্তিত হয়েছে।

এর ফলে, কিছু মডেলের টোকেন সস্তা হয়, কিন্তু মডেলের পারফরম্যান্স খারাপ হওয়ায় এটি কাজ সম্পন্ন করতে বারবার ব্যর্থ হয় বা কাজের ফলাফল প্রত্যাশিত মানদণ্ড পূরণ করে না, যার ফলে এর এজেন্টের দাম সস্তা হয় না।

উদাহরণস্বরূপ, একটি 8 ঘন্টার কোডিং টাস্কের মধ্যে শুধু একবার কোড বিকৃত হলেই সম্পূর্ণ ওয়ার্কফ্লো পুনরায় শুরু করতে হতে পারে। সঞ্চয় করা টোকেনের একক মূল্য ব্যয় হওয়া সময়ের পূরণ করতে পারে না।

চীনা এআইয়ের মূল্য-প্রতি-অনুপাত বর্ণনা উন্নতি পাচ্ছে।

আগে বলা হয়েছিল, "একই মানের উত্তর দিচ্ছি, আমি সস্তা।" এখন বলা হচ্ছে, "একই জটিলতার কাজ, আমি কম খরচে শেষ করতে পারি।"

খোলা সোর্স ইনফ্রাস্ট্রাকচারও চীনের এআই-এর জন্য একটি নতুন প্রতিরক্ষা বেষ্টনী হয়ে উঠছে।

উল্লিখিত SGLang এই রকম। চীনা AI-এর ইঞ্জিনিয়ারিং ক্ষমতা এখন আপস্ট্রিম সম্প্রদায়ের দিকে ছড়িয়ে পড়ছে।

এই ঘটনার মূল্য শুধু জিজিপু একটি বাগ ঠিক করার মধ্যে সীমাবদ্ধ নয়, বরং চীনা এআই কোম্পানিগুলি বাস্তব ব্যবসায়িক পরিস্থিতিতে উচ্চ সমান্তরালতা, দীর্ঘ কনটেক্সট এবং এজেন্ট কলের সমস্যাগুলিকে প্রতিফলিত করে সাধারণ অবকাঠামোর ক্ষমতায় রূপান্তরিত করছে।

যেমন আগের আলোচনায় উল্লেখ করা হয়েছে, যখন একটি সংশোধন SGLang এর মতো ওপেন-সোর্স ফ্রেমওয়ার্কে যোগ করা হয়, তখন এটি শুধুমাত্র জিজিয়াংয়ের নিজস্ব মডেলগুলিকেই সেবা করে না। এই ফ্রেমওয়ার্ক ব্যবহার করে বড় মডেলগুলি ডিপ্লয় করা সমস্ত টিমগুলির জন্য আরও স্থিতিশীল ক্যাশ, কম ইনফারেন্স খরচ এবং ভালো এজেন্ট অভিজ্ঞতা পাওয়ার সুযোগ থাকে।

মডেলের ক্ষমতা অনুসরণ করা যায়, মূল্য কমানো যায়, কিন্তু প্রতিষ্ঠান যদি ওপেন-সোর্স ইকোসিস্টেমে প্রবেশ করে, তবে এটি মান, ইন্টারফেস এবং ডেভেলপমেন্ট অভ্যাসে পরিণত হয়।

যে ব্যক্তি তার ইঞ্জিনিয়ারিং অভিজ্ঞতা এই অধোস্তল সিস্টেমগুলিতে আগে যোগ করেছে, সেই ব্যক্তি পরবর্তী এআই অ্যাপ্লিকেশন বিস্ফোরণে অবস্থান দখল করতে সহজেই সক্ষম হবে।

03

ক্যাপিটাল মার্কেটে ফিরে আসুন।

এআই বড় মডেলের স্টকগুলি সমস্ত উচ্চতর হয়েছে, ক্যাপিটাল কি এআই কোম্পানিগুলিকে পুনরায় মূল্যায়ন করতে প্রস্তুত? বাজার কি কিনছে?

উত্তরটি হল, বাজার ক্যাপিটাল এখন “চীনা এআই কোম্পানিগুলি কম রিজনিং খরচে শীর্ষ স্তরের বুদ্ধিমত্তা অর্জন করতে পারে” এই বর্ণনাকে সমর্থন করছে।

OpenRouter-এর ডেটা দিয়েই বলা যাক।

2025 এপ্রিলে চীনের শীর্ষ AI কোম্পানিগুলির টোকেন ব্যবহারের শেয়ার 5% থেকে 2026 মার্চে দ্রুত বেড়ে হয়েছে 32%। মার্কিন শীর্ষ মডেলের শেয়ার 58% থেকে হ্রাস পেয়েছে 19%।

2026 সালের ফেব্রুয়ারি-মার্চে মিনিম্যাক্স, জিজ্ঞাপ, এবং আলিবাবার টোকেন ব্যবহার গত ডিসেম্বরের তুলনায় 4-6 গুণ বৃদ্ধি পেয়েছে।

টোকেন কলের বাইরে, চীনা এআই একটি সম্পূর্ণ ভিন্ন বৈদেশিক বড় প্রতিষ্ঠানের বৃদ্ধির যুক্তি গড়ে তুলছে।

বিদেশি শীর্ষ মডেলগুলি "ক্ষমতার প্রিমিয়াম" বিক্রি করছে।

যত বেশি মডেলের ক্ষমতা, তত বেশি একবার কলের খরচ, ব্যবহারকারীরা সবচেয়ে শক্তিশালী বুদ্ধিমত্তার জন্য প্রিমিয়াম প্রদান করেন। Claude, GPT-5, Gemini সবগুলোই এই দিকে এগিয়ে যাচ্ছে।

চীনা এআই ইঞ্জিনিয়ারিং বিক্রি করছে।

মডেলের ক্ষমতা শীর্ষস্থানীয় মডেলের কাছাকাছি, কিন্তু মূল্য, ল্যাটেন্সি এবং কল প্রবেশাধিকার কম, যা বেশিরভাগ হাই-ফ্রিকোয়েন্সি স্কেনারিওর প্রয়োজনীয়তার সাথে বেশি মেলে।

মর্গান স্ট্যানলির রিপোর্টে উল্লেখ করা হয়েছে যে চীনা মডেলের ইনপুট মূল্য প্রায় 0.3 ডলার/মিলিয়ন টোকেন, যেখানে কিছু বিদেশী সমতুল্য পণ্যের মূল্য প্রায় 5 ডলার। এর মধ্যে দশগুণেরও বেশি পার্থক্য রয়েছে।

যখন এআই শুধুমাত্র পরীক্ষামূলক টুল থেকে উৎপাদনশীল টুলে পরিণত হয়, তখন মূল্য-প্রতি-কার্যক্ষমতা সরাসরি কলের ফ্রিকোয়েন্সি নির্ধারণ করে।

মডেলটি যত সস্তা, কোম্পানিগুলি তত বেশি কাস্টমার সাপোর্ট, কোডিং, মার্কেটিং এবং ডেটা বিশ্লেষণের কাজ এটির উপর দিয়ে দেবে। যত বেশি কাজ চলবে, তত বেশি টোকেন খরচ হবে, যার ফলে প্ল্যাটফর্মটি তার অবকাঠামোর খরচ কমিয়ে ফেলতে পারবে।

মিনিম্যাক্স

আমি মনে করি এই পর্যায়ে এটি একটি ফ্লাইউইল গঠনের সম্ভাবনা রাখে।

প্রথম পর্যায়ে, ডেভেলপার এবং কোম্পানিগুলিকে আকর্ষণ করার জন্য কম API মূল্য এবং প্রথম লাইনের ক্ষমতা ব্যবহার করা হয়।

দ্বিতীয় চক্রে, বেশি কল ব্যবহার আরও বাস্তবিক পরিস্থিতি আনবে, যা মডেল এবং ইনফারেন্স সিস্টেমকে আরও উন্নত করার জন্য প্রেরণা দেবে।

তৃতীয় পর্যায়, যা জিজ্ঞাপ এই প্রযুক্তিগত ব্লগে বর্ণনা করা হয়েছে, যেখানে প্রকৌশল অপ্টিমাইজেশন ব্যবহার করে ইউনিট টোকেন এবং ইউনিট টাস্ক খরচ কমানো হয়, যাতে প্রস্তুতকারকরা আরও কম দামে, বেশি পরিমাণে, বা উচ্চ-মূল্যের স্কেনারিওতে দাম বাড়ানোর ক্ষমতা রাখে।

চতুর্থ পর্যায়ে, যখন টোকেন ব্যয় হয়ে উঠবে এআই যুগের নতুন ট্রাফিক, তখন যে কেউ কম খরচে বেশি টোকেন বহন করতে পারবে, সেই কোম্পানিই পরবর্তী পর্যায়ের প্ল্যাটফর্ম-ভিত্তিক কোম্পানির দিকে আরও কাছাকাছি যাবে।

যদি শুধুমাত্র মডেলের দাম কমে, তাহলে বাজার চিন্তা করবে যে এটি সাবসিডি এবং মূল্য যুদ্ধ, যা ক্রমাগত ব্যয়বহুল হচ্ছে, এবং শেষপর্যন্ত কারও ওয়ালেট এটি সহ্য করতে পারবে না।

এছাড়াও, মূল্য যুদ্ধ উচ্চ মূল্যায়নকে সমর্থন করতে পারে না।

কিন্তু যদি দাম কমানোর পেছনে থ্রুপুট বৃদ্ধি, ক্যাশে পুনর্ব্যবহার, ত্রুটি হার হ্রাস এবং স্কেডিউলিং দক্ষতা বৃদ্ধি থাকে, তবে কম দাম লাভ বলি দিয়ে বৃদ্ধির বিনিময়ে নয়, বরং ইঞ্জিনিয়ারিং ক্ষমতা দ্বারা মুক্ত হওয়া খরচের স্থান।

মূল্য যুদ্ধ এবং এই প্রকৌশল অপ্টিমাইজেশনের ফলাফল, যদিও উভয়ই মডেলকে কম খরচে তৈরি করে, এবং ফিন্যানশিয়াল রিপোর্টে এটি প্রায় একই মনে হতে পারে, তবে ভ্যালুয়েশন মডেলে এটি অনেক দূরে।

প্রথমটি সাবসিডি, যার জন্য বাজার ডিসকাউন্ট দেবে। দ্বিতীয়টি ইঞ্জিনিয়ারিং বাধা, যার জন্য বাজার প্রিমিয়াম দেবে।

শেষে একটি বিচারে পৌঁছানো যায়।

গতকাল এআই কোম্পানিগুলির মূল্যায়ন করা হত মডেলের ক্ষমতার সর্বোচ্চ সীমা এবং কে এগিএআই-এর সবচেয়ে কাছাকাছি পৌঁছাচ্ছে তার উপর। তখন বাজার “সবচেয়ে শক্তিশালী বুদ্ধিমত্তা”-এর জন্য পেমেন্ট করছিল, যার সংজ্ঞা ধীরে ধীরে অস্পষ্ট হয়ে পড়ছিল এবং প্রতিটি কলের খরচ বাড়ছিল।

এখন এজেন্ট যুগে, মূল্যায়নের জন্য খরচের নিম্নসীমা দেখতে হবে। কে বুদ্ধিমান, স্থিতিশীল, সস্তা এবং বড় পরিসরে প্রদান করতে পারে তা দেখুন।

সবচেয়ে উন্নত "বুদ্ধিমত্তা" খোঁজার জন্য, এটি চীনা এআইয়ের শক্তির বাইরে হতে পারে।

তবে চীনা এআই হল সেই সবচেয়ে বেশি সম্ভাবনাবিশিষ্ট প্রযুক্তি যা “বুদ্ধিমত্তা” শব্দদুটিকে সবার জন্য এবং সব কোম্পানির জন্য প্রযোজ্য অবকাঠামোতে পরিণত করবে।

কিন্তু বাজার শুধুমাত্র তাদের কাছে প্রতিদান করে যারা নিজেদের যুক্তি স্পষ্টভাবে ব্যাখ্যা করতে পারে।

এই পোস্টটি ওয়েইচ্যাট গ্রুপ "অক্ষর ব্যাংক" (ID: wujicaijing) থেকে এসেছে, লেখক: মিয়াও জেং