আপনার কম্পিউটারে কৃত্রিম বুদ্ধিমত্তা মডেল চালানো ভালো—কিন্তু সবসময় এটি সম্ভব নয়।
গোপনীয়তা সুরক্ষা, কোনো সাবস্ক্রিপশন ফি ছাড়া, এবং ডেটা আপনার ডিভাইস থেকে বাইরে যায় না এর প্রতিশ্রুতি দেওয়া হয়েছে। কিন্তু বেশিরভাগ মানুষের জন্য, বাস্তবতা হলো, বাক্যের মধ্যে, কার্সর পাঁচ সেকেন্ড জ্বলজ্বল করে।
এই বাধার একটি নাম আছে: ইনফারেন্স স্পিড। এটি মডেলের বুদ্ধিমত্তার সাথে সম্পর্কিত নয়, বরং একটি হার্ডওয়্যার সমস্যা। স্ট্যান্ডার্ড AI মডেলগুলি প্রতিবার একটি শব্দ টুকরো (যা “টোকেন” নামে পরিচিত) তৈরি করে, এবং প্রতিটি টোকেন তৈরির জন্য হার্ডওয়্যারকে মেমোরি থেকে বিলিয়ন বিলিয়ন প্যারামিটার কম্পিউটেশনাল ইউনিটে পাঠাতে হয়। এই ডিজাইনটি নিজেই খুব ধীর। কনজিউমার-লেভেল হার্ডওয়্যারে, এটি অসহনীয়।
অধিকাংশ মানুষ ছোট আকারের, কম ক্ষমতাসম্পন্ন মডেল বা অত্যন্ত সংকুচিত সংস্করণ, যাকে কোয়ান্টাইজড মডেল বলা হয়, চালানোর উপায় অবলম্বন করে। এই দুটি পদ্ধতিই আদর্শ নয়; এগুলো গতির জন্য কিছুটা মান ত্যাগ করে। যদিও এগুলো চালানো যায়, তবে এগুলো আপনার প্রকৃতপক্ষে যে মডেলটি চান, তার মতো নয়।
এখন গুগল একটি ভিন্ন প্রস্তাব দিয়েছে। কোম্পানিটি তার Gemma 4 পরিবার ওপেন মডেল টেকনোলজির জন্য মাল্টি-টোকেন প্রেডিকশন (MTP) ড্রাফটার প্রকাশ করেছে—এই টেকনোলজি মডেলের গুণগত মান বা ইনফারেন্স ক্ষমতাকে পুরোপুরি প্রভাবিত না করে 3 গুণ পর্যন্ত গতি বৃদ্ধি করতে পারে।
এই পদ্ধতিটিকে অনুমানমূলক ডিকোডিং বলা হয়, যার ধারণা বছরের পর বছর বিদ্যমান। গুগলের গবেষকরা ২০২২ সালেই এই মৌলিক পেপারটি প্রকাশ করেছিলেন। এখনও এই ধারণাটি মূলধারার দ্বারা গ্রহণযোগ্য হয়েছে, কারণ এটি বড় পরিসরে চালানোর জন্য উপযুক্ত আর্কিটেকচারের প্রয়োজন।
সংক্ষেপে, এটি কাজ করে এভাবে: সমস্ত কাজ একা একটি শক্তিশালী বড় মডেলের উপর ছেড়ে দেওয়ার পরিবর্তে, এটিকে একটি ছোট “প্রেডিক্টর” মডেলের সাথে মিশিয়ে দিন। প্রেডিক্টরটি দ্রুত এবং কম খরচের—এটি একসাথে একাধিক টোকেন পূর্বানুমান করতে পারে, যা মূল মডেলের একটি টোকেন উত্পাদনের চেয়েও কম সময় নেয়। তারপর, বড় মডেলটি শুধুমাত্র একবার সমস্ত পূর্বানুমানগুলি পরীক্ষা করবে। যদি পূর্বানুমানগুলি সঠিক হয়, তবে সম্পূর্ণ সিকোয়েন্সটি পাওয়ার জন্য শুধুমাত্র একবার ফরওয়ার্ড পাসের খরচই লাগবে।
গুগলের মতে“যদি লক্ষ্য মডেল এই খসড়াকে সম্মতি জানায়, তবে এটি একটি ফরওয়ার্ড পাসে সম্পূর্ণ সিকোয়েন্সটি গ্রহণ করবে—এমনকি এর মধ্যে নিজের অতিরিক্ত টোকেন তৈরি করবে।”
কোনো ক্ষতি নেই: বড় মডেলগুলি—যেমন Gemma 4-এর 31 বিলিয়ন ঘন সংস্করণ—এখনও প্রতিটি টোকেন যাচাই করে, এবং আউটপুটের গুণমানও সম্পূর্ণ একই থাকে। আপনি শুধুমাত্র ধীরগতির অংশগুলিতে অব্যবহৃত গণনা ক্ষমতা ব্যবহার করছেন।
গুগল বলেছে যে, স্কেচ ড্রয়িং মডেল এবং টার্গেট মডেল কী-ভ্যালু ক্যাশ (KV ক্যাশ) শেয়ার করে, যা একটি মেমোরি স্ট্রাকচার যা প্রসেস করা কনটেক্সট সংরক্ষণ করে, তাই তারা বড় মডেলের জানা তথ্য পুনরায় গণনা করার সময় ব্যয় করে না। মোবাইল এবং রাস্পবেরি পাই ডিভাইসের জন্য ডিজাইন করা ছোট এজ মডেলের জন্য, টিম এমন একটি দক্ষ ক্লাস্টারিং প্রযুক্তি তৈরি করেছে যা উত্পাদনের সময় আরও কমিয়ে দেয়।
এটি সম song সংক্ষেপে টেক্সট জেনারেশনে কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে একমাত্র প্রচেষ্টা নয়। ডিফিউশন-ভিত্তিক ভাষা মডেল—যেমন Inception Labs-এর Mercury—একটি সম্পূর্ণ ভিন্ন পদ্ধতি ব্যবহার করে: এগুলি একবারে একটি টোকেন পূর্বানুমান করে না, বরং শব্দ দিয়ে শুরু করে সম্পূর্ণ আউটপুটকে পুনরাবৃত্তভাবে অপ্টিমাইজ করে। তাত্ত্বিকভাবে এগুলি দ্রুত, কিন্তু ডিফিউশন ভাষা মডেলগুলির গুণগত দিক থেকে প্রচলিত Transformer মডেলগুলির সঙ্গে প্রতিযোগিতা করা কঠিন, তাই এগুলি বেশিরভাগই গবেষণার বিষয় হিসাবেই বিবেচিত হয়, প্রায়োগিক টুল হিসাবে নয়।
প্রেক্ষাপটে ডিকোডিং ভিন্ন কারণ এটি মূল মডেলকে কোনোভাবেই পরিবর্তন করে না। এটি একটি সার্ভিস অপ্টিমাইজেশন, আর্কিটেকচার প্রতিস্থাপন নয়। আপনি যে Gemma 4 ভার্সনটি চালাচ্ছিলেন, সেটি আরও দ্রুত হয়ে যাবে।
বাস্তব প্রভাব প্রকৃতপক্ষে উল্লেখযোগ্য। গুগলের নিজস্ব বেঞ্চমার্ক অনুযায়ী, Nvidia RTX Pro 6000 ডেস্কটপ GPU-এর উপর চলমান Gemma 4 26B চিপে MTP ড্রাফ্ট সক্ষম করার পরে, প্রতি সেকেন্ডে টোকেন প্রসেসিং প্রায় দ্বিগুণ হয়ে যায়। Apple Silicon চিপে, 4 থেকে 8 অনুরোধের ব্যাচ আকার প্রায় 2.2 গুণ গতির উন্নতি আনে। যদিও সমস্ত পরিস্থিতিতেই 3 গুণের সর্বোচ্চ সীমা অর্জন করা যায় না, তবুও এটি “কষ্টসাধ্য” এবং “যথেষ্ট দ্রুত, যাতে ব্যবহারযোগ্য”-এর মধ্যে উল্লেখযোগ্য পার্থক্য।
প্রেক্ষাপটটি গুরুত্বপূর্ণ। যখন চীনা মডেল DeepSeek 2025 সালের জানুয়ারিতে বাজারকে আঘাত করেছিল।—একদিনে নভেডিয়ার বাজেট 600 বিলিয়ন ডলার হারিয়েছিল—এর মূল শিক্ষা হল: কেবলমাত্র গণনা ক্ষমতা বাড়ানোর চেয়ে দক্ষতা বৃদ্ধির প্রভাব বেশি। হার্ডওয়্যারের উপর বেশি বিনিয়োগের চেয়ে বুদ্ধিমত্তাপূর্ণভাবে চালানোই ভালো। গুগলের MTP গ্রাফিক্স টুলটি এই দিকে আরও একটি পদক্ষেপ, যদিও এর লক্ষ্যগ্রাহীদের পরিষ্কারভাবে ভোক্তা।
বর্তমানে সম্পূর্ণ কৃত্রিম বুদ্ধিমত্তা শিল্প একটি ত্রিভুজের মতো, যা উপসংহার, প্রশিক্ষণ এবং মেমোরি এই তিনটি অংশ দ্বারা গঠিত। এই কোনো একটি ক্ষেত্রের উত্কর্ষ সম্পূর্ণ পরিবেশের উপর প্রভাব বা আঘাত ফেলবে। DeepSeek-এর প্রশিক্ষণ পদ্ধতি (কম খরচের হার্ডওয়্যার ব্যবহার করে শক্তিশালী মডেল তৈরি) একটি উদাহরণ, এবং গুগলের TurboQuant (গুণগত মান কমানোর ছাড়াই কৃত্রিম বুদ্ধিমত্তার মেমোরি কমানো) অন্যটি। এই দুটি পেপারই বাজারের পতনের কারণ হয়েছে, কারণ প্রতিটি কোম্পানি এর জন্য প্রতিক্রিয়া খুঁজছে।
গুগল বলেছে যে এই চিত্রকল্পটি “প্রতিক্রিয়া গতি বাড়াবে: প্রায়-বাস্তব সময়ের চ্যাট, অনুভূতিমূলক ভয়েস অ্যাপ্লিকেশন এবং এজেন্ট ওয়ার্কফ্লোর ল্যাটেন্সি উল্লেখযোগ্যভাবে কমিয়ে দেবে” — এই ধরনের কাজগুলির জন্য কম ল্যাটেন্সি প্রয়োজন।
অ্যাপ্লিকেশন স্কেনারিও দ্রুত ও স্পষ্ট: একটি দেরি ছাড়া স্থানীয় কোড সহায়ক; একটি ভয়েস ইন্টারফেস যা আপনি আপনার প্রশ্নটি ভুলে যাওয়ার আগেই প্রতিক্রিয়া দেয়; একটি স্মার্ট ওয়ার্কফ্লো যা তিন সেকেন্ড অপেক্ষা না করেই ধাপগুলি সম্পন্ন করে। এই সবকিছুই আপনার বিদ্যমান হার্ডওয়্যারের উপর অর্জন করা যায়।
MTP প্রস্তাব এখন লাইভ 拥抱脸 এগুলি Apache 2.0 লাইসেন্সের অধীনে Kaggle এবং Ollama-এর সাথে সামঞ্জস্যপূর্ণ। এগুলি বাইরে বেরিয়ে আসে, vLLM, MLX, SGLang এবং Hugging Face Transformers-এর সমর্থন সহ।
