ডিফিউশনগেমা ডিফিউশন প্রযুক্তি ব্যবহার করে 4x দ্রুত টেক্সট জেনারেশন অর্জন করেছে

বছর ধরে, বড় ভাষা মডেলগুলি একটি খুব দ্রুত টাইপিস্টের মতো কাজ করেছে: একবারে একটি শব্দ, বাম থেকে ডানে, পিছনে ফিরে তাকানো ছাড়া। DiffusionGemma এই প্লেবুকটি সম্পূর্ণভাবে বাতিল করে দেয়। ওপেন মডেলটি ডিফিউশন প্রযুক্তির ব্যবহার করে সম্পূর্ণ টেক্সট ব্লকগুলি একসাথে উত্পাদন করে, যা পারম্পরিক অটোরিগ্রেসিভ মডেলগুলির তুলনায় চারগুণ দ্রুত জেনারেশন গতি অর্জন করে।

ডিফিউশনজেমা কিভাবে কাজ করে

প্রাচীন ভাষা মডেলগুলি ক্রমানুসারে টেক্সট তৈরি করে। প্রতিটি টোকেন (প্রায় একটি শব্দ বা শব্দের অংশ) একের পর এক উত্পাদন করা হয়, যেখানে প্রতিটি নতুন টোকেন এর আগের সবকিছুর উপর নির্ভর করে।

DiffusionGemma চিত্র তৈরির জন্য যে প্রযুক্তির পরিবর্তন এনেছে, সেই একই প্রযুক্তির পরিবার থেকে ঋণ গ্রহণ করে। ডিফিউশন মডেলগুলি শব্দ দিয়ে শুরু করে এবং ধাপে ধাপে এটিকে সুসংগঠিত আউটপুটে পরিণত করে। টেক্সটের ক্ষেত্রে, এর অর্থ হল মডেলটি একসাথে একাধিক অংশের উপর কাজ করতে পারে, প্রতিটি শব্দকে চূড়ান্ত করার জন্য অপেক্ষা করার পরিবর্তে।

বিজ্ঞাপন

মূল্যায়নে, ডিফিউশনগেমা প্রায় ১,৪৭৯ টোকেন প্রতি সেকেন্ড স্যাম্পলিং গতি অর্জন করেছে। এই ৪x গতির উন্নতি একটি তাত্ত্বিক সীমা নয়। এটি একটি পরিমাপযোগ্য বেঞ্চমার্ক।

কারণ ডিফিউশন মডেলগুলি প্রতিটি টোকেনকে স্থায়ীভাবে নির্ধারণ না করে পুনরাবৃত্তিমূলকভাবে আউটপুট উন্নত করে, ডিফিউশনগেমা তৈরির প্রক্রিয়ার মধ্যেই ভুলগুলি সংশোধন ও ঠিক করতে পারে। প্রচলিত মডেলগুলির এই সুবিধা নেই। একবার শব্দটি তৈরি হয়ে গেলে, তা চিরস্থায়ী হয়ে যায়, এবং যেকোনো পরবর্তী ভুলগুলি এগিয়ে যায়।

হার্ডওয়্যার দিক এবং গুগল ডিপমাইন্ডের সংযোগ

ডিফিউশনগেমা গুগল ডিপমাইন্ডের জেমিনি ডিফিউশন থেকে অনুপ্রাণিত, যা দক্ষ টেক্সট জেনারেশনের জন্য ডিফিউশন-ভিত্তিক পদ্ধতির পথপ্রদর্শন করেছে।

DiffusionGemma বিশেষভাবে NVIDIA প্ল্যাটফর্ম, যার মধ্যে RTX PRO এবং DGX সিস্টেম অন্তর্ভুক্ত, এর জন্য অপ্টিমাইজড করা হয়েছে, যার অর্থ ডেভেলপাররা কেবলমাত্র ক্লাউড API-এর উপর নির্ভর করার পরিবর্তে স্থানীয়ভাবে মডেলটি ত্বরিত পারফরম্যান্সে চালাতে পারেন।

বেঞ্চমার্ক মূল্যায়নগুলি নির্দেশ করে যে DiffusionGemma বড় মডেলগুলির সাথে তুলনীয় পারফরম্যান্স দেখায় এবং এর গতির সুবিধা বজায় রাখে। রেফারেন্সের জন্য, মূল্যায়িত বেঞ্চমার্কে Gemini Diffusion 30.9% স্কোর করে যখন Gemini 2.0 Flash-Lite স্কোর করে 28.5%।

এটি এআই পরিবেশ এবং বিনিয়োগকারীদের জন্য কী অর্থ বহন করে

যে ব্যবসাগুলি দ্রুত টেক্সট জেনারেশনের উপর নির্ভরশীল, তাদের জন্য প্রভাবগুলি সহজ। কনটেন্ট তৈরির পাইপলাইন, কাস্টমার সার্ভিস অটোমেশন, কোড জেনারেশন টুলস এবং যে কোনও অ্যাপ্লিকেশন যেখানে ল্যাটেন্সি গুরুত্বপূর্ণ, সেগুলি 4x গতির উন্নতি থেকে উপকৃত হতে পারে। দ্রুত ইনফারেন্সের মানে প্রতিটি কোয়েরির জন্য কম্পিউট খরচ কমে, যা বড় পরিসরে AI ডিপ্লয়মেন্টের অর্থনীতিকে সরাসরি প্রভাবিত করে।

প্রধান ঝুঁকি হল গ্রহণযোগ্যতা। একটি মডেল নিয়ন্ত্রিত মূল্যায়নে ভালোভাবে বেঞ্চমার্ক করতে পারে এবং এখনও বাস্তব বিশ্বের ব্যবহারের অনিয়মিত, অপ্রত্যাশিত চাহিদাগুলির সাথে সংগ্রাম করতে পারে। এটি খোলা এবং প্রচুর পরিমাণে উপলব্ধ NVIDIA হার্ডওয়্যারের জন্য অপ্টিমাইজড হওয়ার কারণে, কমপক্ষে দুটি সাধারণ বাধা সরিয়ে ফেলা হয়েছে।