গত কয়েক বছর ধরে, মিক্সড এক্সপার্ট মডেল (MoE) ক্লাউড-ভিত্তিক বড় মডেলগুলিতে প্রসারিত হয়েছে। তবে মোবাইল ডিভাইসে, বড় ভাষা মডেল (LLM) এখনও ঘন আর্কিটেকচারের উপর নির্ভরশীল। অতীতে, মোবাইল ডিভাইসগুলির জন্য মেমোরি, ক্যালকুলেশন ক্ষমতা এবং ল্যাটেন্সির সীমাবদ্ধতা অধিক কঠোর ছিল, যার ফলে একশত মিলিয়নেরও কম সক্রিয় প্যারামিটারের পরিসরে এন্ড-সাইড MoE-এর জন্য পদ্ধতিগত গবেষণা অভাব ছিল। বর্তমানে, মোবাইল ডিভাইসগুলির DRAM ক্ষমতা বৃদ্ধির সাথে, MoE-কেও স্মার্টফোনে বাস্তবায়নের সুযোগ পাওয়া শুরু হয়েছে।
মেটা টিম দ্বারা প্রস্তাবিত MobileMoE প্রথমবারের মতো কমার্শিয়াল স্মার্টফোনে দক্ষ MoE ইনফারেন্স বাস্তবায়িত হয়েছে। ফলাফলগুলি দেখায় যে, 14টি বেসিক টেস্টে, MobileMoE-S/M প্রায় একই মেমোরি ব্যবহার করে ঘন বেসলাইনের 1/2 থেকে 1/4 পরিমাণ ইনফারেন্স কম্পিউটেশন ব্যবহার করে সমান বা এর চেয়েও বেশি গড় সঠিকতা অর্জন করেছে। বাস্তব পরীক্ষায়, iPhone 16 Pro-এর GPU/MLX ব্যাকএন্ডে MobileMoE-S-এর ইনপুট পর্যায়ে সর্বোচ্চ 3.8 গুণ গতির বৃদ্ধি দেখা গেছে।

পেপার লিঙ্ক: https://arxiv.org/abs/2605.27358
গবেষণা দল মোবাইলে বাস্তবায়নের জন্য উপযুক্ত মডেল স্ট্রাকচার নির্ধারণের জন্য একটি এন্ড-সাইড MoE স্কেলিং নিয়মও প্রস্তাব করেছে। MobileMoE এন্ড-সাইড বড় ভাষা মডেলের জন্য একটি নতুন প্যারেটো ফ্রন্টিয়ার তৈরি করেছে এবং সঠিকতা এবং ইনফারেন্স কম্পিউটেশনাল খরচের মধ্যে ভারসাম্য বজায় রেখে উন্নত ফলাফল অর্জন করেছে।

চিত্র|MobileMoE একটি নতুন প্যারেটো ফ্রন্টিয়ার তৈরি করেছে এন্ড-সাইড লার্জ ল্যাঙ্গুয়েজ মডেলের জন্য।
মোবাইলMoE কীভাবে ডিজাইন করা হয়েছে?
MobileMoE কে এভাবে বুঝা যায়: এটি একধরনের এন্ড-সাইড ডিপ্লয়ের জন্য ডিজাইন করা MoE ভাষা মডেল। সম্পূর্ণটি এখনও decoder-only Transformer, কিন্তু মূল ঘন ফিডফরওয়ার্ড লেয়ারগুলিকে MoE লেয়ারে প্রতিস্থাপন করা হয়েছে। রাউটারটি প্রতিটি token-এর জন্য সর্বোচ্চ স্কোর পাওয়া কয়েকজন এক্সপার্টকে গণনায় অংশগ্রহণের জন্য বাছাই করে, একইসাথে একটি শেয়ার্ড এক্সপার্টও সবসময় গণনায় অংশগ্রহণ করে। সম্পূর্ণ প্রশিক্ষণ প্রক্রিয়াটি চারটি ধাপে বিভক্ত: প্রিট্রেনিং, মিড-ট্রেনিং, সুপারভাইজড ফাইন-টিউনিং এবং কোয়ান্টাইজেশন-অ্যাওয়্যার ট্রেনিং।
প্রি-ট্রেনিং: গবেষণা দল 2048 কনটেক্সট লেংথে প্রায় 6T টোকেনের ওপেন লাইসেন্সড ডেটা ব্যবহার করে প্রি-ট্রেনিং করেছে, যার মধ্যে মূলত ওয়েব ডেটা রয়েছে এবং গণিত, কোড, জ্ঞান এবং বিজ্ঞানের মতো ক্ষেত্রগুলিও অন্তর্ভুক্ত রয়েছে।
মধ্যম মেয়াদি প্রশিক্ষণ: গবেষণা দল প্রসঙ্গের দৈর্ঘ্য 8192-এ বাড়িয়েছে এবং উচ্চ মানের ডেটা—যেমন জ্ঞান, কোড, গণিত এবং বিজ্ঞান—এর অনুপাত আরও বাড়িয়েছে, যার মোট আকার প্রায় 500B টোকেন।
সুপারভাইজড ফাইন-টিউনিং (SFT): গবেষণা দল MobileMoE-Base-কে 80 মিলিয়নের বেশি নমুনার ওপেন লাইসেন্সড ইনস্ট্রাকশন ফাইন-টিউনিং ডেটাতে ফাইন-টিউন করেছে।
কোয়ান্টাইজেশন-অনুভূত প্রশিক্ষণ: গবেষণা দল লিনিয়ার স্তর এবং এমবেডিংকে INT4-এ কোয়ান্টাইজ করেছে, সক্রিয়করণকে INT8-এ ডাইনামিকভাবে কোয়ান্টাইজ করেছে, এবং রাউটারকে FP32 প্রিসিশনে রেখেছে।

চিত্র: মোবাইলMoE-এর চার পর্যায়ের প্রশিক্ষণ।
পরীক্ষার ফলাফল
অ্যাবলেশন পরীক্ষার ফলাফল
গবেষণা দল তিনটি আর্কিটেকচার ভেরিয়েবলকে তুলনা করেছে: বিশেষজ্ঞের সংখ্যা E, বিশেষজ্ঞের কণা আকার g, এবং শেয়ার্ড বিশেষজ্ঞ যোগ করা হয়েছে কিনা।

চিত্র | বিশেষজ্ঞ সংখ্যা E-এর স্কেলিং।
একটি নির্দিষ্ট মেমোরি বাজেটের অধীনে, যখন মেমোরি 0.25GB এর বেশি হয়, তখন MoE-এর লস সংশ্লিষ্ট ঘন মডেলের চেয়ে কম হতে শুরু করে। বিশেষজ্ঞের সংখ্যা E বাড়ানোর সাথে সাথে লস আরও কমে, কিন্তু E 8-এর বেশি হলে প্রতিটি অতিরিক্ত বৃদ্ধির প্রাপ্তি স্পষ্টভাবে কমে যায়। বিশেষজ্ঞ কণা গ-এর জন্য পরীক্ষাগুলি দেখায় যে, একটি সূক্ষ্মতর বিশেষজ্ঞ কনফিগারেশন সামগ্রিকভাবে ভালো, যেখানে g=8 পারফরম্যান্স এবং প্রশিক্ষণ খরচের মধ্যে ভালো ভারসাম্য বজায় রাখে; g 8-এর থেকে 16-এ বাড়ানোর সময়, লস-এর উন্নতি 0.01-এরও কম, কিন্তু প্রশিক্ষণের সময় প্রায় 50% বৃদ্ধি পায়। একই গণনা বাজেটে, শেয়ারড এক্সপার্টগুলি যোগ করলে মডেলের লস আরও কমে।
অপসারণ পরীক্ষার ফলাফলের ভিত্তিতে, গবেষণা দল চূড়ান্তভাবে E=8, g=8, শেয়ার্ড এক্সপার্টসসহ কনফিগারেশনটি গ্রহণ করেছে, অর্থাৎ 60টি ফাইন-গ্রেনুলার রাউটিং এক্সপার্ট, টপ-4 রাউটিং এবং 1টি শেয়ার্ড এক্সপার্ট, এবং এই স্ট্রাকচারটি MobileMoE-S/M/L তিনটি ভার্সনের জন্য ব্যবহার করা হয়েছে।

চিত্র: MoE মডেলকে অপ্টিমাল শর্তে স্কেল করা।

চিত্র: MoE আর্কিটেকচারের প্রশিক্ষণ দক্ষতা।
14টি বেসিক ইভালুয়েশন: একটি নতুন এন্ড-সাইড প্যারেটো ফ্রন্টিয়ার তৈরি করুন
অধ্যয়ন দল সাধারণ যুক্তি, জ্ঞান, বিজ্ঞান, পাঠ এবং যুক্তি—এই পাঁচটি শ্রেণিতে মোট 14টি মৌলিক মূল্যায়নে MobileMoE-কে Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B ইত্যাদি মডেলের সাথে একই পরিস্থিতিতে পুনরায় মূল্যায়ন করেছে।

চিত্র|MobileMoE-এর প্রি-ট্রেনিং ট্রাজেক্টরি।
বেস মডেল তুলনার ফলাফল দেখায় যে, MobileMoE-M এর গড় স্কোর Qwen3.5 2B এর চেয়ে বেশি, এবং MobileMoE-L এর গড় স্কোর OLMoE-1B-7B এর চেয়ে বেশি, যখন প্রয়োজনীয় মডেল সাইজও ছোট; গবেষণা দল আরও উল্লেখ করেছেন যে, MobileMoE-L এর বেস ভার্সনের গড় স্কোর ইতিমধ্যেই OLMoE-1B-7B এর Instruct ভার্সনের চেয়ে বেশি। প্রশিক্ষণ স্কেলে, MobileMoE প্রায় 6T প্রি-ট্রেনিং টোকেন ব্যবহার করে, যা Llama 3.2 1B এর 9T এবং SmolLM2 1.7B এর 11T এর চেয়ে কম। ইনস্ট্রাকশন-ফাইনটিউনড মডেলের সামগ্রিক তুলনায়, MobileMoE-M এর গড় সঠিকতা ইতিমধ্যেই OLMoE-1B-7B এর কাছাকাছি, কিন্তু সক্রিয় প্যারামিটার এবং মোট প্যারামিটার উভয়ই প্রায় 60% কম।

চিত্র|মোবাইলMoE-বেস মডেল তুলনা।
উন্নত পর্যালোচনা: কোড এবং গাণিতিক কাজে সুবিধা আরও পরিষ্কার
অ্যাডভান্সড ইভালুয়েশনে, ইনস্ট্রাকশন ফাইন-টিউনিংয়ের পর MobileMoE কোড এবং গণিতের কাজগুলিতে বেশি ভালো পারফর্ম করে। MobileMoE-L-এর ক্ষেত্রে, কোড এবং গণিতের উভয় ইভালুয়েশনের গড় স্কোর Qwen3.5 2B এবং OLMoE-1B-7B-এর চেয়ে বেশি। তবে, গবেষক দল উল্লেখ করেছেন যে ইনস্ট্রাকশন ফলো-আপ এবং জ্ঞানভিত্তিক যুক্তির ক্ষেত্রে Qwen3.5 2B এখনও বেশি শক্তিশালী।

চিত্র: উন্নত বেঞ্চমার্কে Instruct মডেলের তুলনা।
কোয়ান্টাইজেশন এবং এন্ড-সাইড ডিপ্লয়মেন্ট: INT4 এর পরেও প্রতিযোগিতামূলক, মোবাইল ডিভাইসে স্পষ্টভাবে গতি বৃদ্ধি পেয়েছে
কোয়ান্টাইজেশনের পরে, MobileMoE-S/M/L-এর সামগ্রিক গড় স্কোর তাদের প্রতিটি BF16 ভার্সনের তুলনায় কিছুটা কমে গেছে, কিন্তু এই হ্রাস প্রায় 2 থেকে 3 পয়েন্টের মধ্যে। তবুও, MobileMoE-L-এর INT4 ভার্সনের পারফরম্যান্স OLMoE-1B-7B Instruct-এর BF16 ভার্সনের চেয়ে বেশি।
গবেষণা দল মোবাইলMoE-কে স্যামসাং গ্যালাক্সি S25 এবং আইফোন 16 প্রোতেও টেস্ট করেছে। ফলাফল অনুযায়ী, তুলনামূলক INT4 ওজন মেমোরির শর্তে, MobileMoE-S এর ইনপুট পর্যায়ে MobileLLM-Pro-এর তুলনায় 1.8-3.8 গুণ দ্রুততা এবং টোকেন-ভিত্তিক জেনারেশন পর্যায়ে 2.2-3.4 গুণ দ্রুততা দেখা গেছে।
স্যামসাং গ্যালাক্সি S25, 8K কনটেক্সট এবং বাস্তব প্রম্পটের শর্তাবলীতে, MobileMoE-S-এর শীর্ষ RSS মেমোরি ব্যবহার 1.49GB, যা MobileLLM-Pro-এর 1.91GB-এর চেয়ে কম।

চিত্র: এন্ড-সাইড রানটাইম ল্যাটেন্সি।
অপর্যাপ্ততা এবং ভবিষ্যতের দিকনির্দেশ
বর্তমানে, উন্নত নির্দেশ অনুসরণ এবং জ্ঞান ও যুক্তি দক্ষতার ক্ষেত্রে, ইনস্ট্রাকশন-ফাইনটিউনড MobileMoE এখনও Qwen3.5 2B-এর পিছনে। গবেষণা দল মনে করেন যে এই ব্যবধানটি আরও উন্নত পোস্ট-ট্রেনিংয়ের সাথে সম্পর্কিত হতে পারে। ভবিষ্যতে, এই ব্যবধান কমানোর জন্য, ট্রেনিং পাশে ডিস্টিলেশন, রিজনিং-অরিয়েন্টেড পোস্ট-ট্রেনিং এবং মাল্টিমোডাল এক্সটেনশনকে শক্তিশালী করা প্রয়োজন।
এছাড়াও, গবেষণা দলটি উল্লেখ করেছে যে মোবাইলে MoE-এর মেমোরি ব্যবহার ইনপুট কনটেন্টের উপর নির্ভর করে। ফিক্সড টেমপ্লেট ইনপুটের তুলনায়, বাস্তব ইনপুটগুলি সাধারণত বেশি মেমোরি ব্যবহার করে। যদি শুধুমাত্র টেমপ্লেটাইজড ইনপুটের উপর ভিত্তি করে পরীক্ষা করা হয়, তবে বাস্তব ডিপ্লয়মেন্ট পরিস্থিতিতে মেমোরির চাপকে অবহেলা করা হতে পারে। ভবিষ্যতে, এন্ড-সাইড MoE-এর বাস্তব মেমোরি পারফরম্যান্সকে আরও সঠিকভাবে মূল্যায়ন করতে, আরও বেশি বাস্তব-বিশিষ্ট টেস্টিং ডেটা প্রয়োজন।
এর সাথে সাথে, গবেষণা দল সিপিইউ এবং জিপিইউ ব্যাকএন্ডে সিস্টেম্যাটিক রিয়েল-ডিভাইস টেস্টিং সম্পন্ন করেছে, তবে এনপিইউ পথ এখনও অন্বেষণের জন্য অপেক্ষা করছে। এছাড়াও, মোইয়ের রানটাইম মেমোরি ব্যবহার ইনপুট কনটেন্টের উপর সংবেদনশীল। ভবিষ্যতে, ডাইনামিক রাউটিং, এক্সপার্ট প্রুনিং, মিক্সড-প্রিসিশন কোয়ান্টাইজেশন এবং মোবাইল এনপিইউ ডিপ্লয়মেন্ট হল এন্ড-সাইড দক্ষতা বাড়ানোর জন্য পরবর্তী উন্নতির দিক।
আরও প্রযুক্তিগত বিস্তারিত জানতে মূল পেপারটি দেখুন।
এই লেখাটি ওয়েইচ্যাট গ্রুপ "অ্যাকাডেমিক ট্রেন্ডস" (ID: SciTouTiao) থেকে এসেছে, লেখক: শিয়ান কানসি
