মেটা মোবাইলMoE প্রস্তাব করেছে, আইফোন 16 প্রোতে 3.8x গতি বৃদ্ধি অর্জন করেছে

icon MarsBit
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
মেটা প্রথম মোবাইল স্মার্টফোনে চালু করেছে MobileMoE, একটি Mixture-of-Experts মডেল। iPhone 16 Pro-এ, MobileMoE-S ইনপুট পর্যায়ে 3.8x গতি বৃদ্ধি করেছে। কম গণনামূলক শক্তি ব্যবহার করেও মডেলটি সঠিকতায় ঘন বেসলাইনগুলির সমান বা তার চেয়ে বেশি পারফর্ম করেছে। এটি এজ-সাইড LLM-এর জন্য একটি নতুন Pareto frontier স্থাপন করেছে, যা সঠিকতা এবং খরচের মধ্যে ভারসাম্য বজায় রাখে। এই অন-চেইন সংবাদটি মোবাইল AI-এ মেটার প্রচেষ্টা উল্লেখ করে। এজ কম্পিউটিংয়ের জন্ম নিলে এক্সচেঞ্জগুলিতে নতুন টোকেন লিস্টিংয়ের সম্ভাবনা।

গত কয়েক বছর ধরে, মিক্সড এক্সপার্ট মডেল (MoE) ক্লাউড-ভিত্তিক বড় মডেলগুলিতে প্রসারিত হয়েছে। তবে মোবাইল ডিভাইসে, বড় ভাষা মডেল (LLM) এখনও ঘন আর্কিটেকচারের উপর নির্ভরশীল। অতীতে, মোবাইল ডিভাইসগুলির জন্য মেমোরি, ক্যালকুলেশন ক্ষমতা এবং ল্যাটেন্সির সীমাবদ্ধতা অধিক কঠোর ছিল, যার ফলে একশত মিলিয়নেরও কম সক্রিয় প্যারামিটারের পরিসরে এন্ড-সাইড MoE-এর জন্য পদ্ধতিগত গবেষণা অভাব ছিল। বর্তমানে, মোবাইল ডিভাইসগুলির DRAM ক্ষমতা বৃদ্ধির সাথে, MoE-কেও স্মার্টফোনে বাস্তবায়নের সুযোগ পাওয়া শুরু হয়েছে।

মেটা টিম দ্বারা প্রস্তাবিত MobileMoE প্রথমবারের মতো কমার্শিয়াল স্মার্টফোনে দক্ষ MoE ইনফারেন্স বাস্তবায়িত হয়েছে। ফলাফলগুলি দেখায় যে, 14টি বেসিক টেস্টে, MobileMoE-S/M প্রায় একই মেমোরি ব্যবহার করে ঘন বেসলাইনের 1/2 থেকে 1/4 পরিমাণ ইনফারেন্স কম্পিউটেশন ব্যবহার করে সমান বা এর চেয়েও বেশি গড় সঠিকতা অর্জন করেছে। বাস্তব পরীক্ষায়, iPhone 16 Pro-এর GPU/MLX ব্যাকএন্ডে MobileMoE-S-এর ইনপুট পর্যায়ে সর্বোচ্চ 3.8 গুণ গতির বৃদ্ধি দেখা গেছে।

মেটা

পেপার লিঙ্ক: https://arxiv.org/abs/2605.27358

গবেষণা দল মোবাইলে বাস্তবায়নের জন্য উপযুক্ত মডেল স্ট্রাকচার নির্ধারণের জন্য একটি এন্ড-সাইড MoE স্কেলিং নিয়মও প্রস্তাব করেছে। MobileMoE এন্ড-সাইড বড় ভাষা মডেলের জন্য একটি নতুন প্যারেটো ফ্রন্টিয়ার তৈরি করেছে এবং সঠিকতা এবং ইনফারেন্স কম্পিউটেশনাল খরচের মধ্যে ভারসাম্য বজায় রেখে উন্নত ফলাফল অর্জন করেছে।

মেটা

চিত্র|MobileMoE একটি নতুন প্যারেটো ফ্রন্টিয়ার তৈরি করেছে এন্ড-সাইড লার্জ ল্যাঙ্গুয়েজ মডেলের জন্য।

মোবাইলMoE কীভাবে ডিজাইন করা হয়েছে?

MobileMoE কে এভাবে বুঝা যায়: এটি একধরনের এন্ড-সাইড ডিপ্লয়ের জন্য ডিজাইন করা MoE ভাষা মডেল। সম্পূর্ণটি এখনও decoder-only Transformer, কিন্তু মূল ঘন ফিডফরওয়ার্ড লেয়ারগুলিকে MoE লেয়ারে প্রতিস্থাপন করা হয়েছে। রাউটারটি প্রতিটি token-এর জন্য সর্বোচ্চ স্কোর পাওয়া কয়েকজন এক্সপার্টকে গণনায় অংশগ্রহণের জন্য বাছাই করে, একইসাথে একটি শেয়ার্ড এক্সপার্টও সবসময় গণনায় অংশগ্রহণ করে। সম্পূর্ণ প্রশিক্ষণ প্রক্রিয়াটি চারটি ধাপে বিভক্ত: প্রিট্রেনিং, মিড-ট্রেনিং, সুপারভাইজড ফাইন-টিউনিং এবং কোয়ান্টাইজেশন-অ্যাওয়্যার ট্রেনিং।

প্রি-ট্রেনিং: গবেষণা দল 2048 কনটেক্সট লেংথে প্রায় 6T টোকেনের ওপেন লাইসেন্সড ডেটা ব্যবহার করে প্রি-ট্রেনিং করেছে, যার মধ্যে মূলত ওয়েব ডেটা রয়েছে এবং গণিত, কোড, জ্ঞান এবং বিজ্ঞানের মতো ক্ষেত্রগুলিও অন্তর্ভুক্ত রয়েছে।

মধ্যম মেয়াদি প্রশিক্ষণ: গবেষণা দল প্রসঙ্গের দৈর্ঘ্য 8192-এ বাড়িয়েছে এবং উচ্চ মানের ডেটা—যেমন জ্ঞান, কোড, গণিত এবং বিজ্ঞান—এর অনুপাত আরও বাড়িয়েছে, যার মোট আকার প্রায় 500B টোকেন।

সুপারভাইজড ফাইন-টিউনিং (SFT): গবেষণা দল MobileMoE-Base-কে 80 মিলিয়নের বেশি নমুনার ওপেন লাইসেন্সড ইনস্ট্রাকশন ফাইন-টিউনিং ডেটাতে ফাইন-টিউন করেছে।

কোয়ান্টাইজেশন-অনুভূত প্রশিক্ষণ: গবেষণা দল লিনিয়ার স্তর এবং এমবেডিংকে INT4-এ কোয়ান্টাইজ করেছে, সক্রিয়করণকে INT8-এ ডাইনামিকভাবে কোয়ান্টাইজ করেছে, এবং রাউটারকে FP32 প্রিসিশনে রেখেছে।

মেটা

চিত্র: মোবাইলMoE-এর চার পর্যায়ের প্রশিক্ষণ।

পরীক্ষার ফলাফল

অ্যাবলেশন পরীক্ষার ফলাফল

গবেষণা দল তিনটি আর্কিটেকচার ভেরিয়েবলকে তুলনা করেছে: বিশেষজ্ঞের সংখ্যা E, বিশেষজ্ঞের কণা আকার g, এবং শেয়ার্ড বিশেষজ্ঞ যোগ করা হয়েছে কিনা।

মেটা

চিত্র | বিশেষজ্ঞ সংখ্যা E-এর স্কেলিং।

একটি নির্দিষ্ট মেমোরি বাজেটের অধীনে, যখন মেমোরি 0.25GB এর বেশি হয়, তখন MoE-এর লস সংশ্লিষ্ট ঘন মডেলের চেয়ে কম হতে শুরু করে। বিশেষজ্ঞের সংখ্যা E বাড়ানোর সাথে সাথে লস আরও কমে, কিন্তু E 8-এর বেশি হলে প্রতিটি অতিরিক্ত বৃদ্ধির প্রাপ্তি স্পষ্টভাবে কমে যায়। বিশেষজ্ঞ কণা গ-এর জন্য পরীক্ষাগুলি দেখায় যে, একটি সূক্ষ্মতর বিশেষজ্ঞ কনফিগারেশন সামগ্রিকভাবে ভালো, যেখানে g=8 পারফরম্যান্স এবং প্রশিক্ষণ খরচের মধ্যে ভালো ভারসাম্য বজায় রাখে; g 8-এর থেকে 16-এ বাড়ানোর সময়, লস-এর উন্নতি 0.01-এরও কম, কিন্তু প্রশিক্ষণের সময় প্রায় 50% বৃদ্ধি পায়। একই গণনা বাজেটে, শেয়ারড এক্সপার্টগুলি যোগ করলে মডেলের লস আরও কমে।

অপসারণ পরীক্ষার ফলাফলের ভিত্তিতে, গবেষণা দল চূড়ান্তভাবে E=8, g=8, শেয়ার্ড এক্সপার্টসসহ কনফিগারেশনটি গ্রহণ করেছে, অর্থাৎ 60টি ফাইন-গ্রেনুলার রাউটিং এক্সপার্ট, টপ-4 রাউটিং এবং 1টি শেয়ার্ড এক্সপার্ট, এবং এই স্ট্রাকচারটি MobileMoE-S/M/L তিনটি ভার্সনের জন্য ব্যবহার করা হয়েছে।

মেটা

চিত্র: MoE মডেলকে অপ্টিমাল শর্তে স্কেল করা।

মেটা

চিত্র: MoE আর্কিটেকচারের প্রশিক্ষণ দক্ষতা।

14টি বেসিক ইভালুয়েশন: একটি নতুন এন্ড-সাইড প্যারেটো ফ্রন্টিয়ার তৈরি করুন

অধ্যয়ন দল সাধারণ যুক্তি, জ্ঞান, বিজ্ঞান, পাঠ এবং যুক্তি—এই পাঁচটি শ্রেণিতে মোট 14টি মৌলিক মূল্যায়নে MobileMoE-কে Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B ইত্যাদি মডেলের সাথে একই পরিস্থিতিতে পুনরায় মূল্যায়ন করেছে।

মেটা

চিত্র|MobileMoE-এর প্রি-ট্রেনিং ট্রাজেক্টরি।

বেস মডেল তুলনার ফলাফল দেখায় যে, MobileMoE-M এর গড় স্কোর Qwen3.5 2B এর চেয়ে বেশি, এবং MobileMoE-L এর গড় স্কোর OLMoE-1B-7B এর চেয়ে বেশি, যখন প্রয়োজনীয় মডেল সাইজও ছোট; গবেষণা দল আরও উল্লেখ করেছেন যে, MobileMoE-L এর বেস ভার্সনের গড় স্কোর ইতিমধ্যেই OLMoE-1B-7B এর Instruct ভার্সনের চেয়ে বেশি। প্রশিক্ষণ স্কেলে, MobileMoE প্রায় 6T প্রি-ট্রেনিং টোকেন ব্যবহার করে, যা Llama 3.2 1B এর 9T এবং SmolLM2 1.7B এর 11T এর চেয়ে কম। ইনস্ট্রাকশন-ফাইনটিউনড মডেলের সামগ্রিক তুলনায়, MobileMoE-M এর গড় সঠিকতা ইতিমধ্যেই OLMoE-1B-7B এর কাছাকাছি, কিন্তু সক্রিয় প্যারামিটার এবং মোট প্যারামিটার উভয়ই প্রায় 60% কম।

মেটা

চিত্র|মোবাইলMoE-বেস মডেল তুলনা।

উন্নত পর্যালোচনা: কোড এবং গাণিতিক কাজে সুবিধা আরও পরিষ্কার

অ্যাডভান্সড ইভালুয়েশনে, ইনস্ট্রাকশন ফাইন-টিউনিংয়ের পর MobileMoE কোড এবং গণিতের কাজগুলিতে বেশি ভালো পারফর্ম করে। MobileMoE-L-এর ক্ষেত্রে, কোড এবং গণিতের উভয় ইভালুয়েশনের গড় স্কোর Qwen3.5 2B এবং OLMoE-1B-7B-এর চেয়ে বেশি। তবে, গবেষক দল উল্লেখ করেছেন যে ইনস্ট্রাকশন ফলো-আপ এবং জ্ঞানভিত্তিক যুক্তির ক্ষেত্রে Qwen3.5 2B এখনও বেশি শক্তিশালী।

মেটা

চিত্র: উন্নত বেঞ্চমার্কে Instruct মডেলের তুলনা।

কোয়ান্টাইজেশন এবং এন্ড-সাইড ডিপ্লয়মেন্ট: INT4 এর পরেও প্রতিযোগিতামূলক, মোবাইল ডিভাইসে স্পষ্টভাবে গতি বৃদ্ধি পেয়েছে

কোয়ান্টাইজেশনের পরে, MobileMoE-S/M/L-এর সামগ্রিক গড় স্কোর তাদের প্রতিটি BF16 ভার্সনের তুলনায় কিছুটা কমে গেছে, কিন্তু এই হ্রাস প্রায় 2 থেকে 3 পয়েন্টের মধ্যে। তবুও, MobileMoE-L-এর INT4 ভার্সনের পারফরম্যান্স OLMoE-1B-7B Instruct-এর BF16 ভার্সনের চেয়ে বেশি।

গবেষণা দল মোবাইলMoE-কে স্যামসাং গ্যালাক্সি S25 এবং আইফোন 16 প্রোতেও টেস্ট করেছে। ফলাফল অনুযায়ী, তুলনামূলক INT4 ওজন মেমোরির শর্তে, MobileMoE-S এর ইনপুট পর্যায়ে MobileLLM-Pro-এর তুলনায় 1.8-3.8 গুণ দ্রুততা এবং টোকেন-ভিত্তিক জেনারেশন পর্যায়ে 2.2-3.4 গুণ দ্রুততা দেখা গেছে।

স্যামসাং গ্যালাক্সি S25, 8K কনটেক্সট এবং বাস্তব প্রম্পটের শর্তাবলীতে, MobileMoE-S-এর শীর্ষ RSS মেমোরি ব্যবহার 1.49GB, যা MobileLLM-Pro-এর 1.91GB-এর চেয়ে কম।

মেটা

চিত্র: এন্ড-সাইড রানটাইম ল্যাটেন্সি।

অপর্যাপ্ততা এবং ভবিষ্যতের দিকনির্দেশ

বর্তমানে, উন্নত নির্দেশ অনুসরণ এবং জ্ঞান ও যুক্তি দক্ষতার ক্ষেত্রে, ইনস্ট্রাকশন-ফাইনটিউনড MobileMoE এখনও Qwen3.5 2B-এর পিছনে। গবেষণা দল মনে করেন যে এই ব্যবধানটি আরও উন্নত পোস্ট-ট্রেনিংয়ের সাথে সম্পর্কিত হতে পারে। ভবিষ্যতে, এই ব্যবধান কমানোর জন্য, ট্রেনিং পাশে ডিস্টিলেশন, রিজনিং-অরিয়েন্টেড পোস্ট-ট্রেনিং এবং মাল্টিমোডাল এক্সটেনশনকে শক্তিশালী করা প্রয়োজন।

এছাড়াও, গবেষণা দলটি উল্লেখ করেছে যে মোবাইলে MoE-এর মেমোরি ব্যবহার ইনপুট কনটেন্টের উপর নির্ভর করে। ফিক্সড টেমপ্লেট ইনপুটের তুলনায়, বাস্তব ইনপুটগুলি সাধারণত বেশি মেমোরি ব্যবহার করে। যদি শুধুমাত্র টেমপ্লেটাইজড ইনপুটের উপর ভিত্তি করে পরীক্ষা করা হয়, তবে বাস্তব ডিপ্লয়মেন্ট পরিস্থিতিতে মেমোরির চাপকে অবহেলা করা হতে পারে। ভবিষ্যতে, এন্ড-সাইড MoE-এর বাস্তব মেমোরি পারফরম্যান্সকে আরও সঠিকভাবে মূল্যায়ন করতে, আরও বেশি বাস্তব-বিশিষ্ট টেস্টিং ডেটা প্রয়োজন।

এর সাথে সাথে, গবেষণা দল সিপিইউ এবং জিপিইউ ব্যাকএন্ডে সিস্টেম্যাটিক রিয়েল-ডিভাইস টেস্টিং সম্পন্ন করেছে, তবে এনপিইউ পথ এখনও অন্বেষণের জন্য অপেক্ষা করছে। এছাড়াও, মোইয়ের রানটাইম মেমোরি ব্যবহার ইনপুট কনটেন্টের উপর সংবেদনশীল। ভবিষ্যতে, ডাইনামিক রাউটিং, এক্সপার্ট প্রুনিং, মিক্সড-প্রিসিশন কোয়ান্টাইজেশন এবং মোবাইল এনপিইউ ডিপ্লয়মেন্ট হল এন্ড-সাইড দক্ষতা বাড়ানোর জন্য পরবর্তী উন্নতির দিক।

আরও প্রযুক্তিগত বিস্তারিত জানতে মূল পেপারটি দেখুন।

এই লেখাটি ওয়েইচ্যাট গ্রুপ "অ্যাকাডেমিক ট্রেন্ডস" (ID: SciTouTiao) থেকে এসেছে, লেখক: শিয়ান কানসি

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।