নেভাস রিসার্চের টিএসটি ট্রেনিং পদ্ধতি পূর্ববর্তী কাজের সাথে সাদৃশ্যের কারণে বিতর্ক সৃষ্টি করেছে

iconKuCoinFlash
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
মে ১৪ (ইউটিসি+৮) এ, নাস রিসার্চ তাদের টোকেন স্ট্যাকিং ট্রেনিং (টিএসটি) পদ্ধতির সাথে একটি নতুন টোকেন লঞ্চের খবর প্রকাশ করে, যা একই কম্পিউটেশনাল লোডের অধীনে প্রি-ট্রেনিং সময়কে ২ থেকে ৩ গুণ কমিয়ে দেয়। এই পদ্ধতিটি প্রাথমিক প্রশিক্ষণের সময় পাশাপাশি টোকেনগুলিকে স্ট্যাক করে একক টোকেনের পরিবর্তে টোকেন প্যাকেজগুলির ভবিষ্যদ্বাণী করে। সমালোচকদের দ্রুত মনোযোগ আকর্ষণ করেছিল যে টিএসটি ২০২৪-এর 'বিয়ন্ড নেক্সট টোকেন প্রেডিকশন' শিরোনামের পেপারের সাথে মিলে যায়। দলটি এই ওভারল্যাপকে 'অদুর্ভাগ্যজনকভাবে একত্রিত গবেষণা' হিসাবে স্বীকার করেছে এবং উপযুক্ত উৎসসূত্র যোগ করার প্রতিশ্রুতি দিয়েছে। নতুন টোকেন লিস্টিংয়ের উপর প্রায়শই সমালোচনা হয়, এবং এই ক্ষেত্রেও ব্যতিক্রম নয়।

ME সংবাদ, 14 মে (UTC+8), ডিনচা বিটিং-এর মনিটরিং অনুযায়ী, Nous Research একটি নতুন বড় মডেল প্রি-ট্রেনিং পদ্ধতি প্রকাশ করেছে, যার নাম টোকেন স্ট্যাকিং ট্রেনিং (TST)। এই পদ্ধতিতে প্রশিক্ষণের প্রাথমিক পর্যায়ে পাশাপাশি টোকেনগুলি প্যাক করে সংকুচিত করা হয়, যার ফলে একই গণনা শক্তির মধ্যে প্রি-ট্রেনিংয়ের সময় 2 থেকে 3 গুণ হ্রাস পায়। TST-এ দুটি পর্যায় রয়েছে। প্রশিক্ষণের 20% থেকে 40% অংশে, মডেলটি একটি করে টোকেন পড়বে না, বরং পাশাপাশি টোকেনগুলির গড় নিয়ে "প্যাক" হিসাবে ইনপুট দেবে, এবং আউটপুটে পরবর্তী প্যাকের মধ্যে কোন টোকেনগুলি থাকবে (ভিতরের ক্রমকে উপেক্ষা করে) তা ভবিষ্যদ্বাণী করবে। তারপর, মডেলটি সাধারণ পরবর্তী টোকেন ভবিষ্যদ্বাণীতে ফিরে আসবে। কারণ মূল আর্কিটেকচারটি পরিবর্তন করা হয়নি, ফলাফলের মডেলটি ইনফারেন্সের সময় সাধারণ মডেলগুলির সঙ্গে 완全히 same।এইপদ্ধতিটি 100বিলিয়নপ্যারামিটারপর্যন্তMoEmডেলগুলিতেপ্রমাণিতহয়েছে।এইপদ্ধতিরমূলভাবহ'ল"ডাটাকেপরিমাণশক্তিরজন্যবদলদিয়ে"–গণনা-সময়কমকরতএকটিদ্রুততরকপসময়সহঅধিকডাটাব্যবহার।যদিভবিষ্যতেউচ্চমানেরটেক্সটসমাপ্তহয়েযায়,তবেডাটারদ্রুতভাবেখরচকরারএইবৈশিষ্ট্যটিকমজোরহতপারে।অন্যদিকে,প্রবন্ধপ্রকাশেরকয়েকঘণ্টাপর,একজনপাঠকTST-এরপদ্ধতিটি2024-এপ্রকাশিতপুরনোকাজ《BeyondNextTokenPrediction》-এরসঙ্গেঅত্যন্তঅনুরূপবলেউল্লেখকরেন।তখনঅনুসন্ধানকারীদলHuggingFace-এএটিকে"অদৃষ্টসমগ্রগবিষয়(convergentresearch)"হিসাবেস্বীকারকরেছিলএবংপ্রবন্ধটিতেউল্লেখসহযোগীভাবেআপডেটকরারপ্রতিশ্রুতিদিয়েছিল।(উৎস: BlockBeats)

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।