স্যাপিয়েন্ট 1B-প্যারামিটার HRM-টেক্সট মডেল ওপেন সোর্স করেছে যার প্রশিক্ষণ খরচ 1,300x কম

AIMPACT সংবাদ অনুযায়ী, ৫ মে ১৯ তারিখ (UTC+8), 动察 Beating-এর মনিটরিং অনুযায়ী, Sapient Intelligence ১০০ কোটি প্যারামিটার (1B) বিশিষ্ট টেক্সট জেনারেশন বেস মডেল HRM-Text-কে ওপেন সোর্স করেছে। এটি একটি স্তরভিত্তিক রিজনিং মডেল (HRM) আর্কিটেকচারের উপর ভিত্তি করে তৈরি সম্পূর্ণ প্রি-ট্রেইনড মডেল। এটি আর্কিটেকচারের নীচের স্তরে ল্যাটেন্ট স্পেস রিজনিং প্রবর্তনের মাধ্যমে বেস মডেল প্রি-ট্রেইনিং-এর কম্পিউটিং খরচ ১৩০ থেকে ৬০০ গুণ পর্যন্ত কমিয়ে এনেছে। নির্দিষ্টভাবে বলতে গেলে, HRM-Text মাত্র ৪০০ কোটি (40B) স্ট্রাকচার্ড Token ব্যবহার করেই প্রি-ট্রেইনিং সম্পন্ন করেছে, যার ডেটা পরিমাণ একই স্তরের প্রচলিত মডেলের প্রায় এক সহস্রাংশ। অফিসিয়াল বাস্তব পরীক্ষার ফলাফল অনুযায়ী, দুটি ৮-কার্ড H100 সার্ভার ব্যবহার করে, প্রায় ৪৬ ঘণ্টায় শূন্য থেকে 1B সংস্করণটির ট্রেনিং সম্পন্ন করা যায়, যার কম্পিউটিং খরচ প্রায় ১৪৭২ ডলার; আর 0.6B সংস্করণের জন্য কেবল একক নোডে ৫০ ঘণ্টা রান করলেই হয়, যার হার্ডওয়্যার খরচ প্রায় ৮০০ ডলার। ডেটা এক্সট্র্যাকশন, সিকোয়েন্স প্যাকিং এবং PyTorch ডিস্ট্রিবিউটেড ট্রেনিংসহ সম্পূর্ণ ইঞ্জিনিয়ারিং ফ্রেমওয়ার্ক একযোগে ওপেন সোর্স করা হয়েছে। চূড়ান্ত পর্যায়ের কস্ট রিডাকশনের পেছনে রয়েছে অনন্য Dual-timescale recurrent ডিজাইন। মডেলে বিল্ট-ইন রয়েছে দ্রুত (নিম্নস্তর) ও ধীর (উচ্চস্তর) – এই দুই সেট Transformer মডিউল। এই দুই সেট মডিউল একই ব্যাচ ইনপুটের উপর পালাক্রমে ইটারেশন করে এবং স্টেট সমন্বয়ের মাধ্যমে তথ্য বিনিময় করে। এই ডিজাইনটি মডেলকে ফিজিক্যাল প্যারামিটারের মোট পরিমাণ স্থির রেখে, লুপের সংখ্যা বৃদ্ধি করে ডায়নামিকভাবে কম্পিউটেশনের গভীরতা বাড়াতে দেয়। প্রি-ট্রেইনিংয়ের প্রবেশদ্বারের এমন নাটকীয় পতন অনেক মডেল তত্ত্বকে, যা অতীতে উচ্চ কম্পিউটিং খরচের কারণে স্থগিত ছিল, আবারও স্বল্প খরচে পরীক্ষামূলকভাবে যাচাই করার সুযোগ দিয়েছে। বিশেষভাবে লক্ষ্যণীয় যে, এবার যে সংস্করণটি প্রকাশ করা হয়েছে তা কেবলমাত্র আনঅ্যালাইন্ড খাঁটি প্রি-ট্রেইনড ওয়েট; মডেলটি শুধু প্রিফিক্স কনটিনুয়েশন টাস্ক সম্পাদন করতে সক্ষম, সরাসরি প্রশ্নোত্তর সহকারী হিসেবে ব্যবহার করা যাবে না। (সূত্র: BlockBeats)