স্যাপিয়েন্ট 1B-প্যারামিটার HRM-টেক্সট মডেল ওপেন সোর্স করেছে যার প্রশিক্ষণ খরচ 1,300x কম

iconKuCoinFlash
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
১৯ মে (UTC+8)-এ স্যাপিয়েন্ট ইন্টেলিজেন্স HRM-Text নামক একটি 1B প্যারামিটার টেক্সট মডেল ওপেন-সোর্স করে, যার হাইয়ারার্কিক্যাল রিজনিং আর্কিটেকচার রয়েছে। এই মডেলটি ল্যাটেন্ট স্পেস রিজনিং ব্যবহার করে প্রি-ট্রেনিং খরচ 130 থেকে 600 গুণ কমিয়েছে। এটি 40B স্ট্রাকচারড টোকেনের উপর ট্রেন করা হয়েছে, যা অনুরূপ মডেলগুলির তুলনায় অনেক কম ডেটা। 1B ভার্সনটি 46 ঘণ্টায় $1,472-এ দুটি 8-GPU H100 সার্ভার ব্যবহার করে ট্রেন করা যায়। 0.6B ভার্সনটির খরচ $800। ডেটা এক্সট্রাকশন এবং PyTorch ট্রেনিংসহ পুরো ইঞ্জিনিয়ারিং ফ্রেমওয়ার্কও ওপেন-সোর্স করা হয়েছে। এই রিলিজের প্রধান হাইলাইটগুলি হলো মুদ্রাস্ফীতির ডেটা এবং ট্রেনিংয়ের দক্ষতা।

AIMPACT সংবাদ অনুযায়ী, ৫ মে ১৯ তারিখ (UTC+8), 动察 Beating-এর মনিটরিং অনুযায়ী, Sapient Intelligence ১০০ কোটি প্যারামিটার (1B) বিশিষ্ট টেক্সট জেনারেশন বেস মডেল HRM-Text-কে ওপেন সোর্স করেছে। এটি একটি স্তরভিত্তিক রিজনিং মডেল (HRM) আর্কিটেকচারের উপর ভিত্তি করে তৈরি সম্পূর্ণ প্রি-ট্রেইনড মডেল। এটি আর্কিটেকচারের নীচের স্তরে ল্যাটেন্ট স্পেস রিজনিং প্রবর্তনের মাধ্যমে বেস মডেল প্রি-ট্রেইনিং-এর কম্পিউটিং খরচ ১৩০ থেকে ৬০০ গুণ পর্যন্ত কমিয়ে এনেছে। নির্দিষ্টভাবে বলতে গেলে, HRM-Text মাত্র ৪০০ কোটি (40B) স্ট্রাকচার্ড Token ব্যবহার করেই প্রি-ট্রেইনিং সম্পন্ন করেছে, যার ডেটা পরিমাণ একই স্তরের প্রচলিত মডেলের প্রায় এক সহস্রাংশ। অফিসিয়াল বাস্তব পরীক্ষার ফলাফল অনুযায়ী, দুটি ৮-কার্ড H100 সার্ভার ব্যবহার করে, প্রায় ৪৬ ঘণ্টায় শূন্য থেকে 1B সংস্করণটির ট্রেনিং সম্পন্ন করা যায়, যার কম্পিউটিং খরচ প্রায় ১৪৭২ ডলার; আর 0.6B সংস্করণের জন্য কেবল একক নোডে ৫০ ঘণ্টা রান করলেই হয়, যার হার্ডওয়্যার খরচ প্রায় ৮০০ ডলার। ডেটা এক্সট্র্যাকশন, সিকোয়েন্স প্যাকিং এবং PyTorch ডিস্ট্রিবিউটেড ট্রেনিংসহ সম্পূর্ণ ইঞ্জিনিয়ারিং ফ্রেমওয়ার্ক একযোগে ওপেন সোর্স করা হয়েছে। চূড়ান্ত পর্যায়ের কস্ট রিডাকশনের পেছনে রয়েছে অনন্য Dual-timescale recurrent ডিজাইন। মডেলে বিল্ট-ইন রয়েছে দ্রুত (নিম্নস্তর) ও ধীর (উচ্চস্তর) – এই দুই সেট Transformer মডিউল। এই দুই সেট মডিউল একই ব্যাচ ইনপুটের উপর পালাক্রমে ইটারেশন করে এবং স্টেট সমন্বয়ের মাধ্যমে তথ্য বিনিময় করে। এই ডিজাইনটি মডেলকে ফিজিক্যাল প্যারামিটারের মোট পরিমাণ স্থির রেখে, লুপের সংখ্যা বৃদ্ধি করে ডায়নামিকভাবে কম্পিউটেশনের গভীরতা বাড়াতে দেয়। প্রি-ট্রেইনিংয়ের প্রবেশদ্বারের এমন নাটকীয় পতন অনেক মডেল তত্ত্বকে, যা অতীতে উচ্চ কম্পিউটিং খরচের কারণে স্থগিত ছিল, আবারও স্বল্প খরচে পরীক্ষামূলকভাবে যাচাই করার সুযোগ দিয়েছে। বিশেষভাবে লক্ষ্যণীয় যে, এবার যে সংস্করণটি প্রকাশ করা হয়েছে তা কেবলমাত্র আনঅ্যালাইন্ড খাঁটি প্রি-ট্রেইনড ওয়েট; মডেলটি শুধু প্রিফিক্স কনটিনুয়েশন টাস্ক সম্পাদন করতে সক্ষম, সরাসরি প্রশ্নোত্তর সহকারী হিসেবে ব্যবহার করা যাবে না। (সূত্র: BlockBeats)

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।