AIMPACT সংবাদ অনুযায়ী, ৫ মে ১৯ তারিখ (UTC+8), 动察 Beating-এর মনিটরিং অনুযায়ী, Sapient Intelligence ১০০ কোটি প্যারামিটার (1B) বিশিষ্ট টেক্সট জেনারেশন বেস মডেল HRM-Text-কে ওপেন সোর্স করেছে। এটি একটি স্তরভিত্তিক রিজনিং মডেল (HRM) আর্কিটেকচারের উপর ভিত্তি করে তৈরি সম্পূর্ণ প্রি-ট্রেইনড মডেল। এটি আর্কিটেকচারের নীচের স্তরে ল্যাটেন্ট স্পেস রিজনিং প্রবর্তনের মাধ্যমে বেস মডেল প্রি-ট্রেইনিং-এর কম্পিউটিং খরচ ১৩০ থেকে ৬০০ গুণ পর্যন্ত কমিয়ে এনেছে। নির্দিষ্টভাবে বলতে গেলে, HRM-Text মাত্র ৪০০ কোটি (40B) স্ট্রাকচার্ড Token ব্যবহার করেই প্রি-ট্রেইনিং সম্পন্ন করেছে, যার ডেটা পরিমাণ একই স্তরের প্রচলিত মডেলের প্রায় এক সহস্রাংশ। অফিসিয়াল বাস্তব পরীক্ষার ফলাফল অনুযায়ী, দুটি ৮-কার্ড H100 সার্ভার ব্যবহার করে, প্রায় ৪৬ ঘণ্টায় শূন্য থেকে 1B সংস্করণটির ট্রেনিং সম্পন্ন করা যায়, যার কম্পিউটিং খরচ প্রায় ১৪৭২ ডলার; আর 0.6B সংস্করণের জন্য কেবল একক নোডে ৫০ ঘণ্টা রান করলেই হয়, যার হার্ডওয়্যার খরচ প্রায় ৮০০ ডলার। ডেটা এক্সট্র্যাকশন, সিকোয়েন্স প্যাকিং এবং PyTorch ডিস্ট্রিবিউটেড ট্রেনিংসহ সম্পূর্ণ ইঞ্জিনিয়ারিং ফ্রেমওয়ার্ক একযোগে ওপেন সোর্স করা হয়েছে। চূড়ান্ত পর্যায়ের কস্ট রিডাকশনের পেছনে রয়েছে অনন্য Dual-timescale recurrent ডিজাইন। মডেলে বিল্ট-ইন রয়েছে দ্রুত (নিম্নস্তর) ও ধীর (উচ্চস্তর) – এই দুই সেট Transformer মডিউল। এই দুই সেট মডিউল একই ব্যাচ ইনপুটের উপর পালাক্রমে ইটারেশন করে এবং স্টেট সমন্বয়ের মাধ্যমে তথ্য বিনিময় করে। এই ডিজাইনটি মডেলকে ফিজিক্যাল প্যারামিটারের মোট পরিমাণ স্থির রেখে, লুপের সংখ্যা বৃদ্ধি করে ডায়নামিকভাবে কম্পিউটেশনের গভীরতা বাড়াতে দেয়। প্রি-ট্রেইনিংয়ের প্রবেশদ্বারের এমন নাটকীয় পতন অনেক মডেল তত্ত্বকে, যা অতীতে উচ্চ কম্পিউটিং খরচের কারণে স্থগিত ছিল, আবারও স্বল্প খরচে পরীক্ষামূলকভাবে যাচাই করার সুযোগ দিয়েছে। বিশেষভাবে লক্ষ্যণীয় যে, এবার যে সংস্করণটি প্রকাশ করা হয়েছে তা কেবলমাত্র আনঅ্যালাইন্ড খাঁটি প্রি-ট্রেইনড ওয়েট; মডেলটি শুধু প্রিফিক্স কনটিনুয়েশন টাস্ক সম্পাদন করতে সক্ষম, সরাসরি প্রশ্নোত্তর সহকারী হিসেবে ব্যবহার করা যাবে না। (সূত্র: BlockBeats)
স্যাপিয়েন্ট 1B-প্যারামিটার HRM-টেক্সট মডেল ওপেন সোর্স করেছে যার প্রশিক্ষণ খরচ 1,300x কম
KuCoinFlashশেয়ার






১৯ মে (UTC+8)-এ স্যাপিয়েন্ট ইন্টেলিজেন্স HRM-Text নামক একটি 1B প্যারামিটার টেক্সট মডেল ওপেন-সোর্স করে, যার হাইয়ারার্কিক্যাল রিজনিং আর্কিটেকচার রয়েছে। এই মডেলটি ল্যাটেন্ট স্পেস রিজনিং ব্যবহার করে প্রি-ট্রেনিং খরচ 130 থেকে 600 গুণ কমিয়েছে। এটি 40B স্ট্রাকচারড টোকেনের উপর ট্রেন করা হয়েছে, যা অনুরূপ মডেলগুলির তুলনায় অনেক কম ডেটা। 1B ভার্সনটি 46 ঘণ্টায় $1,472-এ দুটি 8-GPU H100 সার্ভার ব্যবহার করে ট্রেন করা যায়। 0.6B ভার্সনটির খরচ $800। ডেটা এক্সট্রাকশন এবং PyTorch ট্রেনিংসহ পুরো ইঞ্জিনিয়ারিং ফ্রেমওয়ার্কও ওপেন-সোর্স করা হয়েছে। এই রিলিজের প্রধান হাইলাইটগুলি হলো মুদ্রাস্ফীতির ডেটা এবং ট্রেনিংয়ের দক্ষতা।
উৎস:আসল দেখান
দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না।
ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।