অ্যালফাফোল্ড মুকুট বিপদে!
নেচার পত্রিকায় প্রকাশিত: জ্যাকবার্গের বায়োহাব এক বিশাল আঘাত হানে, একসাথে 11 বিলিয়ন প্রোটিন কাঠামোর পূর্বানুমান প্রকাশ করে, যা AlphaFold ডেটাবেস থেকে 8 বিলিয়ন বেশি।
পিছনের এআই মডেল ESMFold2 কে অ্যালফাফোল্ড3 কে সমস্ত দিক থেকে ছাড়িয়ে যাওয়ার দাবি করা হয়েছে।
আরও গুরুত্বপূর্ণ বিষয় হলো, এটি সম্পূর্ণরূপে ওপেন সোর্স এবং বাণিজ্যিক ব্যবহারের কোনো সীমাবদ্ধতা নেই।

https://www.nature.com/articles/d41586-026-01686-3
গুগল ডিপমাইনের বহু বছরের প্রোটিন AI-এর অধিপত্য এখন একটি ওপেন-সোর্স প্রতিদ্বন্দ্বীর দ্বারা কম্পিত হচ্ছে।
প্রোটিন এআই সেগমেন্টের পরিস্থিতি পুনর্লিখিত হতে পারে।
১১ বিলিয়ন প্রোটিন কাঠামো, একবারে টেবিলে পরিবেশন করা হয়েছে
মে 27 তারিখে, জ্যাকবার্গ দম্পতি দ্বারা প্রতিষ্ঠিত বায়োমেডিকেল প্রতিষ্ঠান বায়োহাব প্রোটিন স্ট্রাকচার ডাটাবেস ESM Atlas চালু করেছে।
১.১ বিলিয়ন প্রোটিন স্ট্রাকচার প্রেডিকশন এবং ৬.৮ বিলিয়ন প্রোটিন সিকোয়েন্স তথ্য।
অ্যালফাফোল্ডের ডেটাবেসে এখন পর্যন্ত 2 কোটি এরও বেশি স্ট্রাকচার প্রেডিকশন জমা হয়েছে, এবং ESM অ্যাটলাস একসাথে 8 কোটি অতিরিক্ত প্রেডিকশন যোগ করেছে।
এই পূর্বানুমানগুলি তৈরি করার জন্য ব্যবহৃত এআই মডেলটি হল ESMFold2, যা বায়োহাবের বিজ্ঞানী প্রধান এলেক্স রিভসের নেতৃত্বে বিকশিত হয়েছে।

রিভস বলছেন:
এই গ্রাফ প্রোটিন জীববিজ্ঞানের সম্পূর্ণ চিত্র দেখায়, বিশেষ করে সবচেয়ে অজানা অংশগুলি।
প্রোটিন স্ট্রাকচার প্রেডিকশন কেন গুরুত্বপূর্ণ?
প্রোটিন হল জীবনের কার্যক্রমের কেন্দ্রীয় অংশ, এর আকৃতি জানা থাকলে এর কার্যক্রম বুঝতে পারা যায়, যার ফলে নতুন ওষুধ ডিজাইন করা এবং রোগ দূর করা সম্ভব হয়।
অ্যালফাফোল্ড এই কারণে নোবেল পুরস্কার জিতেছে, এটি একটি চিহ্নিত উদাহরণ যা AI কীভাবে বিজ্ঞানকে পরিবর্তন করেছে।
এখন একটি নতুন মডেল বড় 5 গুণ ডেটাসেট নিয়ে এগিয়ে এসেছে।
ESMFold2 একটি এআই মডেল হিসাবে, এর শক্তি কোথায়?
ESMFold2 একটি আলফাফোল্ডের থেকে ভিন্ন প্রযুক্তিগত পথ অনুসরণ করেছে।
এটি 2024 সালে প্রকাশিত «প্রোটিন ভাষা মডেল»-এর উপর ভিত্তি করে তৈরি, যার মূল ধারণা NLP ক্ষেত্রের পদ্ধতি থেকে অনুপ্রাণিত, যেখানে প্রোটিন অনুক্রমকে একটি «ভাষা» হিসাবে বুঝা হয়, এবং বিলিয়ন বিলিয়ন প্রোটিন ডেটা দিয়ে মডেলটিকে প্রশিক্ষণ দেওয়া হয়েছে যাতে এটি সরাসরি অনুক্রম থেকে 3D কাঠামো পূর্বানুমান করতে পারে।
এখানে অ্যালফাফোল্ডের এআই সহকর্মীদের এটি পরিচিত মনে হবে, কারণ এটি বড় ভাষা মডেলগুলির মানুষের ভাষা শেখার যুক্তির সমান।
ট্রেনিং ডেটার কভারেজ একটি কী ভেরিয়েবল।
ESMFold2-এ মাটি, সমুদ্র ইত্যাদি পরিবেশ থেকে আগত বহু মাইক্রোবিয়াল প্রোটিন ডেটা অন্তর্ভুক্ত করা হয়েছে, যেগুলি AlphaFold-এর ডাটাবেসে খালি ছিল।
ব্যাপ্তি বেশি হলে, মডেলটি যে প্রোটিন বিশ্ব দেখেছে তা আরও পূর্ণাঙ্গ হয়।
বায়োহাব দল বলেছে, ESMFold2 প্রোটিনের মধ্যে পারস্পরিক ক্রিয়ার কমপ্লেক্স কাঠামো পূর্বাভাস দেওয়ার ক্ষেত্রে AlphaFold3-এর চেয়ে ভালো পারফর্ম করে।
কিন্তু সবচেয়ে বেশি প্রামাণিক হল পারফরম্যান্স নয়, বরং বাস্তবায়ন যাচাই।
টিম ইএসএমফোল্ড2 ব্যবহার করে সম্পূর্ণ নতুন প্রোটিন ডিজাইন করেছে, এগুলি ল্যাবে সংশ্লেষণ এবং পরীক্ষা করা হয়েছে, এবং ডিজাইনের উচ্চ অনুপাত প্রত্যাশিতভাবে কাজ করেছে।
প্রেডিকশন থেকে ডিজাইন এবং তারপর ভেরিফিকেশন পর্যন্ত এই লিংকটি সফলভাবে চালু হলে, মূল্য পেপার থেকে বাস্তব বিশ্বে বিস্তৃত হয়।

সম্পূর্ণ ওপেন সোর্স, এটাই সবচেয়ে বড় হত্যাকারী হাতিয়ার
ESMFold2-এর সবচেয়ে শক্তিশালী প্রতিদ্বন্দ্বিতামূলক অস্ত্র হল এটি সম্পূর্ণরূপে ওপেন-সোর্স এবং বাণিজ্যিক ব্যবহারের জন্য কোনো সীমাবদ্ধতা নেই।
এই পছন্দের কৌশলগত গুরুত্বটি সম্পূর্ণ এআই শিল্পের প্রেক্ষাপটে আরও পরিষ্কারভাবে বোঝা যায়।
অ্যালফাফোল্ডের জন্য একটি খোলা ডাটাবেস রয়েছে, তবে অ্যালফাফোল্ড3 প্রকাশের প্রাথমিক পর্যায়ে বাণিজ্যিক ব্যবহারের জন্য সীমাবদ্ধতা আরোপ করা হয়েছিল।
গুগল ডিপমাইনের অধীনে ইসোমরফিক ল্যাবস এই বছর প্রকাশ করা প্রোটিন পারস্পরিক ক্রিয়া পূর্বানুমান মডেলটি সম্পূর্ণরূপে বন্ধ সোর্স।
অতিরিক্ত পড়ুন: গুগল আলফাফোল্ড 4 প্রকাশ করেছে, আর ওপেন-সোর্স করছে না! পারফরম্যান্সে আগের সংস্করণকে পিছনে ফেলেছে
এমআইটির কম্পিউটেশনাল বায়োলজিস্ট ওভচিনিকভ সরাসরি ওপেন সোর্সের মূল্য উল্লেখ করেন, "আমি প্রত্যাশা করি অনেকেই ESMFold2 পরীক্ষা করতে উত্তেজিত হবেন।"
বড় ভাষা মডেলের ক্ষেত্রে ওপেন-সোর্স এআই-এর লিভারেজ ইতিমধ্যেই প্রমাণিত হয়েছে, মেটা-এর লামা সিরিজ সেই সেরা উদাহরণ।
একটি যথেষ্ট শক্তিশালী ওপেন-সোর্স মডেল যা বিশ্বব্যাপী সম্প্রদায়কে পুনরায় বিকাশ, প্রয়োগ এবং মূল ডেভেলপারদেরও অজানা ব্যবহার আবিষ্কারের জন্য উত্সাহিত করতে পারে।
প্রোটিন এআই ক্ষেত্রে পরিস্থিতি আরও বিশেষ, বিশ্বব্যাপী অসংখ্য ল্যাব এবং গবেষণা প্রতিষ্ঠান একটি বিনামূল্যে, অসীম স্ট্রাকচার প্রেডিকশন টুলের প্রতি তীব্র আকাঙ্ক্ষা রাখে, বন্ধ সোর্স মডেল যতই শক্তিশালী হোক না কেন, এর পৌঁছানোর সম্ভাবনা সীমিত।
বায়োহাব মেটা দ্বারা বড় ভাষা মডেলের ক্ষেত্রে অনুসৃত পদ্ধতির সাথে সামঞ্জস্যপূর্ণভাবে সম্পূর্ণরূপে ওপেন-সোর্স করেছে।
জ্যাকবার্গের এআই ক্ষেত্রের কৌশল ধীরে ধীরে স্পষ্ট হয়ে উঠছে—ওপেন সোর্স দিয়ে ইনফ্রাস্ট্রাকচার, একোসিস্টেম দিয়ে প্রতিরক্ষা।

সহকর্মী বিশেষজ্ঞ, আপনি কি কিনবেন?
শিক্ষাবিদদের প্রতিক্রিয়া ইতিবাচক, তবে সংশয়ও স্পষ্ট।
সুইডেনের লুন্ড বিশ্ববিদ্যালয়ের গেমা অ্যাটকিনসন বলেছেন যে ESM Atlas এর উচিত "জীববিজ্ঞানের একটি অসাধারণ সম্পদ হওয়া"।

University College London-এর Christine Orengo এর মূল্যকে স্বীকার করেন, কিন্তু প্রেডিকশন ফলাফলগুলির স্বতন্ত্রভাবে যাচাইয়ের উপর জোর দেন।

সিওল জাতীয় বিশ্ববিদ্যালয়ের মার্টিন স্টাইনেগার থেকে আরও তীব্র প্রশ্ন এসেছে।

তিনি চান যে ESMFold2 যে সব নতুন কাঠামোর সাথে পরিচিত প্রোটিন থেকে ব্যাপকভাবে ভিন্ন, সেগুলির সাথে কীভাবে পারফর্ম করে।
তার দল আগে দেখেছিল যে এসএমফোল্ডের প্রথম সংস্করণ এই দিকে খুব ভালো ছিল না। এই সমস্যাটি এসএমফোল্ড2-এর জন্য এখনও অসমাপ্ত।
এমআইটির ওভচিনিকভ সবচেয়ে শান্ত মূল্যায়ন দিয়েছেন, তিনি মনে করেন যে ইএসএম অ্যাটাসকে আলফাফোল্ড ডেটাবেসের পূরক হিসেবে অবস্থান দেওয়া উচিত।

তিনি আরও উল্লেখ করেন যে, আইসোমরফিক ল্যাবসের বন্ধ সোর্স মডেল এবং কিছু বায়োহাবের সরাসরি তুলনামূলক ওপেন সোর্স মডেলও একই পর্যায়ের ফলাফল অর্জন করেছে।
ESMFold2-এর অগ্রগতির পরিসর সম্ভবত পেপারটি ইঙ্গিত করেছে ততটা বড় নয়।
এই সাবধানতা ঠিক প্রোটিন এআই প্রতিযোগিতার তীব্রতা প্রতিফলিত করে।
খোলা সোর্স, বন্ধ সোর্স, শিক্ষাগত, বাণিজ্যিক—সব ধরনের মডেল অত্যন্ত দ্রুত আপডেট হচ্ছে।
আজকের "সবচেয়ে শক্তিশালী" ছয় মাস পরে আপডেট হয়ে যেতে পারে। এই গতি বড় ভাষা মডেল প্রতিযোগিতার অস্ত্র প্রতিযোগিতার সাথে খুব মিলে যায়।
যখন এআই জীবনের সোর্স কোড বুঝতে শুরু করে
অতীতে, একটি প্রোটিনের ত্রিমাত্রিক কাঠামো বিশ্লেষণ করতে মাস থেকে বছর পর্যন্ত ল্যাব কাজ লাগত।
অ্যালফাফোল্ড প্রথমবারের মতো প্রমাণ করেছে যে এআই কয়েক মিনিটের মধ্যে এটি করতে পারে।
এখন ESMFold2 প্রেডিকশন স্কেলকে 11 বিলিয়ন লেভেলে নিয়ে গেছে, যা আগে কখনও পাইলট করা হয়নি এমন প্রোটিনগুলির ব্যাপক পরিসরকে কভার করে।
এই পথে এগিয়ে যাওয়ার সাথে সাথে, যখন এআই সমস্ত প্রোটিন গঠন সঠিকভাবে পূর্বানুমান করতে পারবে, নতুন করে কার্যকরী প্রোটিন ডিজাইন করতে পারবে এবং পরীক্ষামূলকভাবে তা যাচাই করা যাবে, তখন AGI-এর জীববিজ্ঞানের ক্ষেত্রে বাস্তবায়ন অধিকাংশের কল্পনার চেয়ে অনেক কাছাকাছি হয়ে যাবে।
যদি এএসআই প্রকৃতপক্ষে আসে, তবে জীববিজ্ঞান এর জন্য একটি "অধ্যয়ন" করার প্রয়োজন হওয়া বিষয় নয়, বরং একটি "প্রকৌশলীকরণযোগ্য" সিস্টেম হয়ে উঠবে।
জীবনকে অণুর পর্যায়ে ডিজাইন করুন, প্রয়োজন অনুযায়ী প্রোটিন কাস্টমাইজ করুন, বিবর্তনের নিয়ম পুনর্লিখন করুন।
এটা বিজ্ঞান কল্পকাহিনীর মতো শোনাচ্ছে, কিন্তু ESMFold2-এর মতো টুলগুলি ধাপে ধাপে "বিজ্ঞান কল্পকাহিনী"কে "ইঞ্জিনিয়ারিং সমস্যা" তে পরিণত করছে।
আজ, 1.1 বিলিয়ন প্রোটিন গঠন টেবিলের উপর ছড়িয়ে দেওয়া হয়েছে, যে কোনও নেটওয়ার্ক সংযুক্ত বিজ্ঞানী বিশ্বজুড়ে এগুলি বিনামূল্যে ব্যবহার করতে পারবেন।
এর অর্থ হলো, এআই জীবনকে বুঝার ক্ষমতা আরও এক ধাপ এগিয়েছে।
প্রসঙ্গ: https://www.nature.com/articles/d41586-026-01686-3
এই লেখাটি ওয়েইচ্যাট গ্রুপ "নিউ জ্ঞান মেট্রিক্স" থেকে এসেছে, লেখক: ASI রিভিলেশন; সম্পাদক: মা কে
