সংগঠিত ও সংকলিত: শেনচাও টেকফ্লো
অতিথি: ডেমিস হ্যাসাবিস (DeepMind এর প্রতিষ্ঠাতা, ২০২৪ এর নোবেল রসায়ন পুরস্কার বিজয়ী, Google DeepMind এর প্রধান)
হোস্ট: গ্যারি ট্যান
পডকাস্ট সোর্স: Y Combinator
ডেমিস হ্যাসাবিস: এজেন্টস, এজিআই এবং পরবর্তী বড় বৈজ্ঞানিক উদ্ভাবন
প্রচারের সময়: 2026 সালের 29 এপ্রিল
সম্পাদকীয় ভূমিকা
গুগল ডিপমাইন্ডের সিইও এবং নোবেল রসায়ন পুরস্কার বিজয়ী ডেমিস হ্যাসাবিস Y Combinator-এ আসেন এবং এজিআই-এর দিকে যাওয়ার জন্য কী কী মূল অগ্রগতি প্রয়োজন, কীভাবে উদ্যোক্তাদের অগ্রণী অবস্থানে থাকা উচিত তার পরামর্শ, এবং পরবর্তী বড় বৈজ্ঞানিক বিপ্লবটি কোথায় ঘটতে পারে তা নিয়ে আলোচনা করেন। গভীর প্রযুক্তির উদ্যোক্তাদের জন্য সবচেয়ে ব্যবহারিক বিচারটি হল, আপনি যদি আজ 10-বছরের একটি গভীর প্রযুক্তি প্রকল্প শুরু করেন, তবে AGI-এর উত্থানটিকে আপনার পরিকল্পনায় অন্তর্ভুক্ত করতে হবে। তিনি Isomorphic Labs (DeepMind-এর একটি AI-চিকিৎসা কোম্পানি) -এর কাছাকাছি একটি বড় ঘোষণা হওয়ারও কথা উল্লেখ করেন।

সর্বশ্রেষ্ঠ উক্তি
AGI রুট এবং টাইমলাইন
- এই বর্তমান প্রযুক্তিগত উপাদানগুলি প্রায় নিশ্চিতভাবে এজিআই-এর চূড়ান্ত আর্কিটেকচারের অংশ হয়ে উঠবে।
- "স্থায়ী শিক্ষা, দীর্ঘমেয়াদী যুক্তিসঙ্গত চিন্তা এবং স্মৃতির কিছু দিক এখনও সমাধান করা হয়নি, AGI-এর জন্য সবকিছু সমাধান করা দরকার।"
- যদি আপনার এজিআই-এর সময়সূচী আমার মতো প্রায় ২০৩০ সাল হয়, এবং আপনি আজ একটি ডিপ টেক প্রকল্প শুরু করেন, তাহলে আপনাকে বিবেচনা করতে হবে যে এজিআই পথের মধ্যেই আসবে।
মেমোরি এবং কনটেক্সট উইন্ডো
- কনটেক্সট উইন্ডোটি প্রায় কাজের স্মৃতির সমান। মানুষের কাজের স্মৃতির গড় মাত্র সাতটি সংখ্যা, আমাদের এক মিলিয়ন বা দশ মিলিয়ন টোকেনের কনটেক্সট উইন্ডো আছে। কিন্তু সমস্যা হলো আমরা সবকিছুকেই এর মধ্যে ঢুকিয়ে দিচ্ছি, অপ্রাসঙ্গিক, ভুল তথ্যসহ—বর্তমানে এই পদ্ধতি খুবই অসভ্য।
- যদি আপনি রিয়েল-টাইম ভিডিও স্ট্রিম প্রসেস করেন এবং সমস্ত টোকেন সংরক্ষণ করেন, তাহলে এক মিলিয়ন টোকেন মাত্র প্রায় ২০ মিনিটের জন্য যথেষ্ট।
যুক্তির ত্রুটি
- আমি জেমিনির সাথে শ্যাচ খেলি। এটি কখনও কখনও বুঝতে পারে যে এটি একটি খারাপ চাল, কিন্তু ভালো কোনো চাল খুঁজে পায় না, ফলে একবার ঘুরে আবার সেই খারাপ চালটিই করে। কিন্তু একটি সঠিক যুক্তিভিত্তিক সিস্টেমে এই ধরনের ঘটনা ঘটা উচিত নয়।
- এটি একদিকে আইএমও স্বর্ণপদক মানের প্রশ্ন সমাধান করতে পারে, অন্যদিকে প্রশ্নটি ভিন্নভাবে জিজ্ঞাসা করলে প্রাথমিক স্কুলের গণিতের ভুল করে। নিজের চিন্তার প্রক্রিয়ার প্রতিফলনে, মনে হয় কিছুটা অভাব রয়েছে।
এজেন্ট এবং সৃজনশীলতা
- AGI পৌঁছাতে, আপনার একটি সিস্টেম দরকার যা আপনার জন্য সক্রিয়ভাবে সমস্যার সমাধান করতে পারে। এজেন্টই সেই পথ, আমি মনে করি আমরা শুধু শুরু করেছি।
- আমি এখনও কাউকে ভাইব কোডিং ব্যবহার করে একটি অ্যাপ স্টোর চার্টের শীর্ষে পৌঁছানো 3A গেম তৈরি করতে দেখিনি। বর্তমানে যে পরিমাণ প্রচেষ্টা দেওয়া হচ্ছে, তাতে এটি সম্ভব হওয়া উচিত, কিন্তু এখনও ঘটেনি। এর মানে হলো, টুলস বা প্রক্রিয়ায় কিছু অভাব আছে।
ডিসিলেশন এবং ছোট মডেল
- আমাদের ধারণা হলো, একটি অগ্রণী Pro মডেল প্রকাশের ছয় মাস থেকে এক বছর পরে, এর ক্ষমতা খুব ছোট, এজ ডিভাইসে চালানো যায় এমন মডেলে সংকুচিত হয়ে যাবে। এখন পর্যন্ত তথ্যের ঘনত্বের তাত্ত্বিক সীমার সম্মুখীন হওয়া হয়নি।
বৈজ্ঞানিক আবিষ্কার এবং 'আইনস্টাইন টেস্ট'
- আমি এটিকে কখনও কখনও "আইনস্টাইন টেস্ট" বলি, অর্থাৎ কি 1901 সালের জ্ঞান দিয়ে একটি সিস্টেমকে প্রশিক্ষণ দেওয়া যায় এবং তারপর এটিকে স্বাধীনভাবে আইনস্টাইনের 1905 সালের অর্জনগুলি—যেমন বিশেষ আপেক্ষিকতা—উদ্ভাবন করতে দেওয়া যায়। একবার এটি সম্ভব হয়ে গেলে, এই সিস্টেমগুলি পুরোপুরি নতুন কিছু আবিষ্কারের খুব কাছাকাছি চলে আসবে।
- একটি মিলেনিয়াম পুরস্কার সমস্যা সমাধান করা ইতিমধ্যেই অসাধারণ। কিন্তু এর চেয়েও কঠিন হলো, একটি নতুন মিলেনিয়াম পুরস্কার সমস্যার সেট তৈরি করা, যা শীর্ষ গণিতবিদদের দ্বারা একই গভীরতা এবং জীবনব্যাপী অধ্যয়নের মতো মূল্যবান বলে বিবেচিত হয়।
গভীর প্রযুক্তি স্টার্টআপের পরামর্শ
- কঠিন প্রশ্ন এবং সহজ প্রশ্ন অনুসরণ করা প্রায় একই জিনিস, শুধু কঠিন হওয়ার উপায় ভিন্ন। জীবন খুব ছোট, তাই যে কাজগুলো আপনি না করলে আসলেই কেউ করবে না, সেগুলোতেই আপনার শক্তি ব্যয় করুন।
AGI বাস্তবায়নের পথ
গ্যারি টান: আপনি প্রায় সবার চেয়ে বেশি সময় এজিআই নিয়ে চিন্তা করেছেন। বর্তমান প্যারাডাইমটি দেখে, আপনি কি মনে করেন আমরা এখন এজিআই-এর চূড়ান্ত আর্কিটেকচারের কতটা অংশ পেয়েছি? এখন মৌলিকভাবে কী অনুপস্থিত?
ডেমিস হ্যাসাবিস: বড় পরিসরের প্রি-ট্রেনিং, আরএলএইচএফ, থিংকিং চেইন ইত্যাদি, আমি খুব নিশ্চিত যে এগুলি এজিআইয়ের চূড়ান্ত আর্কিটেকচারের অংশ হবে। এই প্রযুক্তিগুলি আজ পর্যন্ত অনেক কিছু প্রমাণ করেছে। আমি কল্পনা করতে পারছি না যে দুই বছর পরে আমরা এটিকে একটি মৃত পথ হিসাবে আবিষ্কার করব, এটি আমার জন্য যুক্তিসঙ্গত নয়। তবে বিদ্যমান জিনিসগুলির উপরে, এখনও এক-দুইটি জিনিসের অভাব আছে। ধারাবাহিক শেখা (continual learning), দীর্ঘ-পরিসরের যুক্তি (long-term reasoning), মেমোরির কিছু দিক, এবং কিছু সমস্যা এখনও সমাধান হয়নি। এজিআইয়ের জন্য সবকিছুই সমাধান করা দরকার। সম্ভবত, বিদ্যমান প্রযুক্তির উপরে কিছু ধাপে ধাপে উন্নতির মাধ্যমেই এটি অর্জনযোগ্য, কিন্তু এখনও এক-দুইটি বড়, কীভাবে-প্রয়োজনীয় বিষয়েরও অভাব থাকতে পারে। আমি মনে করি এটি ১-২টিরও beshi hobe na।আমার personal judgment-এ,এই unexplored key points-এর existence-এর probability roughly 50-50।সুতরাং Google DeepMind-এ,আমরা do line-ei progress korchhi।
গ্যারি টান: আমি অনেকগুলি এজেন্ট সিস্টেমের সাথে কাজ করি, এবং সবচেয়ে আশ্চর্যজনক বিষয় হল যে মূলত একই ওজনগুলি বারবার ব্যবহার করা হয়। তাই ধারাবাহিক শেখা ধারণাটি বিশেষভাবে আকর্ষণীয়, কারণ এখন আমরা প্রায়শই কাগজের টেপ দিয়ে অস্থায়ীভাবে জোড়া লাগিয়েছি, যেমন “রাতের স্বপ্ন চক্র”-এর মতো জিনিসগুলি।
ডেমিস হ্যাসাবিস: হ্যাঁ, সেই স্বপ্নের চক্রগুলি খুব চমৎকার। আমরা আগেও পরিস্থিতি স্মৃতির একীভূতকরণ নিয়ে চিন্তা করেছিলাম। আমার ডক্টরেট গবেষণা ছিল হিপ্পোক্যাম্পাস কিভাবে নতুন জ্ঞানকে পূর্ববর্তী জ্ঞানের কাঠামোতে দক্ষতার সাথে একীভূত করে। মস্তিষ্ক এটি অত্যন্ত ভালভাবে করে। এটি ঘুমের সময়, বিশেষ করে REM ঘুম (REM sleep) এর সময়, গুরুত্বপূর্ণ অভিজ্ঞতাগুলির পুনরাবৃত্তি করে এটি শেখে। আমাদের প্রথম Atari প্রোগ্রাম DQN (DeepMind-এর 2013 সালে প্রকাশিত ডিপ Q-নেটওয়ার্ক, যা 2013 সালে Deep Reinforcement Learning-এর মাধ্যমে Atari গেমগুলিতে মানব-স্তরের পারফরম্যান্স অর্জন করেছিল) Atari গেমগুলি শিখতে পারে, একটি মূল পদ্ধতি হল অভিজ্ঞতা-পুনরাবৃত্তি (experience replay)। এটি নিউরোসায়েন্স থেকে শেখা, সফল পথগুলির পুনরাবৃত্তি। 2013-এর কথা, AI-এর ক্ষেত্রে এটি প্রাচীনকাল, কিন্তু সেইসময়ে এটি অত্যন্ত গুরুত্বপূর্ণ।
আমি আপনার কথায় সম্মত, এখন আমরা সবকিছুকে কনটেক্সট উইন্ডোতে টেপ দিয়ে জড়িয়ে ফেলছি। এটা ঠিক মনে হচ্ছে না। যদিও আমরা বায়োলজিক্যাল মস্তিষ্কের পরিবর্তে মেশিন তৈরি করছি, যার থিওরেটিক্যালি মিলিয়ন বা কোটি লেভেলের কনটেক্সট উইন্ডো থাকতে পারে এবং মেমরি পারফেক্ট হতে পারে, তবুও খোঁজা এবং রিট্রিভ করার খরচ বিদ্যমান। এই মুহূর্তে, যখন আমাদের নির্দিষ্ট সিদ্ধান্ত নিতে হচ্ছে, সত্যিকারের সংশ্লিষ্ট তথ্যগুলি খুঁজে পাওয়াটা সহজ নয়, যদিও আপনি সবকিছুই সংরক্ষণ করতে পারেন। তাই, আমার মনে হয়, মেমরির ক্ষেত্রে এখনও অনেক ইনোভেশনের সম্ভাবনা রয়েছে।
গ্যারি ট্যান: সত্যি বলতে কি, মিলিয়ন টোকেনের কনটেক্সট উইন্ডো আমার প্রত্যাশার চেয়ে অনেক বড়, এটি অনেক কিছু করতে পারে।
ডেমিস হ্যাসাবিস: এটি বেশিরভাগ প্রয়োগের জন্য যথেষ্ট বড়। কিন্তু ভাবুন, কনটেক্সট উইন্ডো প্রায় কাজের স্মৃতির সমতুল্য। মানুষের কাজের স্মৃতির গড় মাত্র সাতটি সংখ্যা, আমাদের কাছে লক্ষ বা কোটি স্তরের কনটেক্সট উইন্ডো আছে। সমস্যা হলো, আমরা এতে সবকিছুই ঢুকিয়ে দিচ্ছি, অপ্রাসঙ্গিক, ভুল তথ্যসহ—এখনও এই পদ্ধতি খুবই অসভ্য। আর যদি আপনি বাস্তবসময়ের ভিডিও স্ট্রিম প্রক্রিয়াকরণ করতে চান, এবং সবগুলো token-কে অক্ষমভাবে রেকর্ড করেন, তাহলে একমিলিয়ন token-এর জন্য মাত্র ২০ মিনিটেরও কম সময়ই পর্যাপ্ত। কিন্তু যদি আপনি চান যেন সিস্টেমটি আপনার ১-২ মাসের জীবনযাপনকে বুঝতে পারে, তাহলে এটি অনেকদূরে।
গ্যারি ট্যান: ডিপমাইন্ড সর্বদা রিইনফোর্সমেন্ট লার্নিং এবং সার্চে গভীরভাবে নিবেদিত ছিল, এই দর্শনটি আপনাদের এখন জেমিনি তৈরি করার প্রক্রিয়ায় কতটা প্রবেশ করেছে? কি রিইনফোর্সমেন্ট লার্নিং এখনও অবহেলিত হচ্ছে?
ডেমিস হ্যাসাবিস: এটি সম্ভবত অত্যন্ত কম মূল্যায়ন করা হয়েছে। এই ক্ষেত্রে আগ্রহের তীব্রতা বদলায়। আমরা DeepMind-এর প্রথম দিন থেকেই Agent সিস্টেম তৈরি করছি। Atari এবং AlphaGo-এর সমস্ত কাজ, মূলত, স্বাধীনভাবে লক্ষ্য অর্জন, সিদ্ধান্ত গ্রহণ এবং পরিকল্পনা করতে পারে এমন শক্তিশালী শিক্ষা Agent-এর উপর ভিত্তি করে। অবশ্যই, আমরা তখন গেমিং ক্ষেত্রটি বেছে নিয়েছিলাম, কারণ এটির জটিলতা নিয়ন্ত্রণযোগ্য, তারপর ধাপে ধাপে আরও জটিল গেমগুলিতে এগিয়েছি, যেমন AlphaGo-এর পরে AlphaStar-এর কাজ। প্রায় আমরা যা করতে পারি, সবগুলোই গেমগুলিতেই করেছি।
পরবর্তী প্রশ্ন হলো, এই মডেলগুলিকে শুধুমাত্র গেম মডেল নয়, বিশ্ব মডেল বা ভাষা মডেল হিসেবেও সাধারণীকরণ করা সম্ভব কি? গত কয়েক বছর ধরে আমরা এই কাজটি করে আসছি। আজকের সমস্ত অগ্রণী মডেলের চিন্তার প্যাটার্ন এবং চিন্তার শৃঙ্খল যুক্তি মূলত AlphaGo-এর সময়কার আবিষ্কৃত জিনিসগুলিরই পুনরাবির্ভাব। আমি মনে করি, আমরা সেই সময়ে যেসব কাজ করেছিলাম, তা আজকের সাথে অত্যন্ত সম্পর্কিত, আমরা এখন সেইসব পুরনো ধারণাগুলিকে আবারও পর্যালোচনা করছি, বড় স্কেলে, আরও সাধারণভাবে—যেমন: মন্টেকার্লো ট্রি সার্চ (Monte Carlo tree search)সহ বিভিন্ন শক্তিশালী শিক্ষণ (reinforcement learning)পদ্ধতি। AlphaGo এবং AlphaZero-এর ধারণাগুলি আজকের বেসিক মডেলগুলির সাথে অত্যন্ত সম্পর্কিত, আমি মনে করি, ভবিষ্যতের কয়েকটি বছরের উন্নতির বড় অংশই এখানথেকেই আসবে।
ডিসিলেশন এবং ছোট মডেল
গ্যারি টান: এখন বুদ্ধিমান হতে হলে বড় মডেল দরকার, কিন্তু একইসাথে ডিসিলেশন প্রযুক্তিও উন্নতি পাচ্ছে, ছোট মডেলগুলি খুব দ্রুত হয়ে উঠতে পারে। আপনাদের Flash মডেল খুব শক্তিশালী, এটি প্রায় 95% এগ্রেসিভ মডেলের কার্যকারিতা অর্জন করে, কিন্তু মূল্য মাত্র দশভাগ। ঠিক তো?
ডেমিস হ্যাসাবিস: আমি মনে করি এটি আমাদের একটি মূল সুবিধা। আপনাকে অগ্রগতির ক্ষমতা অর্জনের জন্য সবচেয়ে বড় মডেলটি তৈরি করতে হবে। আমাদের একটি প্রধান সুবিধা হল এই ক্ষমতাগুলিকে দ্রুত ডিসিল এবং ক্রমাগত ছোট মডেলগুলিতে সংকুচিত করা। ডিসিলেশন পদ্ধতিটি আমরাই আবিষ্কার করেছি, এখনও আমরা বিশ্বের শীর্ষস্থানীয়। এছাড়াও, এই কাজটি করার জন্য আমাদের শক্তিশালী ব্যবসায়িক উদ্দেশ্য রয়েছে। আমরা সম্ভবত বিশ্বের সবচেয়ে বড় AI অ্যাপ্লিকেশন প্ল্যাটফর্ম। AI Overviews এবং AI Mode, এবং Gemini-এর সাথে, Google-এর প্রতিটি পণ্য, যেমন ম্যাপ, YouTube ইত্যাদি, Gemini বা সংশ্লিষ্ট প্রযুক্তির সঙ্গে একীভূত। এটি দশs of billions of users, and more than a dozen billion-user products. They must be extremely fast, highly efficient, extremely low-cost, and have extremely low latency. This gives us tremendous motivation to make Flash and even smaller Flash-Lite models as efficient as possible, and I hope this will ultimately serve well for users’ various tasks.
গ্যারি ট্যান: আমি জিজ্ঞাসা করছি এই ছোট মডেলগুলি কতটা বুদ্ধিমান হতে পারে। ডিসিলেশনের কোনো সীমা আছে কি? 50B বা 400B মডেলগুলি কি আজকের সবচেয়ে বড় অগ্রগামী মডেলগুলির মতোই বুদ্ধিমান হতে পারে?
ডেমিস হ্যাসাবিস: আমি মনে করি আমরা তথ্য তত্ত্বের সীমানা পেয়ে গেছি না, অন্তত এখন পর্যন্ত কেউ জানে না যে আমরা কি সেই সীমানা পেয়ে গেছি। হয়তো একদিন কোনো তথ্য ঘনত্বের ছাদের সম্মুখীন হব, কিন্তু এখন আমাদের ধারণা হলো, একটি অগ্রগামী Pro মডেল প্রকাশের পর, ছয় থেকে বছরের মধ্যে, এর ক্ষমতা খুবই ছোট, প্রায় এজ ডিভাইসগুলিতে চালানোর যোগ্য মডেলে সংকুচিত হয়ে যাবে। আপনি Gemma মডেলেও এটি দেখতে পাবেন, আমাদের Gemma 4 মডেলটি একই আকারে খুবই শক্তিশালী। এগুলির জন্য বহুল ডিস্টিলেশন প্রযুক্তি এবং ছোট মডেলের দক্ষতা অপ্টিমাইজেশন ব্যবহার করা হয়েছে। তাই, আমি কোনো理论সীমা দেখতে পাচ্ছি না, আমি মনে করি, আমরা সেইসবসীমার থেকে অনেকদূরে।
গ্যারি ট্যান: এখন একটি অত্যন্ত অস্বাভাবিক ঘটনা ঘটছে যে, ইঞ্জিনিয়াররা যে পরিমাণ কাজ করতে পারে, তা ছয় মাস আগের তুলনায় ৫০০ থেকে ১০০০ গুণ। এই রুমের কিছু মানুষ সম্ভবত ২০০০-এর দশকের একজন Google ইঞ্জিনিয়ারের ১০০০ গুণ কাজ করছে। স্টিভ ইয়েগে এটি বলেছিলেন।
ডেমিস হ্যাসাবিস: আমি খুব উত্তেজিত। ছোট মডেলগুলির অনেক ব্যবহার রয়েছে। একটি হল খরচ কম এবং দ্রুত গতি, যা একইভাবে সুবিধা আনে। কোড লেখা বা অন্যান্য কাজে, আপনি দ্রুততরভাবে ইটারেশন করতে পারেন, বিশেষ করে সিস্টেমের সাথে সহযোগিতা করার সময়। দ্রুত সিস্টেম, যদিও সবচেয়ে এগিয়ে না থাকে, যেমন শুধুমাত্র এগিয়ে থাকা 90% থেকে 95% হয়, তবুও এটি পুরোপুরি যথেষ্ট, এবং আপনি দ্রুততা পাওয়ায় 10% এর চেয়েও বেশি লাভ করেন।
অন্য একটি বড় দিক হল এই মডেলগুলিকে এজ ডিভাইসে চালানো, যা কেবল দক্ষতার জন্য নয়, বরং গোপনীয়তা এবং নিরাপত্তার জন্যও। বিভিন্ন অত্যন্ত ব্যক্তিগত তথ্য প্রক্রিয়াকরণ করে এমন ডিভাইস এবং রোবটগুলির কথা ভাবুন; আপনার ঘরের রোবটের জন্য, আপনি চাইবেন যে একটি কার্যকরী এবং শক্তিশালী মডেল স্থানীয়ভাবে চলুক, এবং শুধুমাত্র নির্দিষ্ট পরিস্থিতিতেই কাজটি ক্লাউডের বড় মডেলের দিকে হস্তান্তর করা হোক। অডিও এবং ভিডিও স্ট্রিমিং সবই স্থানীয়ভাবে প্রক্রিয়াকরণ করা হবে, ডেটা স্থানীয়ভাবেই থাকবে—আমি কল্পনা করতে পারি যে এটি একটি দুর্দান্ত চূড়ান্ত অবস্থা।
মেমোরি এবং রিজনিং
গ্যারি টান: প্রেক্ষাপট এবং স্মৃতির দিকে ফিরে আসুন। বর্তমানে মডেলটি অবস্থা-হীন, যদি এটি ধারাবাহিক শিক্ষার ক্ষমতা অর্জন করে, তাহলে ডেভেলপারদের অভিজ্ঞতা কী হবে? আপনি এই ধরনের মডেলকে কীভাবে পরিচালনা করবেন?
ডেমিস হ্যাসাবিস: এই প্রশ্নটি খুব আকর্ষণীয়। বর্তমান এজেন্টগুলির সম্পূর্ণ কাজ সম্পন্ন করতে পারার প্রধান বাধা হল স্থায়ী শিক্ষার অভাব। বর্তমানে এজেন্টগুলি কাজের আংশিক পর্যায়ে খুব কার্যকর, আপনি এগুলিকে একসাথে জোড়া লাগিয়ে অসাধারণ কিছু করতে পারেন, কিন্তু এগুলি আপনার নির্দিষ্ট পরিবেশের সাথে ভালভাবে খাপ খাইয়ে নিতে পারে না। এটিই হল এগুলি এখনও সত্যিকারভাবে 'একবার চালু করলেই ভুলে যাওয়া'র মতো কাজ করতে পারছে না—এগুলি আপনার নির্দিষ্ট পরিস্থিতি শেখার ক্ষমতা প্রয়োজন। সম্পূর্ণ সাধারণ বুদ্ধিমত্তা অর্জনের জন্য, এই সমস্যা সমাধান করা অপরিহার্য।
গ্যারি টান: যুক্তিপূর্ণ ক্ষমতার অগ্রগতি কোথায়? মডেলটির এখন চিন্তার ধারাটি খুব শক্তিশালী, কিন্তু কিছু বুদ্ধিমান স্নাতকদের দ্বারা কখনও করা হয়না এমন ভুলগুলিতে এটি ব্যর্থ হয়। কী কী পরিবর্তন করা দরকার? যুক্তিগতভাবে আপনি কী অগ্রগতির প্রত্যাশা করছেন?
ডেমিস হ্যাসাবিস: চিন্তার প্যারাডাইমে এখনও অসংখ্য উদ্ভাবনের সুযোগ রয়েছে। আমরা যা করছি, তা এখনও পর্যাপ্ত কাঁচা এবং প্রায়শই হিংস্র। চিন্তার শৃঙ্খলের প্রক্রিয়া নিয়ন্ত্রণ করে, চিন্তার মধ্যেই হস্তক্ষেপ করে অনেক উন্নতি সাধন করা যায়। আমি প্রায়শই অনুভব করি, আমাদের সিস্টেম বা প্রতিদ্বন্দ্বীদের সিস্টেম, উভয়ই কিছুটা অতিরিক্তভাবে চিন্তা করে, চক্রের মধ্যে আটকে যায়।
আমি কখনও কখনও জেমিনির শত্রুঘ্ন খেলার পর্যবেক্ষণ করি। সব অগ্রণী বেস মডেল শত্রুঘ্ন খেলায় বেশ দুর্বল, যা আকর্ষণীয়। তাদের চিন্তার পথ দেখা খুব মূল্যবান, কারণ শত্রুঘ্ন একটি ভালভাবে বোঝা যাওয়া ক্ষেত্র, আমি দ্রুত বুঝতে পারি যে এটি কি ভুল পথে চলেছে কিনা বা যুক্তি কি কার্যকর। আমরা দেখি যে, এটি কখনও কখনও একটি চালের বিষয়ে চিন্তা করে, বুঝতে পারে যে এটি একটি খারাপ চাল, কিন্তু ভালো কোনো চাল খুঁজে পায়না, ফলে একটি চক্রের পরেও সেই খারাপ চালটিই নেয়। একটি সঠিক যুক্তি-ভিত্তিক সিস্টেমের এইরকম অবস্থা ঘটা উচিত নয়।
এই বিশাল ব্যবধান এখনও বিদ্যমান, কিন্তু এটি ঠিক করতে শুধু এক বা দুটি সংশোধনের প্রয়োজন হতে পারে। এই কারণেই আপনি যা দেখতে পান তা হল 'জ্যাগড ইন্টেলিজেন্স'—এটি একদিকে IMO স্বর্ণপদক মানের সমস্যা সমাধান করতে পারে, অন্যদিকে প্রশ্নটি একটু ভিন্নভাবে জিজ্ঞাসা করলে প্রাথমিক গণিতের ভুল করে। নিজের চিন্তার প্রক্রিয়ার প্রতি আত্ম-প্রতিফলনের ক্ষেত্রে, মনে হয় কিছুটা অভাব রয়েছে।
এজেন্টের প্রকৃত ক্ষমতা
গ্যারি টান: এজেন্ট একটি বড় বিষয়। কেউ কেউ এটিকে প্রচার বলেন। আমার ব্যক্তিগত মতে, এখনও শুরু হয়নি। ডিপমাইনের অভ্যন্তরীণ গবেষণায় এজেন্টের ক্ষমতার প্রকৃত মূল্যায়ন কী, এবং বাইরের প্রচারের সাথে এর পার্থক্য কতটা?
ডেমিস হ্যাসাবিস: আমি আপনার কথায় সহমত, আমরা শুধু শুরু করেছি। এজেন্ট জেনারেল ইন্টেলিজেন্স (AGI) পৌঁছাতে, আপনার একটি সিস্টেম দরকার যা আপনার জন্য সক্রিয়ভাবে সমস্যা সমাধান করতে পারে। এটি আমাদের জন্য সবসময় পরিষ্কার ছিল। এজেন্টই সেই পথ, আমি মনে করি আমরা শুধু শুরু করেছি। সবাই এজেন্টকে কীভাবে ভালোভাবে কাজে লাগানো যায়, তা খোঁজছে; আমরা ব্যক্তিগতভাবে অনেক অনুসন্ধান করেছি, এবং আপনাদের অনেকেই হয়তো এটি করেছেন। এজেন্টকে কীভাবে কাজের প্রবাহের সঙ্গে একীভূত করা যায়, যাতে এটি শুধুমাত্র ‘আইসক্রিম’-এর মতোই না হয়, বরং মৌলিকভাবেই কিছুটা করতে পারে। বর্তমানে, আমরা এখনও পরীক্ষা-নিরীক্ষার পর্যায়ে। সম্ভবত, শুধুমাত্র গত ২-৩ মাসেই, আমরা বিশেষভাবে মূল্যবান সিনিওয়ার খুঁজে পেয়েছি। প্রযুক্তি প্রায় এখনই সেই পর্যায়ে পৌঁছেছে—এটি এখন শুধু খেলা বা প্রদর্শন নয়, বরং আপনার সময় এবং দক্ষতার জন্য প্রকৃত মূল্য সৃষ্টি করছে।
আমি প্রায়শই দেখি যে কেউ ডজন পাঁচেক এজেন্ট চালু করে তাদের কয়েক দশক ঘন্টা চালায়, কিন্তু আমি এখনও নিশ্চিত নই যে আউটপুট এই ইনপুটের সাথে মেলে।
আমরা এখনও কেউ ভাইব কোডিং ব্যবহার করে একটি অ্যাপ স্টোর চার্টের শীর্ষে উঠা 3A গেম তৈরি করেছে কিনা দেখিনি। আমিও নিজে লিখেছি, আপনাদের অনেকেই কিছু ভালো ছোট ডেমো তৈরি করেছেন। আমি এখন অর্ধঘণ্টায় একটি 'থিম পার্ক' প্রোটোটাইপ তৈরি করতে পারি, যখন 17 বছর বয়সে আমি ছয় মাস লাগিয়েছিলাম। আমার একটা অনুভূতি, যদি আপনি একটা গ্রীষ্মকাল ধরে এটা করেন, তাহলে আপনি সত্যিই অসাধারণ কিছু তৈরি করতে পারবেন। কিন্তু এখনও এটির জন্য শিল্পকর্ম এবং মানুষের আত্মা, স্বাদের প্রয়োজন, আপনাকে নিশ্চিত করতে হবে যে আপনি যেকোনো পণ্যের মধ্যেই এইসবকিছুকে নিয়ে আসছেন। বাস্তবতা হলো, এখনও কোনোশিশুই 10000000টিরও beshi 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটি 3Aগেমটि
গ্যারি টান: এটি কতটা স্বয়ংক্রিয় হবে? আমি মনে করি এটি প্রথম থেকেই সম্পূর্ণরূপে স্বয়ংক্রিয় হবে না। বেশি সম্ভাবনা হলো, এখানে উপস্থিত ব্যক্তিদের প্রথমে 1000 গুণ দক্ষতা অর্জন করতে হবে, তারপর কেউ এই টুলগুলি ব্যবহার করে একটি জনপ্রিয় অ্যাপ্লিকেশন বা জনপ্রিয় গেম তৈরি করবে, এরপরই আরও বেশি প্রক্রিয়াগুলি স্বয়ংক্রিয়ভাবে চালু হবে।
ডেমিস হ্যাসাবিস: হ্যাঁ, এটিই আপনার প্রথমে দেখা উচিত।
গ্যারি টান: একটি কারণ হলো, কিছু মানুষ সত্যিই এটি করছে, কিন্তু তারা প্রকাশ্যে বলতে চায় না যে এজেন্টটি কতটা সাহায্য করেছে।
ডেমিস হ্যাসাবিস: সম্ভবত। কিন্তু আমি কল্পনাশীলতা নিয়ে কথা বলতে চাই। আমি প্রায়শই AlphaGo-এর উদাহরণ দিই, যেখানে দ্বিতীয় খেলার ৩৭তম হাতটি সবাই জানে। আমার জন্য, আমি সেই মুহূর্তটির অপেক্ষায় ছিলাম, এবং এটি ঘটার পরই আমি AlphaFold-এর মতো বৈজ্ঞানিক প্রকল্পগুলি শুরু করি। আমরা সিয়োল থেকে ফিরে আসার পরের দিনই AlphaFold-এর কাজ শুরু করেছিলাম, এটি দশ বছর আগের কথা। আমি এবার কোরিয়ায় গিয়েছি AlphaGo-এর ১০তম বার্ষিকী উদযাপনের জন্য।
কিন্তু শুধু মুভ ৩৭ থেকে বেরিয়ে আসা যথেষ্ট নয়। এটি দারুণ এবং উপযোগী। কিন্তু এই সিস্টেমটি কি গো খেলাটিই আবিষ্কার করতে পারবে? যদি আপনি এটিকে একটি উচ্চস্তরের বর্ণনা দেন, যেমন: “একটি খেলা যা পাঁচ মিনিটে নিয়মগুলি শেখা যায়, কিন্তু জীবনের পুরোটাই ব্যয় করলেও এটির পারদর্শিতা অর্জন করা কঠিন, এটি সৌন্দর্য্যে অত্যন্ত মার্জিত, এবং একটি খেলা শেষ করতে একটি বিকালই যথেষ্ট” — তাহলে সিস্টেমটি আপনাকে গো খেলার উত্তর দিতে পারবে? আজকের সিস্টেমগুলি এটি করতে পারছে না। প্রশ্নটি হল: কেন?
গ্যারি টান: এখানে উপস্থিত কেউ না কেউ এটি করতে পারেন।
ডেমিস হ্যাসাবিস: যদি কেউ এটি করে থাকে, তবে সমস্যাটি সিস্টেমের অভাব নয়, বরং আমরা সিস্টেমটি ব্যবহার করার পদ্ধতির সমস্যা। এটিই হয়তো সঠিক উত্তর। হয়তো আজকের সিস্টেমেই এই ক্ষমতা রয়েছে, শুধু একজন যথেষ্ট প্রতিভাবান সৃষ্টিশীল ব্যক্তির প্রয়োজন যিনি এটিকে চালিত করতে পারবেন, প্রকল্পটির আত্মা প্রদান করবেন, এবং যিনি সরঞ্জামের সাথে অত্যন্ত ঘনিষ্ঠভাবে একীভূত হয়ে যাবেন—প্র practically সরঞ্জামের সাথে একই হয়ে যাবেন। যদি আপনি এই সরঞ্জামগুলির সাথে দিনরাত ব্যস্ত থাকেন এবং গভীর সৃষ্টিশীলতা রাখেন, তবে হয়তো আপনি অসম্ভবেরও বাইরের কিছু তৈরি করতে পারবেন।
ওপেন সোর্স এবং মাল্টিমোডাল মডেল
গ্যারি ট্যান: ওপেন সোর্স নিয়ে আলোচনা বদলাই। সাম্প্রতিক গেমা প্রকাশের ফলে খুব শক্তিশালী মডেলগুলি স্থানীয়ভাবে চালানো যাচ্ছে। আপনার মতামত কী? কি এআই শুধুমাত্র ক্লাউডেই থাকবে, নাকি ব্যবহারকারীরা নিজেরাই এটি নিয়ন্ত্রণ করবে? এটি কি এই মডেলগুলি ব্যবহার করে পণ্য তৈরির জন্য কে প্রযোজ্য হবে, তা পরিবর্তন করবে?
ডেমিস হ্যাসাবিস: আমরা ওপেন সোর্স এবং ওপেন সায়েন্সের দৃঢ় সমর্থক। আপনি যে অ্যালফা ফোল্ডের কথা উল্লেখ করেছেন, আমরা তা সম্পূর্ণরূপে বিনামূল্যে উন্মুক্ত করেছি। আমাদের বৈজ্ঞানিক কাজগুলি এখনও শীর্ষস্থানীয় জার্নালগুলিতে প্রকাশিত হচ্ছে। গেমা সম্পর্কে, আমরা একই পরিমাণের জন্য বিশ্বের শীর্ষস্থানীয় মডেল তৈরি করতে চাই। এখনও দুই সপ্তাহ ও অর্ধেক প্রকাশিত হওয়ার পরেও, গেমার ডাউনলোডের সংখ্যা প্রায় ৪০ মিলিয়ন।
আমি মনে করি ওপেন সোর্স ক্ষেত্রে পশ্চিমা টেক স্ট্যাক থাকা গুরুত্বপূর্ণ। চীনা ওপেন সোর্স মডেলগুলি অত্যন্ত দক্ষ এবং বর্তমানে ওপেন সোর্স ক্ষেত্রে অগ্রণী, কিন্তু আমরা মনে করি Gemma একই আকারের মডেলগুলির সাথে খুবই প্রতিযোগিতামূলক।
আমাদের জন্য একটি সম্পদের সমস্যা আছে, কেউ দুটি পূর্ণ-আকারের অগ্রগামী মডেল চালানোর জন্য অতিরিক্ত কম্পিউটিং ক্ষমতা রাখেন না। তাই আমাদের বর্তমান সিদ্ধান্ত হল: এন্ড্রয়েড, চশমা, রোবোট ইত্যাদির জন্য এজ মডেল ব্যবহার করা, যা খোলা মডেল হওয়া উচিত, কারণ একবার ডিভাইসে ডিপ্লয় করা হলে, এগুলি নিজেই প্রকাশিত হয়ে যায়, তাই এগুলিকে সম্পূর্ণভাবে খোলা রাখা ভালো। আমরা ন্যানো-স্তরে খোলা কৌশলকে একীভূত করেছি, যা কৌশলগতভাবেও যুক্তিসঙ্গত।
গ্যারি টান: আমি আগেই আমার তৈরি করা AI অপারেটিং সিস্টেমটি দেখিয়েছিলাম, আমি সরাসরি ভয়েস দিয়ে Gemini-এর সাথে ইন্টারঅ্যাক্ট করতে পারি। আমি আপনাকে কিছু দেখানোর জন্য খুব উত্তেজিত ছিলাম, কিন্তু এটি চলে গেল। Gemini-এর শুরু থেকেই মাল্টিমোডাল বিল্ডিং ছিল। আমি অনেকগুলি মডেল ব্যবহার করেছি, কিন্তু ভয়েস-টু-মডেল ইন্টারঅ্যাকশন, টুল-কলিংয়ের গভীরতা এবং কনটেক্সটুয়াল বোঝাপড়ার ক্ষেত্রে, এখনও কোনও মডেল Gemini-এর সঙ্গে প্রতিযোগিতা করতে পারেনি।
ডেমিস হ্যাসাবিস: হ্যাঁ। জেমিনি সিরিজের একটি অপর্যাপ্তভাবে চেনা সুবিধা হল যে আমরা শুরু থেকেই মাল্টিমোডাল হিসাবে এটি তৈরি করেছি। এটি শুধুমাত্র টেক্সট করার চেয়ে শুরুর পর্যায়ে কঠিন ছিল, কিন্তু আমরা বিশ্বাস করি দীর্ঘমেয়াদে এটি থেকে লাভ পাব, এবং এখনই এটি ফলপ্রদ হচ্ছে। উদাহরণস্বরূপ, ওয়ার্ল্ড মডেলের ক্ষেত্রে, আমরা জেমিনির উপর ভিত্তি করে Genie (DeepMind-এর তৈরি জেনারেটিভ ইন্টারঅ্যাকটিভ এনভায়রনমেন্ট মডেল) তৈরি করেছি। রোবোটিক্সের ক্ষেত্রেও, Gemini Robotics মাল্টিমোডাল বেসিক মডেলের উপর ভিত্তি করে তৈরি হবে, এবং আমাদের মাল্টিমোডালের সুবিধা প্রতিযোগিতার জন্য একটি প্রতিরক্ষা প্রাচীর হয়ে উঠবে। আমরা Waymo (Alphabet-এর অধীনস্থ অটোনোমাস ড্রাইভিং কোম্পানি) -এও Gemini-এর ব্যবহার বাড়াচ্ছি।
একটি ডিজিটাল সহায়কের কল্পনা করুন যেটি আপনার সাথে বাস্তব বিশ্বে প্রবেশ করে, সম্ভবত আপনার মোবাইল বা চশমায়, এটি আপনার চারপাশের ভৌত বিশ্ব এবং পরিবেশকে বুঝতে পারে। আমাদের সিস্টেম এই দিকে অত্যন্ত শক্তিশালী। আমরা এই দিকে আরও বেশি বিনিয়োগ করতে থাকব, এবং আমি মনে করি আমাদের এই ধরনের সমস্যায় অগ্রগতির পার্থক্য অনেক বড়।
গ্যারি টান: যুক্তিসংগঠনের খরচ দ্রুত কমছে। যখন যুক্তিসংগঠন প্রায় বিনামূল্যে হয়ে যায়, তখন কী সম্ভব হয়? আপনার দলের অপ্টিমাইজেশনের দিকনির্দেশ এর কারণে পরিবর্তিত হবে কি?
ডেমিস হ্যাসাবিস: আমি নিশ্চিত নই যে রিজনিং সত্যিই বিনামূল্যে হবে, জেভনসের প্যারাডক্স সেখানেই আছে। আমি মনে করি সবাই শেষপর্যন্ত যতটা ক্যালকুলেশন পাওয়া যাবে তা ব্যবহার করবে। কল্পনা করুন লক্ষ লক্ষ এজেন্ট একসাথে কাজ করছে, অথবা কয়েকটি এজেন্ট একসাথে বিভিন্ন দিকে চিন্তা করছে এবং তারপর একীভূত করছে। আমরা সবাই এই দিকগুলোতে পরীক্ষা-নিরীক্ষা করছি, এবং এগুলো সবই উপলব্ধ রিজনিং সম্পদ খেয়ে ফেলবে।
শক্তির ক্ষেত্রে, যদি আমরা নিয়ন্ত্রিত নিউক্লিয়ার ফিউশন, রুম টেম্পারেচার সুপারকন্ডাক্টিভিটি, অপ্টিমাল ব্যাটারি ইত্যাদির মতো কিছু সমস্যা সমাধান করতে পারি—আমি মনে করি উপাদান বিজ্ঞানের মাধ্যমে আমরা এটি করতে পারব—তাহলে শক্তির খরচ শূন্যের কাছাকাছি যেতে পারে। তবে চিপের ভৌত উৎপাদনের মতো পদক্ষেপগুলির জন্য এখনও বাধা রয়েছে, অন্তত আগামী কয়েকটি দশকের জন্য। তাই, রিজনিং এন্ডেও এখনও কোটা সীমাবদ্ধতা থাকবে, এবং এটি দক্ষভাবে ব্যবহার করা প্রয়োজন।
পরবর্তী বৈজ্ঞানিক বিপ্লব
গ্যারি টান: ভালো যে ছোট মডেলগুলি ক্রমাগত বুদ্ধিমান হয়ে উঠছে। এখানে অনেকেই জীববিজ্ঞান এবং জীবপ্রযুক্তির প্রতিষ্ঠাতা। অ্যালফা ফোল্ড 3 এখন প্রোটিনের বাইরেও বিস্তৃত হয়েছে, আরও বিস্তৃত জৈব অণুতে। আমরা পুরো কোষ সিস্টেমের মডেলিংয়ের কতটা কাছাকাছি? এটি কি একটি সম্পূর্ণভাবে ভিন্ন কঠিনতা স্তরের সমস্যা?
ডেমিস হ্যাসাবিস: আইসোমরফিক ল্যাবসের অগ্রগতি অত্যন্ত ভালো। অ্যালফা ফোল্ড শুধুমাত্র ওষুধ আবিষ্কারের প্রক্রিয়ার একটি ধাপ, আমরা সংশ্লিষ্ট জৈব-রসায়নের গবেষণা করছি, সঠিক বৈশিষ্ট্যযুক্ত যৌগ ডিজাইন করছি ইত্যাদি, শীঘ্রই একটি বড় ঘোষণা হবে।
আমাদের চূড়ান্ত লক্ষ্য হল একটি সম্পূর্ণ ভার্চুয়াল কোষ তৈরি করা, একটি সম্পূর্ণ কার্যক্ষম কোষ সিমুলেটর যার উপর আপনি বিক্ষোভ প্রয়োগ করতে পারেন, যার আউটপুট পরীক্ষামূলক ফলাফলের খুব কাছাকাছি এবং ব্যবহারিক উদ্দেশ্য রয়েছে। আপনি অসংখ্য অনুসন্ধান ধাপ লাফিয়ে যেতে পারেন, অন্যান্য মডেলগুলি প্রশিক্ষণের জন্য বহুতর সংশ্লেষিত ডেটা তৈরি করতে পারেন, যাতে তারা বাস্তব কোষের আচরণ পূর্বানুমান করতে পারে।
আমি অনুমান করি পূর্ণাঙ্গ ভার্চুয়াল সেল পাওয়ার জন্য আরও দশ বছর লাগবে। আমরা DeepMind-এর বৈজ্ঞানিক দলে ভার্চুয়াল ক্রোমোসোম দিয়ে শুরু করছি, কারণ ক্রোমোসোমটি আপেক্ষিকভাবে স্ব-সম্পূর্ণ। এই ধরনের সমস্যার মূল বিষয় হলো, কি ধরনের জটিলতার স্লাইস কাটা যায়, যা যথেষ্ট স্ব-সম্পূর্ণ, যাতে আপনি তার ইনপুট এবং আউটপুটকে যুক্তিসঙ্গতভাবে আনুমানিক করতে পারেন, এবং এই সাবসিস্টেমের উপর ফোকাস করতে পারেন। ক্রোমোসোমটি এই দৃষ্টিকোণে খুবই উপযুক্ত।
অন্য একটি সমস্যা হল ডেটা অপর্যাপ্ত। আমি ইলেকট্রন মাইক্রোস্কোপি এবং অন্যান্য ইমেজিং প্রযুক্তির শীর্ষস্থানীয় বিজ্ঞানীদের সাথে কথা বলেছি। যদি কোষকে মারা না দিয়েই জীবিত কোষের ইমেজিং করা যায়, তাহলে এটি বিপ্লবী হবে। কারণ তখন এটিকে একটি দৃশ্যমান সমস্যায় রূপান্তরিত করা যাবে, এবং দৃশ্যমান সমস্যাগুলির সমাধান আমরা জানি। কিন্তু আমার জানা অনুযায়ী, এখনও এমন কোনও প্রযুক্তি নেই যা ন্যানোমিটার রেজোলিউশনে জীবিত, গতিশীল কোষের ইমেজিং করতে পারে এবং এটিকে ক্ষতি না করে। আপনি স্থির ছবি তুলতে পারেন, এটি ইতিমধ্যেই অত্যন্ত সূক্ষ্ম, এটি উত্তেজনাপূর্ণ, কিন্তু এটিকে সরাসরি একটি দৃশ্যমান সমস্যায় রূপান্তরিত করতে পর্যাপ্ত নয়।
সুতরাং দুটি পথ রয়েছে: একটি হল হার্ডওয়্যার-ড্রিভেন, ডেটা-ড্রিভেন সমাধান; অন্যটি হল এই ডায়নামিক্স সিস্টেমগুলি সিমুলেট করার জন্য একটি বেটার লার্নেবল সিমুলেটর তৈরি করা।
গ্যারি টান: আপনি শুধু জীববিজ্ঞান দেখেন না। উপাদান বিজ্ঞান, ঔষধ আবিষ্কার, জলবায়ু মডেলিং, গণিত—যদি এগুলোকে অগ্রাধিকার দিতে হয়, তবে পরবর্তী পাঁচ বছরে কোন বিজ্ঞান ক্ষেত্রটি সবচেয়ে বেশি পরিবর্তিত হবে?
ডেমিস হ্যাসাবিস: প্রতিটি ক্ষেত্রই উত্তেজনাপূর্ণ, এবং এটিই কারণ যে এটি সবসময় আমার সবচেয়ে বড় আগ্রহ ছিল এবং আমি ৩০ বছরেরও বেশি সময় ধরে AI-এর সাথে কাজ করছি। আমি সবসময় মনে করেছি যে AI হবে বিজ্ঞানের চূড়ান্ত টুল, যা বিজ্ঞানের বোঝাপড়া, বিজ্ঞানসংক্রান্ত আবিষ্কার, চিকিৎসা এবং আমাদের মহাবিশ্বের প্রতি বোঝাপড়াকে এগিয়ে নিয়ে যাবে।
আমরা প্রাথমিকভাবে আমাদের মিশনকে দুই ধাপে বর্ণনা করেছিলাম। প্রথম ধাপ, বুদ্ধিমত্তা সমাধান করা, অর্থাৎ AGI তৈরি করা; দ্বিতীয় ধাপ, এটি ব্যবহার করে অন্যান্য সমস্ত সমস্যা সমাধান করা। পরে আমাদের ভাষা পরিবর্তন করতে হয়েছিল, কারণ কেউ কেউ জিজ্ঞাসা করতেন, “তোমরা কি সত্যিই সব সমস্যা সমাধান করতে চাও?”—আমরা ঠিক এটাই বলছি। এখন মানুষ ধীরে ধীরে এটির অর্থ বুঝতে শুরু করছে। বিশেষভাবে, আমি যা বলছি, তা হলো “মূল নোড সমস্যা” নামক বিজ্ঞানের ক্ষেত্রগুলির সমাধান, যেগুলির একটি ভেদনের মাধ্যমে সম্পূর্ণ নতুন আবিষ্কারের শাখা খুলে যায়। AlphaFoldই আমরা যা করতে চাই, তারই একটি প্রোটোটাইপ। বিশ্বব্যাপী 300 লক্ষেরওবেশি গবেষক, প্রায় প্রতিটিজীববিজ্ঞানীই AlphaFold-এর ব্যবহার করছেন।আমি কিছুওষুধকোম্পানিরপ্রশাসকদেরসঙ্গেকথাbকরেছি,যারাবলছেনযেআগামীকালপ্রতিটিনতুনওষুধএকটিনতুনওষুধআবিষ্কারপ্রক্রিয়ায়AlphaFold-এরসহযোগিতায়হবে।আমরাএটিরজন্যগর্বিত,এবংএটিইআমরাAI-এরদ্বারাঅপেক্ষাকৃতপ্রভাবশালীহওয়ারআশা।কিন্তুআমিbমনেকরি,এটিeশুধুশুরু।
আমি কোনও বিজ্ঞান বা প্রকৌশল ক্ষেত্র ভাবতে পারছি না যেখানে AI সাহায্য করতে পারবে না। আপনি যে ক্ষেত্রগুলি উল্লেখ করেছেন, আমি মনে করি সেগুলি প্রায় ‘AlphaFold 1 মুহূর্ত’-এর অবস্থানে আছে—ফলাফলগুলি খুবই আশাব্যঞ্জক, কিন্তু এখনও এই ক্ষেত্রের বড় চ্যালেঞ্জগুলি সমাধান করা হয়নি। আগামী দুই বছরে উপকরণ বিজ্ঞান থেকে গণিত পর্যন্ত এই সমস্ত ক্ষেত্রে আমরা অনেক অগ্রগতির কথা বলতে পারব।
গ্যারি টান: এটি মনে হচ্ছে প্রোমিথিউসের মতো, মানুষকে একটি সম্পূর্ণ নতুন ক্ষমতা দেওয়া।
ডেমিস হ্যাসাবিস: হ্যাঁ। অবশ্যই, প্রোমিথিয়াসের গল্পের শিক্ষার মতো, আমাদের এই ক্ষমতা কীভাবে, কোথায় এবং একই সেটের টুলগুলির দুর্ব্যবহারের ঝুঁকি নিয়ে সতর্ক থাকতে হবে।
সফল অভিজ্ঞতা
গ্যারি টান: এখানে অনেকেই AI কে বিজ্ঞানে প্রয়োগ করে কোম্পানি শুরু করার চেষ্টা করছেন। আপনার মতে, প্রকৃতপক্ষে সীমানা এগিয়ে নিয়ে যাওয়া স্টার্টআপ এবং যারা শুধুমাত্র বেসিক মডেলের উপর API লাগিয়ে “AI for Science” বলে দাবি করে, এদের মধ্যে পার্থক্য কী?
ডেমিস হ্যাসাবিস: আমি ভাবছি যদি আজ আমি তোমাদের জায়গায় বসে Y Combinator-এ প্রোজেক্ট দেখছি, তাহলে আমি কী করতাম। একটা বিষয় হলো তোমাদের AI প্রযুক্তির দিকনির্দেশনা পূর্বানুমান করতে হবে, যা নিজেই কঠিন। কিন্তু আমি বিশ্বাস করি যে AI-এর দিকনির্দেশনাকে অন্য একটি গভীর প্রযুক্তি ক্ষেত্রের সাথে মিশিয়ে দিলে বিশাল সুযোগ রয়েছে। এই ক্রসওভার, চাহিদা হোক উপাদান, চিকিৎসা বা অন্য কোনো সত্যিকারের কঠিন বিজ্ঞানের ক্ষেত্র, বিশেষ করে পরমাণুর বিশ্বকে সংশ্লিষ্ট করলে, ভবিষ্যতের জন্য কোনো সংক্ষিপ্তপথ থাকবে না। এই ক্ষেত্রগুলি পরবর্তী বেসিক মডেলের আপডেটের মাধ্যমে ধ্বংস হবে না। কিন্তু যদি তোমরা এমন একটি দিকের খোঁজে থাকো, যা প্রতিরোধক্ষম, তাহলেই এটি আমি সুপারিশ করব।
আমি সর্বদা ডিপ টেকের প্রতি আকৃষ্ট হয়েছি। সত্যিকারের টেকসই এবং মূল্যবান জিনিসগুলির কোনো সহজ পথ নেই। আমি সবসময় ডিপ টেকের দিকে আকৃষ্ট হয়েছি। 2010 সালে আমরা শুরু করার সময় AI ছিল ডিপ টেক—বিনিয়োগকারীরা আমাকে বলেছিলেন, “আমরা জানি এটা কাজ করবে না,” এবং একাডেমিক বিশ্বও মনে করত এটি 90-এর দশকে পরীক্ষা করা এবং ব্যর্থ হওয়া একটি নিচু-স্তরের দিক। কিন্তু যদি আপনার ধারণার প্রতি আপনার বিশ্বাস থাকে—এবার কেন ভিন্ন, আপনার পটভূমির কীভাবে অনন্য সংমিশ্রণ—আদর্শভাবে, আপনি নিজেই মেশিন লার্নিং এবং অ্যাপ্লিকেশনের ক্ষেত্রে বিশেষজ্ঞ, অথবা আপনি এমন একটি প্রতিষ্ঠাতা দল গঠন করতে পারেন—তাহলে এখানে বিপুল প্রভাব এবং মূল্য তৈরির সম্ভাবনা রয়েছে।
গ্যারি টান: এই তথ্যটি খুব গুরুত্বপূর্ণ। একটি কাজ সফল হয়ে যাওয়ার পরে এটি প্রায় স্বাভাবিক মনে হয়, কিন্তু সফল হওয়ার আগে সবাই আপনার বিরুদ্ধে ছিল।
ডেমিস হ্যাসাবিস: হ্যাঁ, তাই আপনাকে যা আপনার প্রকৃত উৎসাহের সাথে মিলে যায়, তা করতে হবে। আমার ক্ষেত্রে, যা-ই ঘটুক না কেন, আমি AI করব। আমি খুব ছোট বয়সেই সিদ্ধান্ত নিয়েছিলাম যে এটিই আমার কাছে সবচেয়ে প্রভাবশালী বিষয়। এটি প্রমাণিতও হয়েছে, কিন্তু হয়তো এটি ৫০ বছর আগেই ঘটেছিল। এটি আমার কাছে সবচেয়ে আকর্ষণীয় বিষয়ও। যদি আজও আমরা একটি ছোট গ্যারেজে বসে থাকি, AI এখনও তৈরি না হয়ে থাকে, তবুও আমি এটি চালিয়ে যাওয়ার উপায় খুঁজে বার করব। হয়তো আমি শিক্ষাগত জগতে ফিরে যাব, কিন্তু আমি কোনোভাবেই এটি চালিয়ে যাব।
গ্যারি টান: অ্যালফাফোল্ড হল এমন একটি উদাহরণ যেখানে আপনি একটি দিকের দিকে চলেছিলেন এবং সঠিকভাবে জুয়া খেলেছিলেন। কোন বৈজ্ঞানিক ক্ষেত্রটি অ্যালফাফোল্ড-স্টাইলের বিপ্লবের জন্য উপযুক্ত? কোনও নিয়ম আছে, যেমন কোনও লক্ষ্য ফাংশন?
ডেমিস হ্যাসাবিস: আমি সত্যিই এটি লিখে রাখার জন্য একটা সময় বের করতে পারি। অ্যালফাগো এবং অ্যালফাফোল্ডের মতো সমস্ত অ্যালফা প্রকল্প থেকে আমি যা শিখেছি, তা হলো, আমাদের বর্তমান প্রযুক্তি নিম্নলিখিত পরিস্থিতিতে সবচেয়ে ভালোভাবে কাজ করে। প্রথমত, সমস্যাটির একটি বিশাল সংযোজনীয় অনুসন্ধান স্থান থাকে, যত বড়ো হয় ততই ভালো, যতটা বড়ো যেন কোনো ব্রুট-ফোর্স বা বিশেষ অ্যালগরিদমই এটি সমাধান করতে পারে না। গোর চলার স্থান এবং প্রোটিনের কনফরমেশন স্থান উভয়ই মহাবিশ্বের পরমাণুর সংখ্যা অতিক্রম করে। দ্বিতীয়ত, আপনি লক্ষ্য ফাংশনটি পরিষ্কারভাবে সংজ্ঞায়িত করতে পারেন, যেমন: প্রোটিনের মুক্তশক্তির ন্যূনতমকরণ, অথবা গোতে জয়লাভ, যাতে সিস্টেমটি গ্রেডিয়েন্ট আরোহণ করতে পারে। তৃতীয়ত, যথেষ্ট ডেটা থাকে, অথবা একটি সিমুলেটর আছে, যা বিশালপরিমাণের সিনথেটিক ডেটা তৈরি করতে পারে।
যদি এই তিনটি শর্ত পূরণ হয়, তবে আজকের পদ্ধতিতে আপনি যথেষ্ট দূরে যেতে পারবেন এবং আপনার প্রয়োজনীয় “ঘাসের গাদার মধ্যে সূঁচ” খুঁজে পাবেন। ঔষধ আবিষ্কারও একই যুক্তি: এমন একটি যৌগ বিদ্যমান থাকতে পারে যা এই রোগের চিকিৎসা করতে পারে এবং পার্শ্বপ্রতিক্রিয়া ছাড়াই, যদি ভৌত সূত্রগুলি এটির অস্তিত্বকে অনুমতি দেয়, তবে একমাত্র সমস্যা হলো এটিকে কীভাবে দক্ষতার সাথে ও বাস্তবসম্মতভাবে খুঁজে বার করা যায়। আমি মনে করি AlphaFold-এর প্রথমবারের মতো প্রমাণিত হয়েছে যে এই ধরনের সিস্টেমগুলি বিশাল অনুসন্ধান স্থানের মধ্যে এই সূঁচটি খুঁজে পাওয়ার ক্ষমতা রাখে।
গ্যারি টান: আমি একটি স্তর উঠতে চাই। আমরা মানুষের কথা বলছি যারা এই পদ্ধতিগুলি ব্যবহার করে অ্যালফা ফোল্ড তৈরি করেছে, কিন্তু একটি মেটা-স্তরও আছে যেখানে মানুষ AI ব্যবহার করে সম্ভাব্য অনুমানের স্থান অনুসন্ধান করে। AI সিস্টেমগুলি প্রকৃত বিজ্ঞানগত যুক্তি (শুধুমাত্র ডেটার উপর প্যাটার্ন ম্যাচিং নয়) করতে পারবে কতটা দূরে?
ডেমিস হ্যাসাবিস: আমি মনে করি এটি খুব কাছাকাছি। আমরা এই ধরনের সাধারণ সিস্টেম তৈরি করছি। আমাদের একটি এআই কো-সায়েন্টিস্ট সিস্টেম আছে, এবং অ্যালফা ইভলভ এর মতো অ্যালগরিদম যা বেসিক জেমিনির চেয়ে আরও এগিয়ে যায়। সমস্ত অগ্রগামী ল্যাবগুলি এই দিকে অনুসন্ধান করছে।
কিন্তু এখন পর্যন্ত, আমি ব্যক্তিগতভাবে এই সিস্টেমগুলি দ্বারা একটি প্রকৃত, গুরুত্বপূর্ণ বৈজ্ঞানিক আবিষ্কার দেখিনি। আমি মনে করি এটি আসতে চলেছে। এটি আমাদের আগের আলোচনায় উল্লিখিত সৃজনশীলতার সাথে সম্পর্কিত হতে পারে, যেখানে পরিচিত সীমানা অতিক্রম করা হয়। সেই স্তরে, এটি প্যাটার্ন ম্যাচিং নয়, কারণ ম্যাচ করার জন্য কোনও প্যাটার্নই নেই। এটি শুধুমাত্র বাইরের দিকের প্রসারণও নয়, বরং কিছুটা অনুরূপতা ভিত্তিক যুক্তি (analogical reasoning), যা আমি মনে করি এই সিস্টেমগুলি এখনও ধারণ করেনি, অথবা আমরা এগুলিকে সঠিকভাবে ব্যবহার করিনি।
বিজ্ঞানের ক্ষেত্রে আমি প্রায়শই একটি মানদণ্ড উল্লেখ করি যে, এটি শুধু একটি অনুমান যাচাই করার পরিবর্তে একটি সত্যিকারের আকর্ষণীয় অনুমান প্রস্তাব করতে পারে কিনা। কারণ একটি অনুমান যাচাই করাও হতে পারে একটি বিপ্লবী অর্জন, যেমন রিম্যান অনুমান প্রমাণ করা বা কোনও মিলেনিয়াম পুরস্কার সমস্যা সমাধান করা, কিন্তু হয়তো আমরা এই পর্যায়ে পৌঁছানোর জন্য কয়েক বছরেরও কম সময়ের মধ্যে।
এর চেয়েও কঠিন হলো কি একটি নতুন মিলেনিয়াম প্রাইজ প্রশ্নের সেট প্রস্তাব করা যায়, যা শীর্ষস্থানীয় গণিতবিদদের দ্বারা একই গভীরতা এবং জীবনব্যাপী অধ্যয়নের মতো মূল্যবান হিসাবে বিবেচিত হয়। আমি মনে করি এটি এক মাত্রা বেশি কঠিন, আমরা এখনও জানি না কিভাবে এটি করা যায়। কিন্তু আমি মনে করি এটি কোনো জাদু নয়, আমি বিশ্বাস করি এই সিস্টেমগুলি চূড়ান্তভাবে এটি করতে পারবে, শুধুমাত্র এক-দুইটি জিনিসের অভাব।
যে পরীক্ষাটি আমরা ব্যবহার করতে পারি, তাকে আমি কখনও কখনও "আইনস্টাইন টেস্ট" বলি—অর্থাৎ, কি করে আপনি ১৯০১ সালের জ্ঞান দিয়ে একটি সিস্টেমকে প্রশিক্ষণ দিতে পারবেন, এবং তারপর এটিকে স্বাধীনভাবে ১৯০৫ সালে আইনস্টাইনের অর্জনগুলি—যেমন বিশেষ আপেক্ষিকতা এবং তার সেই বছরের অন্যান্য প্রবন্ধগুলি—আবিষ্কার করতে দেবেন? আমি মনে করি, আমাদের এই টেস্টটি প্রকৃতপক্ষে চালানো উচিত, পুনরাবৃত্তি করে, দেখতে যখন আমরা এটি করতে পারব। যখনই আমরা এটি করতে পারব, তখনই এই সিস্টেমগুলি সত্যিকারের নতুন কিছু আবিষ্কারের খুব কাছাকাছি চলে আসবে।
উদ্যোক্তা পরামর্শ
গ্যারি টান: শেষ প্রশ্ন। এখানে অনেকেই গভীর প্রযুক্তিগত পটভূমি নিয়ে আছেন, আপনাদের মতো স্কেলের কিছু করতে চান, আপনারা বিশ্বের সবচেয়ে বড় AI গবেষণা সংগঠনগুলির মধ্যে একটি। আপনি AGI গবেষণার সবচেয়ে এগিয়ে থাকা স্থান থেকে এসেছেন, এখন আপনি যা জানেন, কিন্তু ২৫ বছর বয়সে জানতে চাইতেন, সেটা কী?
ডেমিস হ্যাসাবিস: আমরা এখন পর্যন্ত একটু আলোচনা করেছি। আপনি দেখবেন যে জটিল প্রশ্ন এবং সহজ প্রশ্নের কঠিনতা প্রায় একই, শুধু কঠিন হওয়ার পদ্ধতি ভিন্ন। বিভিন্ন বিষয়ের বিভিন্ন ধরনের কঠিনতা থাকে। কিন্তু জীবন খুব ছোট, শক্তি সীমিত, তাই আপনার জীবনশক্তি সেই কাজেই ব্যয় করুন, যা আপনি না করলে আর কেউই করবে না। এই মাপকাঠি দিয়েই বাছুন।
একটি অতিরিক্ত বিষয় হলো, আমি মনে করি আগামী কয়েক বছরে ক্রস-ডোমেইন কম্বিনেশন আরও সাধারণ হয়ে উঠবে, এবং এআই ক্রস-ডোমেইনকে সহজতর করে তুলবে।
শেষ বিষয়টি আপনার এজিআই সময়রেখার উপর নির্ভর করে। আমার ক্ষেত্রে এটি ২০৩০ এর দিকে। যদি আপনি আজ একটি ডিপ টেক প্রকল্প শুরু করেন, তাহলে সাধারণত একটি দশকের যাত্রা বোঝায়। তাহলে আপনাকে মধ্যবর্তী সময়ে এজিআই আবির্ভূত হওয়ার কথা বিবেচনা করতে হবে। এর মানে কী? এটি অবশ্যই খারাপ কিছু নয়, কিন্তু আপনাকে এটি বিবেচনায় নিতে হবে। আপনার প্রকল্পটি এজিআইকে ব্যবহার করতে পারবে? এজিআই সিস্টেমগুলি আপনার প্রকল্পের সাথে কীভাবে tương tác করবে?
আগের আলোচনায় আলোচিত AlphaFold এবং জেনারেল এআই সিস্টেমের সম্পর্কের দিকে ফিরে যাই, আমি যা কল্পনা করতে পারি তা হলো Gemini, Claude বা অনুরূপ জেনারেল সিস্টেমগুলি AlphaFold-এর মতো স্পেসিফিক সিস্টেমকে টুল হিসেবে কল করবে। আমি মনে করি না যে আমরা সবকিছুকে একটি বিশাল একক 'মস্তিষ্ক'-এর মধ্যে পুরিয়ে দেব, যদি Gemini-এর মধ্যে সব প্রোটিন ডেটা ঢুকিয়ে দেওয়া হয়, তাহলে এটির কোনো অর্থ হয় না, Gemini-কে প্রোটিন ফোল্ডিংয়ের দরকার নেই। আপনি যা বলেছিলেন তা হলো তথ্যের দক্ষতা, সেই প্রোটিন ডেটাগুলি অবশ্যই এর ভাষাগত ক্ষমতাকে বাধা দেবে। ভালো উপায়টি হলো, খুবই শক্তিশালী জেনারেল টুল-ব্যবহারকারী মডেলগুলি, যারা এই স্পেসিফিক টুলগুলিকে কলও করতে পারবে, এমনকি সেগুলিরও প্রশিক্ষণও দিতে পারবে, কিন্তু স্পেসিফিক টুলগুলি হবে স্বতন্ত্র সিস্টেম।
এই ধারণাটি গভীরভাবে চিন্তা করার মতো, এটি আপনার আজকের কী নির্মাণের উপর প্রভাব ফেলবে, যেমন আপনি কী ধরনের কারখানা, কী ধরনের আর্থিক ব্যবস্থা তৈরি করবেন। আপনাকে AGI-এর সময়সূচীকে গুরুত্বপূর্ণভাবে নিতে হবে, কল্পনা করতে হবে সেই বিশ্বটি কীভাবে দেখাবে, এবং তারপর এমন কিছু তৈরি করতে হবে যা সেই বিশ্ব আসার সময়ও কার্যকরী থাকবে।
