Організація та компіляція: Shenchao TechFlow
Гість: Деміс Хассабіс (засновник DeepMind, лауреат Нобелівської премії з хімії 2024 року, керівник Google DeepMind)
Ведучий: Гаррі Тан
Джерело подкасту: Y Combinator
Деміс Хассабіс: Агенти, ШІ загального призначення та наступний великий науковий прорив
Час трансляції: 29 квітня 2026 року
Редагувати вступ
Генеральний директор Google DeepMind, лауреат Нобелівської премії з хімії Деміс Хассабіс відвідав Y Combinator, де обговорив ключові досягнення, необхідні для досягнення AGI, дав поради підприємцям щодо збереження лідерства та висловив думку щодо того, де може відбутися наступний великий науковий прорив. Найбільш корисний висновок для підприємців у галузі глибоких технологій: якщо ви сьогодні запускаєте десятирічний проект у сфері глибоких технологій, ви повинні враховувати появу AGI у своєму плануванні. Крім того, він розкрив, що Isomorphic Labs (спін-оф DeepMind, компанія з використанням ШІ у фармацевтиці) скоро оголосить важливу новину.

Найкращі цитати
AGI маршрут і терміни
- Ці існуючі технічні компоненти майже напевно стануть частиною кінцевої архітектури AGI.
- Проблеми з постійним навчанням, довгостроковим міркуванням та деякими аспектами пам’яті ще не вирішені; AGI повинен вирішити все це.
- Якщо ваша шкала часу для AGI — це приблизно 2030 рік, як і моя, і ви сьогодні розпочали проект у галузі глибоких технологій, вам слід враховувати те, що AGI з’явиться по дорозі.
Пам’ять та вікно контексту
- Вікно контексту приблизно відповідає робочій пам’яті. Середня робоча пам’ять людини становить лише сім цифр, а ми маємо вікно контексту в мільйони або навіть десятки мільйонів токенів. Але проблема в тому, що ми заповнюємо його всім — включаючи незначну та помилкову інформацію, і зараз такий підхід досить грубий.
- Якщо потрібно обробляти стрімінг відео в реальному часі та зберігати всі токени, мільйон токенів вистачить лише приблизно на 20 хвилин.
Недоліки логіки
- Я люблю грати в шахи з Gemini. Іноді він розуміє, що це поганий хід, але не може знайти кращий і в кінці кінців все одно робить цей поганий хід. Але точна система міркувань не повинна мати таких ситуацій.
- Він може розв’язувати задачі рівня міжнародної олімпіади з математики, але при зміні формулювання запитання робить помилки, характерні для початкової школи. Здається, у його внутрішньому процесі мислення чогось бракує.
Агент та креативність
- Щоб досягти AGI, вам потрібна система, яка зможе активно вирішувати проблеми за вас. Агент — це шлях, і я вважаю, що ми лише почали.
- Я ще не бачив, щоб хтось створив 3A гру, яка піднялася до вершини рейтингів магазинів за допомогою vibe coding. За поточними зусиллями це має бути можливим, але це ще не відбулося. Це свідчить про те, що чогось бракує в інструментах чи процесах.
Дистиляція та малі моделі
- Наше припущення полягає в тому, що через шість місяців до року після випуску передового Pro-моделі її здібності можна буде стиснути до дуже невеликих моделей, які можна запускати на крайових пристроях. Наразі ми не зустріли теоретичного ліміту щільності інформації.
Наукові відкриття та «тест Ейнштейна»
- Іноді я називаю це «тестом Ейнштейна»: чи можна навчити систему на знаннях 1901 року, а потім дозволити їй самостійно вивести результати, отримані Ейнштейном у 1905 році, включаючи спеціальну теорію відносності. Як тільки це стане можливим, ці системи будуть близькі до справжнього винаходу чогось нового.
- Розв’язання однієї з проблем тисячоліття — це вже величезне досягнення. Але ще складніше — запропонувати новий набір проблем тисячоліття, які вважатимуться топ-математиками такими ж глибокими і гідними того, щоб їх досліджували протягом усього життя.
Рекомендації щодо стартапів у глибоких технологіях
- Проблеми, які важко вирішити, і прості проблеми насправді дуже схожі — просто складність у них різна. Життя коротке, тому краще вкладати зусилля в те, що якщо ти не зробиш, то ніхто інший не зробить.
Шляхи реалізації AGI
Гаррі Тан: Ви думали про AGI майже довше, ніж хто-будь інший. Оцінюючи поточну парадигму, яку частину кінцевої архітектури AGI, на вашу думку, ми вже маємо? Чого зараз фундаментально бракує?
Деміс Хассабіс: Масштабне попереднє навчання, RLHF, ланцюжки міркувань — я дуже впевнений, що вони стануть частиною фінальної архітектури AGI. Ці технології вже довели багато чого. Я важко уявляю, що через два роки ми виявимо, що це мертва дорога — це не має для мене сенсу. Але на основі існуючого, можливо, ще бракує однієї або двох речей. Неперервне навчання, довгострокове міркування, деякі аспекти пам’яті — є ще нерозв’язані питання. AGI потребує вирішення всього цього. Можливо, існуючі технології разом із невеликими прогресивними інноваціями зможуть бути розширені до такого рівня, але, можливо, залишилося ще одне-два великих ключових прориви. Я не вважаю, ще їх буде більше одного-двох. Особисто я оцінюю ймовірність наявності таких нерозв’язаних ключових моментів як 50 на 50. Тому в Google DeepMind ми розробляємо обидва напрямки.
Гаррі Тан: Працюючи з великою кількістю агентських систем, мене найбільше вразило те, що в основі всіх них — одні й ті ж самі ваги. Тому концепція постійного навчання дуже цікава, бо зараз ми майже повністю залежимо від тимчасових рішень, таких як «ночні сонні цикли».
Деміс Хассабіс: Так, ці цикли снів дуже цікаві. Ми раніше розглядали це питання щодо інтеграції сценарійної пам’яті. Моє докторське дослідження стосувалося того, як гіпокамп елегантно інтегрує нові знання в існуючу систему знань. Мозок дуже добре це робить. Він виконує цей процес під час сну, особливо під час швидкого сну (REM-сон), повторно відтворюючи важливі досвіди, щоб навчитися на них. Один із ключових методів, за допомогою якого наша перша програма Atari DQN (глибока Q-мережа DeepMind, опублікована у 2013 році, яка вперше досягла людського рівня в грі Atari за допомогою глибокого підсилювального навчання), змогла освоїти Atari, — це відтворення досвіду (experience replay). Це було запозичено з нейронауки: повторне відтворення успішних шляхів. Це було у 2013 році — у галузі ШІ це вважається давнім минулим, але тоді це було дуже важливо.
Я згоден з тобою, зараз ми справді використовуємо скотч, щоб запхнути все в контекстне вікно. Це виглядає неправильно. Навіть якщо ми працюємо з машинами, а не з біологічними мозками, теоретично можна мати контекстні вікна мільйонів чи десятків мільйонів, і пам’ять може бути ідеальною, але витрати на пошук і витягування все ще існують. У цей момент, коли потрібні конкретні рішення, знайти справді релевантну інформацію не просто, навіть якщо ви можете зберегти все. Тому я вважаю, що в галузі пам’яті ще є величезний простір для інновацій.
Гаррі Тан: Відверто кажучи, контекстне вікно в мільйон токенів значно перевищує мої очікування — можна зробити багато речей.
Деміс Хассабіс: Для більшості сценаріїв, для яких він призначений, цього достатньо. Але подумайте: вікно контексту приблизно відповідає робочій пам’яті. Середня робоча пам’ять людини становить лише сім цифр, а ми маємо вікна контексту в мільйони або навіть десятки мільйонів. Проблема в тому, що ми заповнюємо його всім — і незначною, і неправильною інформацією, і зараз цей підхід досить грубий. Крім того, якщо зараз ви обробляєте потік реального відео і наївно зберігаєте всі токени, мільйон токенів вистачить лише приблизно на 20 хвилин. Але якщо ви хочете, щоб система розуміла ваше життя протягом одного-двох місяців, цього явно недостатньо.
Гаррі Тан: DeepMind завжди глибоко вкладався в підсилювальне навчання та пошук. Наскільки глибоко ця філософія вбудована в процес створення Gemini? Чи все ще підсилювальне навчання недооцінюється?
Деміс Хассабіс: Можливо, його справді недооцінили. Увага до цього напрямку коливається. Ми почали розробляти системи агентів з першого дня заснування DeepMind. Вся робота над Atari та AlphaGo суттєво базується на агентах із підсиленням навчання — системах, здатних самостійно досягати цілей, приймати рішення та планувати. Звичайно, на початку ми обрали ігрову сферу, оскільки її складність була підконтрольною, а потім поступово переходили до більш складних ігор: після AlphaGo ми розробили AlphaStar, і майже все, що можна було зробити в іграх, ми вже зробили.
Наступне питання: чи можна узагальнити ці моделі як світові або мовні моделі, а не лише ігрові? Протягом останніх кількох років ми саме цим і займалися. Сьогодні всі лідируючі моделі використовують патерни мислення та ланцюжки міркувань, які за суттю є поверненням до того, що AlphaGo вперше запровадив. Я вважаю, що багато з наших робіт тоді дуже актуальні й сьогодні — ми знову переглядаємо ці старі ідеї, застосовуючи їх у більшому масштабі та більш універсальному вигляді, включаючи такі методи підсиленого навчання, як пошук за допомогою методу Монте-Карло (Monte Carlo tree search). Ідеї AlphaGo та AlphaZero дуже тісно пов’язані з сучасними базовими моделями, і я вважаю, що значна частина прогресу у найближчі роки поступиться саме цьому.
Дистиляція та малі моделі
Гаррі Тан: Зараз, щоб бути розумнішим, потрібні більші моделі, але одночасно технології дистиляції також розвиваються, і малі моделі можуть стати досить швидкими. Ваша модель Flash дуже сильна — вона досягає приблизно 95% ефективності передових моделей, але коштує лише десяту частину. Чи так?
Деміс Хассабіс: Я вважаю, що це один з наших ключових переваг. Спочатку потрібно створити найбільші моделі, щоб отримати передові здібності. Одна з наших найбільших переваг — це швидке витіснення та стиснення цих здібностей у все менші моделі. Метод витіснення ми саме винайшли, і зараз ми залишаємося світовим лідером у цьому. Крім того, у нас є сильний бізнес-мотив для цього. Ми, мабуть, найбільша платформа для застосування ШІ у світі. Ми маємо AI Overviews та AI Mode, а також Gemini — і тепер кожен продукт Google, включаючи карти та YouTube, інтегрує Gemini або пов’язані технології. Це стосується мільярдів користувачів та десятків продуктів з мільярдними аудиторіями. Вони повинні бути надзвичайно швидкими, ефективними, дуже недорогими та з мінімальною затримкою. Це надає нам величезний стимул до досягнення максимального ефекту з моделями Flash і ще меншими Flash-Lite, і я сподіваюся, що це в кінцевому підсумку також стане корисним для різноманітних завдань користувачів.
Гаррі Тан: Мені цікаво, наскільки розумними можуть бути ці малі моделі. Чи існує межа для дистиляції? Чи можуть моделі розміром 50B або 400B бути такими ж розумними, як найбільші сучасні передові моделі?
Деміс Хассабіс: Я не вважаю, що ми вже дійшли до інформаційних меж, принаймні зараз ніхто не знає, чи дійшли. Можливо, коли-небудь ми зустрінемо певну межу щільності інформації, але зараз наша гіпотеза полягає в тому, що після запуску передового Pro-моделі її здібності можна буде стиснути до дуже невеликої моделі, яка майже повністю працює на крайових пристроях, протягом шести до дванадцяти місяців. Ви також бачите це на моделях Gemma — наша модель Gemma 4 демонструє дуже сильні результати при тому ж розмірі. Це досягнуто завдяки масштабному використанню технологій дистиляції та оптимізації ефективності малих моделей. Тож я справді не бачу жодних теоретичних меж — я вважаю, що ми ще дуже далеко від них.
Гаррі Тан: Зараз існує дуже дивне явище: обсяг роботи, який може виконати інженер, приблизно у 500–1000 разів перевищує обсяг шість місяців тому. Деякі люди в цьому залі виконують обсяг роботи, що приблизно в 1000 разів перевищує те, що робив інженер Google на початку 2000-х. Це згадував Стів Єгге.
Деміс Хассабіс: Я дуже збуджений. Малі моделі мають багато застосувань. Одне з них — низька вартість і висока швидкість, що також приносить переваги. Під час написання коду чи інших завдань ви можете швидше ітерувати, особливо співпрацюючи з системою. Навіть якщо система не є найсучаснішою, наприклад, має лише 90–95% потенціалу найсучасніших, цього абсолютно достатньо, і те, що ви виграєте у швидкості ітерацій, значно перевищує ті 10%.
Іншим велиkim напрямком є запуск цих моделей на крайових пристроях — не лише для ефективності, а й для конфіденційності та безпеки. Уявіть різні пристрої, які обробляють дуже особисту інформацію, а також роботів: для робота у вашому домі ви б хотіли, щоб локально працювала ефективна та потужна модель, яка передає завдання великої моделі в хмарі лише в певних сценаріях. Аудіо- та відеопотоки обробляються локально, дані залишаються на місці — я можу уявити це як ідеальний кінцевий стан.
Пам’ять та міркування
Гаррі Тан: Повернемося до контексту та пам’яті. Модель зараз безстанова; якщо б вона мала здатність до постійного навчання, яким був би досвід розробників? Як ви б керували такою моделлю?
Деміс Хассабіс: Це дуже цікаве питання. Недостатність постійного навчання є ключовим обмеженням, яке перешкоджає сучасним агентам виконувати повні завдання. Сьогоднішні агенти добре підходять для окремих етапів завдань — ви можете поєднувати їх, щоб зробити дуже цікаві речі, але вони погано адаптуються до вашого конкретного середовища. Саме тому вони ще не можуть працювати «після запуску» — їм потрібно вміти вивчати ваші конкретні умови. Щоб досягти повної загальної інтелектуальної здатності, цю проблему необхідно вирішити.
Гаррі Тан: Де ми зараз з міркуваннями? Модель зараз має дуже сильний ланцюжок міркувань, але все ще робить помилки, яких не робили б розумні студенти-бакалаври. Що саме потрібно змінити? Яких прогресів ви очікуєте в міркуваннях?
Деміс Хассабіс: У парадигмі мислення ще є величезний простір для інновацій. Те, що ми робимо, досі досить грубо і досить жорстко. Є багато напрямків для покращення, наприклад, моніторинг процесу ланцюжка міркувань і втручання посеред мислення. Я часто відчуваю, що як наші системи, так і системи конкурентів у певному сенсі надмірно міркують і потрапляють у цикли.
Іноді я люблю спостерігати, як Gemini грає в шахи. Цікаво, що всі лідери серед базових моделей досить погано грають у шахи. Цікаво аналізувати їхні міркування, оскільки шахи — це добре вивчена галузь, і я швидко можу визначити, чи відхиляється вона від правильного шляху чи чи її міркування ефективні. Ми бачимо, що іноді вона розглядає хід, розуміє, що це поганий хід, але не може знайти кращий і врешті-решт знову робить цей поганий хід. Такого не повинно траплятися в точній системі міркувань.
Ця велика різниця все ще існує, але її можна виправити лише одним-двома коригуваннями. Саме тому ви бачите так звану «зубчасту інтелігентність»: з одного боку, вона може розв’язувати задачі рівня золотих медалістів МО, а з іншого — при іншому формулюванні запитання робить помилки, характерні для початкової школи. Здається, чогось бракує у самонагляді за власним мисленням.
Справжні можливості агента
Гаррі Тан: Агенти — це велика тема. Хтось каже, що це хайп. На мою думку, це лише почалося. Яким є реальний оцінка здібностей агентів у внутрішніх дослідженнях DeepMind і наскільки вона відрізняється від зовнішніх оголошень?
Деміс Хассабіс: Я згоден з тобою, ми лише почали. Щоб досягти AGI, вам потрібна система, яка б активно розв’язувала за вас проблеми. Для нас це завжди було зрозуміло. Агент — це шлях, і я вважаю, що ми лише на початку. Усі ми шукаємо, як краще інтегрувати агентів, і ми провели багато особистих експериментів — багато хто з вас, напевно, теж. Як інтегрувати агентів у робочі процеси, щоб вони були не просто прикрасою, а справді виконували фундаментальні завдання. Зараз ми ще на етапі експериментів. Мабуть, саме останні два-три місяці ми почали знаходити справді цінні сценарії. Технологія, мабуть, саме досягла того рівня, коли вже не є просто демонстраційними експериментами, а справді додає цінність вашому часу та ефективності.
Я часто бачу, як люди запускають десятки агентів, які працюють десятки годин, але ще не впевнений, чи результат відповідає цим витратам.
Ми ще не бачили, щоб хтось створив 3D-гру, яка піднялася б на перше місце в магазинах додатків, використовуючи vibe coding. Я сам писав такі речі, і багато хто з присутніх теж робив чудові невеликі демонстрації. Зараз я можу за півгодини зробити прототип Theme Park — колись мені на це знадобилося шість місяців, коли мені було 17. Я відчуваю, що якщо ви витратите ціле літо, можете створити справді неймовірну річ. Але все ще потрібна майстерність і людська душа, смак — ви повинні переконатися, що це все потрапить у будь-який продукт, який ви створюєте. Насправді жоден дитина ще не створила гру, яка продала мільйон копій — за теоретичними розрахунками, з поточними інструментами це має бути можливим. Отже, чогось бракує — можливо, у процесах, можливо, у інструментах. Я очікую, що протягом наступних 6–12 місяців ми побачимо такий результат.
Гаррі Тан: Наскільки це буде повністю автоматичним? Я вважаю, що це не буде повністю автоматичним з самого початку. Більш імовірний шлях — це те, що люди спочатку досягнуть ефективності в 1000 разів, потім хтось використає ці інструменти для створення хітів, популярних ігор, і лише після цього більше етапів буде автоматизовано.
Деміс Хассабіс: Так, саме це ви повинні побачити першим.
Гаррі Тан: Також частина причини полягає в тому, що деякі люди дійсно це роблять, але не хочуть публічно розповідати, наскільки допоміг агент.
Деміс Хассабіс: Можливо. Але я хотів би поговорити про креативність. Я часто згадую AlphaGo, всі знаю 37-й хід у другій партії. Для мене я постійно чекав на такий момент — і коли він настав, я запустив наукові проекти, як-от AlphaFold. Ми почали працювати над AlphaFold наступного дня після повернення з Сеула, це було десять років тому. Я приїхав до Кореї саме для того, щоб відсвяткувати 10-річчя AlphaGo.
Але вийти за межі ходу 37 недостатньо. Він класний і корисний. Але чи здатна ця система винайти саму го? Якщо надати їй високорівневий опис, наприклад: «гра, яку можна засвоїти за п’ять хвилин, але важко досконало володіти протягом життя, естетично вишукана, партія може тривати лише одну добу», — і система поверне вам го. Сьогоднішні системи не можуть цього зробити. Питання у тому, чому?
Гаррі Тан: Можливо, хтось із присутніх зможе це зробити.
Деміс Хассабіс: Якщо хтось це зробив, то проблема не в недоліках системи, а в тому, як ми її використовуємо. Можливо, саме це й є правильна відповідь. Можливо, сьогоднішні системи вже мають таку здатність, просто потрібен достатньо геніальний творець, який зможе розбудити їхню суть, надавши проекту душу, і при цьому повністю зливається з інструментом — майже стає одним цілим із ним. Якщо ти цілодобово погружаєшся в ці інструменти і володієш глибокою креативністю, можливо, зможеш створити щось неймовірне.
Відкритий код та багатомодальні моделі
Гаррі Тан: Змінимо тему на відкрите програмне забезпечення. Останній випуск Gemma дозволяє запускати дуже потужні моделі локально. Яка ваша думка? Чи стане штучний інтелект реччю, яку контролює сам користувач, а не лише залишатиметься в хмарі? Чи змінить це те, хто зможе використовувати ці моделі для створення продуктів?
Деміс Хассабіс: Ми є запеклими прихильниками відкритого коду та відкритої науки. AlphaFold, про який ви згадали, ми повністю відкрили безкоштовно. Наши наукові роботи досі публікуються у провідних наукових журналах. Щодо Gemma, ми хочемо створити світово лідируючу модель того ж масштабу. На даний момент Gemma завантажили близько 40 мільйонів разів, а випущено її лише два з половиною тижні назад.
Я також вважаю важливим існування західного стеку технологій у галузі відкритого коду. Китайські моделі з відкритим кодом чудові й зараз лідирують у цій галузі, але ми вважаємо, що Gemma дуже конкурентоспроможна в тому ж діапазоні розмірів.
У нас також є проблема з ресурсами — ніхто не має зайвих обчислювальних потужностей для розробки двох повнорозмірних передових моделей. Тож наразі наше рішення таке: краєві моделі для Android, окулярів, роботів тощо краще зробити відкритими, оскільки після розгортання на пристроях вони вже самі по собі відкриті — тому логічніше зробити їх повністю відкритими. Ми уніфікували стратегію відкритості на нанорівні, що також має стратегічний сенс.
Гаррі Тан: Перед тим як вийти на сцену, я продемонстрував створену мною AI-операційну систему — я зміг безпосередньо взаємодіяти з Gemini за допомогою голосу. Мені було досить нервово показувати це вам, але все вдалося. Gemini з самого початку була створена як багатомодальна система. Я користувався багатьма моделями, але жодна з них не може порівнятися з Gemini щодо глибини взаємодії «голос — модель», здатності викликати інструменти та розуміння контексту.
Деміс Хассабіс: Так. Однією з переваг серії Gemini, яку ще не досить цінують, є те, що ми створювали її з самого початку як мультимодальну. Це робить початковий етап складнішим, ніж розробка лише текстових моделей, але ми віримо, що в довгостроковій перспективі це принесе нам перевагу — і вже зараз це починає виражатися. Наприклад, у сфері світових моделей ми побудували Genie (генеративну інтерактивну модель середовища від DeepMind) на основі Gemini. Те ж саме стосується робототехніки: Gemini Robotics буде побудований на мультимодальній базовій моделі, і наша перевага в мультимодальності стане конкурентною перевагою. Ми все частіше використовуємо Gemini у Waymo (автономній компанії під егідою Alphabet).
Уявіть собі цифрового асистента, який супроводжує вас у реальному світі — можливо, на вашому телефоні чи окулярах, — і який має розуміти фізичний світ та оточення навколо вас. Наша система дуже сильна в цьому аспекті. Ми продовжимо інвестувати в цей напрямок, і вважаю, що наше лідерство у цих питаннях є значним.
Гаррі Тан: Витрати на виведення швидко знижуються. Що стає можливим, коли виведення буде майже безкоштовним? Чи зміняться напрямки оптимізації вашої команди через це?
Деміс Хассабіс: Я не впевнений, що висновки справді будуть безкоштовними — перед нами парадокс Джевонса. Я вважаю, що всі в кінцевому підсумку використають всю доступну обчислювальну потужність. Можна уявити мільйони агентів, які спільно працюють, або невелика група агентів, які одночасно розглядають кілька напрямків, а потім інтегрують результати. Ми всі експериментуємо з цими напрямками, і все це споживатиме доступні ресурси для висновків.
Щодо енергії, якщо ми вирішимо кілька проблем — керований термоядерний синтез, надпровідність при кімнатній температурі, оптимальні батареї — вважаю, що завдяки матеріалознавству ми зможемо це зробити, вартість енергії може наблизитися до нуля. Але фізичне виробництво чіпів та інші етапи все ще мають обмеження, щонайменше протягом наступних декількох десятиліть. Тому на інференс-кінці все ще будуть обмеження за квотами, і потрібно продовжувати ефективно використовувати ресурси.
Наступний науковий прорив
Гаррі Тан: На щастя, малі моделі стають все розумнішими. У залі багато засновників із сфер біології та біотехнологій. AlphaFold 3 вже перевищив межі білків і розширився на ширший спектр біомолекул. Наскільки ми далі від моделювання цілих клітинних систем? Чи це питання зовсім іншого рівня складності?
Деміс Хассабіс: Ізоморфні лабораторії показують чудовий прогрес. AlphaFold — це лише один етап у процесі відкриття ліків; ми проводимо суміжні біохімічні дослідження, розробляємо сполуки з правильними властивостями тощо — скоро будуть важливі оголошення.
Наша кінцева мета — створити повний віртуальний клітинний модуль, повнофункціональний симулятор клітини, який можна збурювати, і чиї вихідні дані достатньо близькі до експериментальних результатів та мають практичне застосування. Ви можете пропустити велику кількість кроків пошуку, генерувати величезну кількість синтетичних даних для навчання інших моделей, щоб вони передбачали поведінку реальних клітин.
Я оцінюю, що до повного віртуального клітини залишилося близько десяти років. На науковій стороні DeepMind ми починаємо з віртуального ядра клітини, оскільки ядро відносно самодостатнє. Ключовим питанням у таких задачах є можливість виділити шматок із відповідною складністю, який достатньо самодостатній, щоб можна було розумно наближено оцінити його вхідні та вихідні дані, а потім зосередитися на цьому підсистемі. З цієї точки зору ядро клітини дуже підходить.
Ще одна проблема — недостатньо даних. Я розмовляв із лідерами у галузі електронної мікроскопії та інших технологій візуалізації. Якби вдалося візуалізувати живі клітини без їхнього знищення, це було б революційним, бо тоді це перетворилося б на візуальну задачу, а ми знаємо, як вирішувати візуальні задачі. Але, наскільки мені відомо, наразі немає технологій, які дозволяли б отримувати зображення живих динамічних клітин з нанометровим розділенням без їх пошкодження. Ви можете отримати статичні зображення такої роздільної здатності — це вже дуже досконало і захопливо, але цього недостатньо, щоб прямо перетворити це на візуальну задачу.
Отже, існує два шляхи: один — апаратно-орієнтований, даних-орієнтований підхід; інший — створення кращих навчальних симуляторів для моделювання цих динамічних систем.
Гаррі Тан: Ви дивитеся не лише на біологію. Матеріалознавство, відкриття ліків, кліматичне моделювання, математика — якщо потрібно розташувати їх за порядком, яка наукова галузь найбільше зміниться за наступні п’ять років?
Деміс Хассабіс: Кожна галузь захоплює, і саме це стало моєю найбільшою пристрастю та причиною, чому я протягом понад 30 років працюю в галузі ШІ. Я завжди вважав, що ШІ стане фінальним інструментом для науки, щоб просувати наукове розуміння, наукові відкриття, медицину та наше розуміння всесвіту.
Спочатку ми формулювали свою місію як два кроки. Перший крок — вирішення інтелекту, тобто створення AGI; другий крок — використання його для вирішення всіх інших проблем. Пізніше нам довелося змінити формулювання, бо люди почали питати: «Ви справді маєте на увазі вирішення всіх проблем?». Саме це ми і маємо на увазі. Зараз люди починають розуміти, що це означає. Зокрема, я маю на увазі вирішення тих наукових галузей, які я називаю «кореневими проблемами» — тих, що після прориву відкривають цілі гілки нових відкриттів. AlphaFold — це прототип того, що ми хочемо зробити. Більше трьох мільйонів дослідників по всьому світу, майже кожен біолог-дослідник зараз використовує AlphaFold. Я чув від кількох друзів-керівників фармацевтичних компаній, що майже кожен новий лік, який буде виявлений у майбутньому, буде використовувати AlphaFold на якомусь етапі процесу відкриття ліків. Ми пишаємося цим і саме такого впливу хочемо досягти за допомогою ШІ. Але я вважаю, що це лише початок.
Я не можу пригадати жодної наукової чи інженерної галузі, де AI не міг би допомогти. Ті галузі, про які ви згадали, на мою думку, перебувають на етапі «AlphaFold 1» — результати вже обіцяючі, але величезні виклики галузі ще не подолані. У наступні два роки ми побачимо багато прогресу у всіх цих галузях — від матеріалознавства до математики.
Гаррі Тан: Це відчувається як прометеївське — надає людству абсолютно нову здатність.
Деміс Хассабіс: Так. Як і в притчі про Прометея, ми також повинні обережно ставитися до того, як ця здатність використовується, де вона застосовується, та ризику зловживання тими ж інструментами.
Досвід успіху
Гаррі Тан: Багато людей у залі намагаються заснувати компанії, що застосовують ШІ до науки. Як, на вашу думку, відрізняються справжні компанії, що рухають межі, від тих, що просто накладають API на базові моделі і називають себе «ШІ для науки»?
Деміс Хассабіс: Я думаю, якби сьогодні я сидів на вашому місці, розглядаючи проекти в Y Combinator, я б зробив. Одна річ — ви повинні передбачати розвиток технологій ШІ, що само по собі важко. Але я дійсно вважаю, що поєднання напрямку ШІ з іншою глибокою технологічною сферою має величезний потенціал. Ця перехрестя — чи то матеріали, медицина, чи інші справді складні наукові галузі, особливо ті, що стосуються атомного світу, — у передбачуваному майбутньому не матимуть скорочень. Ці галузі не будуть знищені наступним оновленням базової моделі. Але якщо ви шукаєте напрямки з високою захищеністю, це те, що я б рекомендував.
Я завжди схильний до глибоких технологій. Нічого справді тривалого та цінного не буває легким. Я завжди притягувався до глибоких технологій. У 2010 році, коли ми починали, ШІ був глибокою технологією — інвестори казали мені: «Ми вже знаємо, що це не працює», а академічне середовище вважало це маргінальним напрямком, який випробували у 90-х і який провалився. Але якщо ви вірите у свою ідею — чому цього разу інше, яка унікальна комбінація вашого досвіду — ідеально, якщо ви самі експерт у галузі машинного навчання та застосувань, або зможете сформувати таку команду засновників — тоді тут є величезний потенціал для створення впливу та цінності.
Гаррі Тан: Ця інформація дуже важлива. Після того як щось зроблено, здається, що це очевидно, але до цього всі проти тебе.
Деміс Хассабіс: Звісно, тому ви повинні робити те, що справді вас надихає. Для мене, що б не траплялося, я б продовжував працювати з ІО. Я вирішив це ще в дитинстві — це була найвпливовіша річ, яку я міг собі уявити. І це виявилося правдою, але може й ні, можливо, ми випередили час на 50 років. Це також найцікавіша річ, яку я міг собі уявити. Навіть якби сьогодні ми все ще сиділи в маленькому гаражі, а ІО ще не було створено, я б знайшов спосіб продовжувати. Можливо, я б повернувся до академічного середовища, але я б знайшов якийсь спосіб продовжити.
Гаррі Тан: AlphaFold — це приклад того, як ви вибрали напрямок і вдало зробили ставку. Що робить наукову галузь придатною для досягнення проривів на кшталт AlphaFold? Чи існують певні закономірності, наприклад, певна цільова функція?
Деміс Хассабіс: Я дійсно повинен знайти час, щоб це записати. Досвід, який я отримав з усіх проектів Alpha, таких як AlphaGo і AlphaFold, полягає в тому, що наші сучасні технології працюють найкраще, коли: перше, проблема має величезний комбінаторний простір пошуку — чим більший, тим краще, настільки великий, що жоден метод грубої сили або спеціальний алгоритм не може його вирішити. Простір ходів у го та простір конфігурацій білків значно перевищують кількість атомів у всесвіті. Друге, ви можете чітко визначити цільову функцію, наприклад, мінімізацію вільної енергії білка або перемога у грі у го, щоб система могла виконувати підйом за градієнтом. Третє, достатньо даних або існує симулятор, який може генерувати велику кількість синтетичних даних всередині розподілу.
Якщо виконуються ці три умови, то сьогоднішнім методом можна досить далеко просунутися, щоб знайти ту саму «иголку в стогу сіна». Те саме логічне міркування стосується відкриття ліків: існує певна сполука, яка лікує цю хворобу без побічних ефектів — якщо фізичні закони дозволяють її існування, єдина проблема полягає у тому, як ефективно та практично її знайти. Я вважаю, що AlphaFold вперше довів, що такі системи здатні знаходити такі іголки в надзвичайно великих просторах пошуку.
Гаррі Тан: Я хочу піднятися на наступний рівень. Ми говоримо про те, як люди за допомогою цих методів створили AlphaFold, але є ще один метарівень — люди використовують ШІ для дослідження можливих просторів гіпотез. Наскільки ми далеко від того, щоб ШІ-системи могли здійснювати справжнє наукове міркування (а не лише зіставлення шаблонів у даних)?
Деміс Хассабіс: Я вважаю, що ми дуже близькі. Ми розробляємо такі універсальні системи. У нас є система під назвою AI co-scientist, а також алгоритми, як AlphaEvolve, які здатні робити більше, ніж базовий Gemini. Всі передові лабораторії досліджують цей напрямок.
Але наразі я особисто не бачив жодного справжнього, значущого наукового відкриття, зробленого цими системами. Я вважаю, що воно скоро настане. Воно може бути пов’язане з креативністю, про яку ми раніше говорили — справжнім проривом за межі відомого. На цьому рівні це вже не збіг зразків, бо немає зразків для зіставлення. Це також не просто екстраполяція, а певний вид аналогічного мислення (analogical reasoning), якого, на мою думку, ці системи поки що не мають, або ми ще не використовуємо їх правильно.
У науковій сфері я часто кажу, що стандарт полягає в тому, чи може він сформулювати справді цікаву гіпотезу, а не просто підтвердити існуючу. Бо підтвердження гіпотези також може бути величезним досягненням — наприклад, доведення гіпотези Рімана або розв’язання якоїсь із проблем тисячоліття, але, можливо, нам залишилося лише кілька років до цього.
А ще складніше — чи зможемо ми запропонувати новий набір проблем тисячоліття, які вважатимуться такими ж глибокими та вартими дослідження протягом усього життя найкращими математиками? Я вважаю, що це на порядок складніше, і наразі ми не знаємо, як це зробити. Але я не вважаю це магією; я вірю, що ці системи зможуть це зробити, можливо, їм просто не вистачає ще чогось одного або двох.
Спосіб, яким ми можемо це перевірити, я іноді називаю «тестом Ейнштейна»: чи зможете ви навчити систему на знаннях 1901 року, а потім дозволити їй самостійно вивести результати, отримані Ейнштейном у 1905 році, включаючи спеціальну теорію відносності та його інші статті того року? Я вважаю, що нам слід дійсно провести цей тест, багато разів, щоб побачити, коли це станеться. Як тільки це станеться, ці системи будуть близькі до того, щоб справді винайти щось абсолютно нове.
Рекомендації для підприємців
Гаррі Тан: Останнє питання. Серед присутніх багато людей з глибоким технічним бекграундом, які хочуть зробити щось подібне до вашого масштабу — ви один з найбільших у світі організацій з дослідження ШІ. Ви йшли з передньої лінії досліджень AGI — що саме ви зараз знаєте, але бажали б знати у 25 років?
Деміс Хассабіс: Ми фактично вже торкнулися цього. Ви помітите, що складність вирішення складних і простих завдань майже однакова, просто вони складні по-різному. Різні справи мають різні труднощі. Але життя коротке, а сили обмежені — краще вкладати свою енергію в ті справи, якщо ви їх не зробите, то ніхто інший їх не зробить. Вибирайте за цим критерієм.
Ще одна річ: я вважаю, що протягом наступних кількох років комбінування різних галузей стане більш поширеним, а ШІ зробить міжгалузеве поєднання простішим.
Останнє залежить від вашого графіку AGI. Мій — приблизно 2030 рік. Якщо ви сьогодні розпочинаєте глибокотехнологічний проект, це зазвичай означає десятирічну подорож. Тоді ви повинні врахувати можливість появи AGI посеред цього шляху. Що це означає? Це не обов’язково погано, але ви повинні врахувати це. Чи зможе ваш проект використовувати AGI? Як AGI-системи будуть взаємодіяти з вашим проектом?
Щодо раніше обговорюваного зв’язку між AlphaFold і універсальними штучними інтелектними системами, я можу уявити таку ситуацію: Gemini, Claude або подібні універсальні системи будуть використовувати спеціалізовані системи, як AlphaFold, як інструменти. Я не вважаю, що ми збираємося втиснути все в один величезний єдиний «мозок» — немає сенсу завантажувати Gemini всіма даними про білки, бо Gemini не повинен виконувати складання білків. Повертаючись до вашої ідеї про інформаційну ефективність, ці дані про білки обов’язково знизили б його мовні здібності. Кращим підходом є створення дуже потужних універсальних моделей для використання інструментів, які можуть викликати і навіть навчати ці спеціалізовані інструменти, але спеціалізовані інструменти залишаються окремими системами.
Ця ідея варта глибокого обдумування: як вона впливає на те, що ви будуєте сьогодні, включаючи тип заводів та фінансових систем, які ви створюєте. Ви повинні серйозно ставитися до розкладу AGI, уявити, яким буде світ у той момент, і створити щось, що залишиться корисним, коли цей світ настане.
