Демис Хассабис о сроках достижения ОИИ, научных прорывах и будущем DeepMind

Организация и компиляция: Shenchao TechFlow

Гость: Демис Хассабис (основатель DeepMind, лауреат Нобелевской премии по химии 2024 года, руководитель Google DeepMind)

Ведущий: Гэри Тан

Источник подкаста: Y Combinator

Демис Хассабис: Агенты, ИИ общего назначения и следующий большой научный прорыв

Время трансляции: 29 апреля 2026 года

Редактировать вступление

Генеральный директор Google DeepMind, лауреат Нобелевской премии по химии Демис Хассабис посетил Y Combinator, где обсудил ключевые достижения, необходимые для достижения AGI, дал советы предпринимателям о том, как сохранять лидерство, и высказал предположения о том, где может произойти следующий крупный научный прорыв. Самый практичный вывод для предпринимателей в области глубоких технологий: если вы сегодня запускаете десятилетний проект в области глубоких технологий, вы должны включить появление AGI в свои планы. Кроме того, он сообщил, что Isomorphic Labs (спин-офф DeepMind, компания по разработке лекарств с использованием ИИ) скоро объявит важные новости.

Ключевые цитаты

AGI roadmap and timeline

Существующие эти компоненты технологий почти наверняка станут частью окончательной архитектуры AGI.
Проблемы с непрерывным обучением, долгосрочными рассуждениями и некоторыми аспектами памяти еще не решены; AGI должен полностью их решить.
Если ваша временная шкала для AGI примерно такая же, как у меня — около 2030 года, и вы сегодня начали проект в области глубоких технологий, вам необходимо учитывать, что AGI появится по пути.

Память и окно контекста

Окно контекста примерно соответствует рабочей памяти. Средняя рабочая память человека составляет всего семь цифр, а у нас окно контекста в миллионы или даже десятки миллионов токенов. Но проблема в том, что мы заполняем его всем подряд, включая неважную и ошибочную информацию — сейчас такой подход довольно грубый.
Если нужно обрабатывать потоковое видео в реальном времени и сохранять все токены, то миллиона токенов хватит примерно на 20 минут.

Дефекты логики

Я люблю играть в шахматы с Gemini. Иногда он осознает, что это плохой ход, но не может найти лучший и в итоге, обойдя вокруг, все равно делает этот плохой ход. Но точная система рассуждений не должна допускать такого.
Он может решать задачи уровня золотой медали IMO, но при изменении формулировки вопроса допускает ошибки, характерные для начальной школы. В самонаблюдении своего мыслительного процесса, кажется, чего-то не хватает.

Агент и креативность

Чтобы достичь AGI, вам нужна система, которая будет активно решать за вас проблемы. Агент — это путь, и я считаю, что мы только начинаем.
Я еще не видел, чтобы кто-то создал 3D-игру, возглавившую рейтинг приложений в магазине, с помощью vibe coding. При текущих усилиях это должно быть возможно, но пока этого не произошло. Это говорит о том, что в инструментах или процессах чего-то не хватает.

Дистилляция и малые модели

Наше предположение заключается в том, что через полгода-год после выпуска передовой модели Pro её возможности можно будет сжать до очень маленькой модели, способной работать на краевых устройствах. Пока не достигнут теоретический предел информационной плотности.

Scientific discoveries and the "Einstein Test"

Иногда я называю это «тестом Эйнштейна»: можно ли обучить систему на знаниях 1901 года, а затем позволить ей самостоятельно вывести результаты, полученные Эйнштейном в 1905 году, включая специальную теорию относительности. Как только это станет возможным, такие системы окажутся совсем близко к настоящему изобретению чего-то нового.
Решить одну из семи задач тысячелетия — это уже огромное достижение. Но еще сложнее — предложить новый набор задач тысячелетия, которые будут признаны ведущими математиками столь же глубокими и достойными жизни, посвященной их изучению.

Путь к реализации AGI

Гэри Тан: Вы думали об AGI дольше, чем почти все. Исходя из текущей парадигмы, как вы думаете, сколько из окончательной архитектуры AGI мы уже имеем? Чего фундаментально не хватает сейчас?

Демис Хассабис: Масштабное предварительное обучение, RLHF, цепочки рассуждений и т.д. — я уверен, что они станут частью окончательной архитектуры AGI. Эти технологии уже доказали слишком многое на сегодняшний день. Я не могу представить, чтобы через два года мы обнаружили, что это мертвый путь — это не имеет смысла для меня. Однако, помимо уже существующего, возможно, не хватает еще одной-двух вещей. Непрерывное обучение (continual learning), долгосрочные рассуждения (long-term reasoning), некоторые аспекты памяти — есть еще нерешенные вопросы. AGI должен решить все эти проблемы. Возможно, существующие технологии плюс некоторые постепенные инновации смогут расшириться до этого уровня, но, возможно, остаются еще один-два ключевых прорыва, которые необходимо совершить. Я не думаю, что их будет больше одного-двух. Лично я оцениваю вероятность наличия таких нерешенных ключевых моментов примерно как 50 на 50. Поэтому в Google DeepMind мы продвигаем оба направления.

Гэри Тан: Я работаю с множеством агентных систем, и самое удивительное для меня — это то, что в основе всё время используется один и тот же набор весов. Поэтому концепция непрерывного обучения особенно интересна, потому что сейчас мы в основном используем временные решения, например, такие вещи, как «ночные циклы снов».

Демис Хассабис: Да, эти циклы сна довольно интересны. Мы раньше уже размышляли об интеграции эпизодической памяти. Моя докторская работа была посвящена тому, как гиппокамп элегантно интегрирует новые знания в существующую систему знаний. Мозг делает это чрезвычайно хорошо. Он выполняет этот процесс во время сна, особенно во время быстрого сна с движением глаз (REM-сон), повторяя важные события, чтобы извлечь из них уроки. Один из ключевых методов, позволивших нашей первой программе Atari — DQN (глубокая Q-сеть, разработанная DeepMind в 2013 году и первой достигшей человеческого уровня в играх Atari с помощью глубокого усиленного обучения) — это повторение опыта (experience replay). Этот подход был вдохновлен нейробиологией: многократное воспроизведение успешных траекторий. Это было в 2013 году, что в области ИИ считается древней историей, но тогда это было крайне важно.

Я согласен с вами, сейчас мы действительно используем скотч, чтобы втиснуть всё в окно контекста. Это кажется неправильным. Даже если мы имеем дело не с биологическим мозгом, а с машиной, которая теоретически может иметь контекстное окно в миллионы или миллиарды токенов и идеальную память, затраты на поиск и извлечение всё равно остаются. В данный момент, когда требуется принять конкретное решение, найти действительно релевантную информацию непросто, даже если вы можете сохранить всё. Поэтому я считаю, что в области памяти ещё есть огромный потенциал для инноваций.

Гэри Тан: Честно говоря, контекстное окно в миллион токенов значительно превышает мои ожидания и позволяет делать многое.

Демис Хассабис: Для большинства сценариев его применения этого достаточно. Но подумайте: окно контекста примерно соответствует рабочей памяти. Средняя рабочая память человека вмещает всего семь цифр, а у нас — миллионы или даже десятки миллионов токенов в окне контекста. Проблема в том, что мы заполняем его всем подряд, включая неважную и ошибочную информацию, и сейчас этот подход довольно грубый. Кроме того, если вы сейчас хотите обрабатывать потоки видео в реальном времени и наивно сохранять все токены, миллиона токенов хватит лишь на примерно 20 минут. Но если вы хотите, чтобы система понимала вашу жизнь за один-два месяца, этого явно недостаточно.

Гэри Тан: DeepMind всегда глубоко вкладывалась в обучение с подкреплением и поиск; насколько сильно эта философия встроена в процесс создания Gemini сейчас? Обучение с подкреплением все еще недооценивается?

Демис Хассабис: Возможно, его действительно недооценивают. Интерес к этой области колеблется. Мы занимаемся системами агентов с первого дня основания DeepMind. Вся работа над Atari и AlphaGo по сути является работой над системами агентов на основе усиленного обучения, способными самостоятельно достигать целей, принимать решения и разрабатывать планы. Конечно, мы выбрали игровую сферу, поскольку она имеет управляемую сложность, а затем постепенно переходили к более сложным играм: после AlphaGo мы разработали AlphaStar — в целом, мы реализовали все, что могли в игровой области.

Следующий вопрос: можно ли обобщить эти модели до мировых или языковых моделей, а не только игровых моделей? В последние несколько лет мы именно этим и занимались. Сегодняшние модели мышления и цепочки рассуждений всех ведущих моделей по сути являются возвращением к тому, что было впервые создано AlphaGo. Я считаю, что многие из наших работ тогда имеют высокую релевантность сегодня, и мы заново пересматриваем эти старые идеи, применяя их в большем масштабе и более универсальном виде, включая такие методы усиленного обучения, как поиск по дереву Монте-Карло. Идеи AlphaGo и AlphaZero чрезвычайно релевантны сегодняшним базовым моделям, и я считаю, что значительная часть прогресса в ближайшие годы будет исходить от них.

Дистилляция и малые модели

Гэри Тан: Сейчас, чтобы быть умнее, нужны более крупные модели, но в то же время технологии дистилляции тоже развиваются, и небольшие модели могут стать довольно быстрыми. Ваши Flash-модели очень сильны — они в основном достигают 95% эффективности передовых моделей, но стоят в десять раз дешевле. Верно?

Демис Хассабис: Я считаю, что это одно из наших ключевых преимуществ. Сначала нужно создать самые крупные модели, чтобы получить передовые возможности. Одно из наших главных преимуществ — это быстрая дистилляция и сжатие этих возможностей в всё более мелкие модели. Сам метод дистилляции был изобретён нами, и сейчас мы остаёмся мировыми лидерами в этой области. У нас также есть сильные бизнес-мотивы для этого. Мы, вероятно, крупнейшая в мире платформа для применения ИИ. У нас есть AI Overviews и AI Mode, а также Gemini — и теперь каждое продукт Google, включая карты, YouTube и другие, интегрирует Gemini или связанные технологии. Это охватывает миллиарды пользователей и десятки продуктов с миллиардами пользователей. Они должны быть чрезвычайно быстрыми, эффективными, низкозатратными и с минимальной задержкой. Это создаёт огромную мотивацию для нас, чтобы сделать Flash и ещё более компактные модели Flash-Lite максимально эффективными, и я надеюсь, что в конечном итоге это будет полезно для решения различных задач пользователей.

Гэри Тан: Мне интересно, насколько умными могут быть эти небольшие модели. Есть ли предел у метода дистилляции? Могут ли модели размером 50B или 400B быть такими же умными, как самые крупные современные передовые модели?

Демис Хассабис: Я не считаю, что мы уже достигли информационных пределов — по крайней мере, пока никто не знает, достигли ли мы их. Возможно, однажды мы столкнемся с потолком информационной плотности, но сейчас наша гипотеза заключается в том, что после выпуска передовой Pro-модели её способности можно будет сжать до очень компактной модели, способной работать на краевых устройствах, в течение шести месяцев до года. Вы можете увидеть это и на моделях Gemma: наша модель Gemma 4 демонстрирует очень высокую производительность при том же размере. Это достигается за счёт использования множества техник дистилляции и оптимизации эффективности малых моделей. Поэтому я действительно не вижу никаких теоретических пределов — мне кажется, мы ещё очень далеко от них.

Гэри Тан: Сейчас наблюдается крайне странный феномен — объем работы, который может выполнить инженер, примерно в 500–1000 раз превышает объем работы шесть месяцев назад. Некоторые люди в этой комнате выполняют объем работы, в 1000 раз превышающий объем работы инженера Google 2000-х годов. Об этом говорил Стив Егге.

Демис Хассабис: Мне очень интересно. У малых моделей много применений. Одно из них — низкая стоимость и высокая скорость, что также приносит преимущества. При написании кода или выполнении других задач вы можете быстрее проводить итерации, особенно при взаимодействии с системой. Даже если система не является передовой, например, она составляет лишь 90–95% от передовых решений, этого вполне достаточно, и вы с лихвой компенсируете этот 10% за счет увеличения скорости итераций.

Еще одно важное направление — запуск этих моделей на краевых устройствах, что необходимо не только для повышения эффективности, но и для обеспечения конфиденциальности и безопасности. Подумайте о различных устройствах, обрабатывающих очень личную информацию, а также о роботах: для робота в вашем доме вы захотите, чтобы эффективная и мощная модель работала локально, а задачи передавались крупной облачной модели только в определенных сценариях. Аудио- и видеопотоки обрабатываются локально, данные остаются на месте — я могу представить это как идеальный конечный результат.

Память и логика

Гэри Тан: Вернемся к контексту и памяти. Сейчас модели являются безсостоятельными; каким будет опыт разработчиков, если у модели появится способность к непрерывному обучению? Как вы будете направлять такую модель?

Демис Хассабис: Этот вопрос очень интересен. Отсутствие непрерывного обучения является ключевым ограничением, мешающим современным агентам выполнять полные задачи. Сейчас агенты полезны для отдельных этапов задачи — вы можете объединять их, чтобы делать довольно интересные вещи, но они плохо адаптируются к вашей конкретной среде. Именно поэтому они пока не могут действительно работать «запустил и забыл» — им нужно уметь учиться на вашей конкретной ситуации. Для достижения полной универсальной интеллектуальности эту проблему необходимо решить.

Гэри Тан: Как продвигаются исследования в области рассуждений? Модель сейчас имеет очень сильную цепочку мышления, но всё ещё допускает ошибки, которых не сделали бы умные студенты-бакалавры. Что именно нужно изменить? Каких прогрессов вы ожидаете в области рассуждений?

Демис Хассабис: В плане мышления существует огромный потенциал для инноваций. То, что мы делаем, пока довольно грубо и довольно жестко. Есть множество направлений для улучшения, например, мониторинг процесса цепочки рассуждений и вмешательство в процесс мышления на промежуточных этапах. Я часто чувствую, что как наши системы, так и системы конкурентов в определенной степени слишком много думают и попадают в циклы.

Иногда мне нравится наблюдать, как Gemini играет в шахматы. Интересно, что все ведущие базовые модели действительно плохо играют в шахматы. Наблюдать за их цепочками рассуждений очень ценно, поскольку шахматы — это хорошо изученная область, и я быстро могу определить, отклоняется ли она от правильного пути или нет. Мы видим, что иногда она рассматривает ход, понимает, что это плохой ход, но не может найти лучший и в итоге возвращается к этому же плохому ходу. Такого не должно происходить в точной системе рассуждений.

Этот огромный разрыв всё ещё существует, но его устранение может потребовать всего лишь одного-двух корректировок. Именно поэтому вы наблюдаете так называемую «зубчатую интеллектуальность»: с одной стороны, она способна решать задачи уровня золотой медали ИМО, а с другой — при другом формулировании вопроса допускает ошибки, характерные для школьной математики. Внутреннему осознанию собственного мышления, похоже, чего-то не хватает.

Настоящие возможности агента

Гэри Тан: Агенты — это большая тема. Кто-то называет это хайпом. Я лично считаю, что мы только начинаем. Каково реальное внутреннее исследование DeepMind по возможностям агентов и насколько оно отличается от внешних заявлений?

Демис Хассабис: Я согласен с вами, мы только начинаем. Чтобы достичь AGI, вам нужна система, которая будет активно решать за вас проблемы. Это всегда было для нас очевидно. Агенты — это путь, и я считаю, что мы только на старте. Все мы ищем способы сделать агентов более эффективными в работе; многие из вас, вероятно, тоже провели множество личных экспериментов. Как интегрировать агентов в рабочие процессы так, чтобы они не были просто дополнительной фишкой, а действительно занимались фундаментальными задачами? Сейчас мы всё ещё на этапе экспериментов. Возможно, только в последние два-три месяца мы начали действительно находить особенно ценные сценарии. Технология, кажется, только сейчас достигла уровня, когда она перестала быть просто демонстрационной игрушкой и начала реально приносить ценность вашему времени и эффективности.

Я часто вижу, как люди запускают десятки агентов, заставляя их работать десятки часов, но пока не уверен, что результат оправдает такие вложения.

Мы еще не видели, чтобы кто-то создал 3D-игру, возглавившую рейтинг приложений в магазине, с помощью vibe coding. Я сам писал такие вещи, и многие из вас тоже создавали неплохие мини-демо. Сейчас я могу за полчаса сделать прототип Theme Park — когда мне было 17, на это уходило шесть месяцев. У меня есть ощущение, что если потратить целое лето, можно создать по-настоящему невероятное что-то. Но все еще требуется мастерство и человеческая душа, вкус — вы должны убедиться, что все это вкладываете в любой создаваемый вами продукт. На самом деле пока ни один ребенок не создал игру, проданную тиражом в десять миллионов копий — при текущих инструментах и вложениях это должно быть возможно. Значит, чего-то все еще не хватает — возможно, в процессе или в инструментах. Я ожидаю, что в ближайшие 6–12 месяцев мы увидим такой результат.

Гэри Тан: Насколько это будет полностью автоматизировано? Я не думаю, что сразу будет полная автоматизация. Более вероятный путь — сначала люди достигнут эффективности в 1000 раз, затем кто-то создаст популярные приложения и игры с использованием этих инструментов, и только после этого другие этапы начнут автоматизироваться.

Демис Хассабис: Да, именно это вы должны увидеть в первую очередь.

Гэри Тан: Также часть причины в том, что некоторые действительно это делают, но не хотят публично говорить, насколько сильно им помог агент.

Демис Хассабис: Возможно. Но я хотел бы поговорить о креативности. Я часто привожу в пример AlphaGo — все знают о 37-м ходе во втором матче. Для меня я постоянно ждал момента, подобного этому; как только он наступил, я запустил научные проекты, такие как AlphaFold. Мы начали работу над AlphaFold на следующий день после возвращения из Сеула — это было десять лет назад. Я приехал в Корею именно для празднования десятой годовщины AlphaGo.

Но одного лишь шага Move 37 недостаточно. Он крутой и полезный. Но может ли эта система изобрести саму игру в го? Если вы дадите ей высокий уровень описания, например: «игра, правила которой можно освоить за пять минут, но которую невозможно полностью освоить за всю жизнь, эстетически изящная, партия в которую можно сыграть за один послеобеденный час», — и система вернёт вам в ответ игру в го, — сегодняшние системы не способны на это. В чём проблема?

Гэри Тан: Возможно, кто-то из присутствующих сможет это сделать.

Демис Хассабис: Если кто-то уже этого добился, то проблема не в недостатках системы, а в том, как мы её используем. Возможно, это и есть правильный ответ. Возможно, сегодняшние системы уже обладают такой способностью, но им нужен достаточно гениальный создатель, который сможет вдохнуть в проект душу и при этом полностью сольётся с инструментом, почти став с ним единым целым. Если вы круглосуточно погружены в эти инструменты и обладаете глубокой креативностью, вы можете создать нечто невообразимое.

Open source and multimodal models

Гэри Тан: Давайте сменить тему и поговорим об открытых исходных кодах. Недавний выпуск Gemma позволяет запускать очень мощные модели локально. Как вы на это смотрите? Станут ли ИИ-модели чем-то, чем будут владеть сами пользователи, а не останутся в основном в облаке? Изменит ли это то, кто сможет использовать эти модели для создания продуктов?

Демис Хассабис: Мы — убежденные сторонники открытого исходного кода и открытой науки. Вы упомянули AlphaFold — мы полностью открыли его бесплатно. Наши научные работы до сих пор публикуются в ведущих научных журналах. Что касается Gemma, мы стремимся создать мировые лидирующие модели того же масштаба. На данный момент Gemma была скачана примерно 40 миллионов раз, хотя вышла всего две с половиной недели назад.

Я также считаю важным наличие западного технологического стека в области с открытым исходным кодом. Китайские модели с открытым исходным кодом отличаются отличным качеством и в настоящее время лидируют в этой области, но мы считаем, что Gemma очень конкурентоспособна при сопоставимом размере.

У нас также возникает проблема с ресурсами: никто не имеет избыточных вычислительных мощностей для создания двух полноразмерных передовых моделей. Поэтому на данный момент наше решение заключается в следующем: краевые модели для Android, очков, роботов и т.д. лучше сделать открытыми, поскольку после развертывания на устройстве они сами по себе становятся уязвимыми — проще полностью открыть их. Мы унифицировали стратегию открытости на наноуровне, что также имеет стратегический смысл.

Гэри Тан: Перед выходом на сцену я продемонстрировал созданную мной операционную систему на базе ИИ — я могу напрямую взаимодействовать с Gemini с помощью голоса. Мне было довольно неловко демонстрировать это, но всё-таки получилось. Gemini изначально разрабатывался как мультимодальная система. Я пробовал множество моделей, но ни одна из них не может сравниться с Gemini по глубине взаимодействия голоса с моделью, возможностям вызова инструментов и пониманию контекста.

Демис Хассабис: Да. Одним из еще не полностью осознанных преимуществ серии Gemini является то, что мы изначально разрабатывали её как мультимодальную систему. Это сделало стартовый этап сложнее, чем при разработке только текстовых моделей, но мы уверены, что в долгосрочной перспективе это принесет нам выгоду — и уже сейчас эти преимущества начинают реализовываться. Например, в области моделей мира мы создали Genie (генеративную интерактивную модель среды, разработанную DeepMind) на базе Gemini. То же самое касается робототехники: Gemini Robotics будет построен на мультимодальной базовой модели, и наше преимущество в мультимодальности станет конкурентным барьером. Мы также все чаще используем Gemini в Waymo (автономной автомобильной компании Alphabet).

Представьте себе цифрового помощника, который следует за вами в реальном мире — возможно, на вашем телефоне или очках, — и должен понимать физический мир и окружающую среду. Наша система исключительно сильна в этом аспекте. Мы продолжим инвестировать в это направление, и я считаю, что наше лидерство в решении таких задач очень велико.

Гэри Тан: Стоимость вывода быстро снижается. Что становится возможным, когда вывод становится практически бесплатным? Изменится ли направление оптимизации вашей команды из-за этого?

Демис Хассабис: Я не уверен, что выводы станут действительно бесплатными — перед нами парадокс Джевонса. Я считаю, что в конечном итоге все используют всю доступную вычислительную мощность. Можно представить, как миллионы агентов работают совместно, или небольшая группа агентов одновременно рассматривает несколько направлений, а затем интегрирует результаты. Мы все экспериментируем с этими направлениями, и всё это будет потреблять доступные ресурсы для вывода.

В сфере энергетики, если мы решим несколько из проблем — управляемый термоядерный синтез, сверхпроводимость при комнатной температуре, оптимальные батареи — я считаю, что это будет достигнуто благодаря материаловедению, тогда стоимость энергии может приблизиться к нулю. Однако физический процесс производства чипов и другие этапы по-прежнему имеют ограничения, по крайней мере в ближайшие десятилетия. Следовательно, на стороне вывода по-прежнему будут действовать лимиты, и необходимо продолжать эффективно использовать ресурсы.

Следующий научный прорыв

Гэри Тан: Хорошо, что небольшие модели становятся все умнее. Здесь много основателей в области биологии и биотехнологий. AlphaFold 3 уже вышел за рамки белков и расширился до более широкого спектра биомолекул. Насколько мы далеки от моделирования полных клеточных систем? Это вопрос совершенно другого уровня сложности?

Демис Хассабис: Прогресс Isomorphic Labs очень хорош. AlphaFold — это лишь один этап в процессе открытия лекарств; мы проводим смежные биохимические исследования, разрабатываем соединения с нужными свойствами и вскоре ожидаем крупных анонсов.

Наша конечная цель — создать полный виртуальный клеточный симулятор, который можно возмущать, чьи выходные данные достаточно близки к экспериментальным результатам и имеют практическое применение. Вы можете пропустить множество этапов поиска, сгенерировать огромное количество синтетических данных для обучения других моделей, чтобы они предсказывали поведение реальных клеток.

Я полагаю, что до полной виртуальной клетки осталось примерно десять лет. Мы в научной команде DeepMind начинаем с виртуального ядра клетки, поскольку ядро относительно автономно. Ключевой вопрос здесь — можно ли выделить фрагмент с подходящей сложностью, который достаточно автономен, чтобы можно было разумно аппроксимировать его входы и выходы, и сосредоточиться на этой подсистеме. С этой точки зрения ядро клетки очень подходит.

Еще одна проблема — недостаток данных. Я общался с ведущими учеными, работающими с электронной микроскопией и другими методами визуализации. Если бы можно было визуализировать живые клетки без их уничтожения, это стало бы революцией, потому что тогда задачу можно было бы превратить в визуальную, а мы знаем, как решать визуальные задачи. Однако, насколько мне известно, на данный момент не существует технологии, позволяющей получать изображения живых динамических клеток с нанометровым разрешением без их разрушения. Можно получить статические изображения такого разрешения — это уже очень тонко и впечатляет, но этого недостаточно, чтобы напрямую превратить это в визуальную задачу.

Таким образом, есть два пути: один — аппаратно-ориентированный, данные-ориентированный подход; другой — создание более эффективных обучаемых симуляторов для моделирования этих динамических систем.

Гэри Тан: Вы смотрите не только на биологию. Материаловедение, открытие лекарств, климатическое моделирование, математика — если нужно расставить приоритеты, какая научная область будет наиболее кардинально преобразована в ближайшие пять лет?

Демис Хассабис: Каждая область вызывает интерес, и именно поэтому это всегда было моей главной страстью и причиной, по которой я занимаюсь ИИ уже более 30 лет. Я всегда считал, что ИИ станет финальным инструментом науки для продвижения научного понимания, научных открытий, медицины и нашего познания Вселенной.

Мы изначально формулировали свою миссию в два этапа. Первый этап — решить интеллект, то есть создать AGI; второй этап — использовать его для решения всех остальных проблем. Позже нам пришлось изменить формулировку, потому что люди спрашивали: «Вы действительно имеете в виду решение всех проблем?». Да, именно это мы и имеем в виду. Сейчас люди начинают понимать, что это означает. Конкретно я имею в виду решение научных областей, которые я называю «корневыми проблемами» — тех, прорыв в которых открывает целые ветви новых открытий. AlphaFold — это прототип того, что мы хотим сделать. Более трёх миллионов исследователей по всему миру, почти каждый биолог теперь использует AlphaFold. Я слышал от некоторых руководителей фармацевтических компаний, что почти каждое новое лекарство в будущем будет использовать AlphaFold на каком-то этапе процесса открытия препаратов. Мы гордимся этим и именно такого влияния хотим добиться от ИИ. Но я считаю, что это только начало.

Я не могу придумать ни одну научную или инженерную область, где ИИ не мог бы помочь. Те области, которые вы упомянули, я считаю находящимися примерно на «моменте AlphaFold 1» — результаты уже многообещающие, но крупнейшие вызовы этих областей еще не преодолены. В ближайшие два года мы будем иметь много достижений для обсуждения во всех этих областях — от материаловедения до математики.

Гэри Тан: Это как прометеевское дарование человечеству совершенно новых возможностей.

Демис Хассабис: Верно. Как и в морали истории о Прометее, мы должны быть осторожны в том, как, где и для каких целей используется эта способность, а также в рисках злоупотребления одними и теми же инструментами.

Успешный опыт

Гэри Тан: Многие из присутствующих пытаются основать компании, применяющие ИИ в науке. Как вы считаете, в чем разница между настоящими компаниями, продвигающими передовые достижения, и теми, которые просто накладывают API на базовые модели и называют себя «ИИ для науки»?

Демис Хассабис: Я думаю, если бы сегодня я сидел на вашем месте и рассматривал проекты в Y Combinator, что бы я сделал. Одно из них — вы должны предвидеть направление развития ИИ, что само по себе сложно. Но я действительно считаю, что есть огромные возможности в объединении направления развития ИИ с другой областью глубоких технологий. Эта перекрестная точка — будь то материалы, медицина или другие действительно сложные научные области, особенно связанные с атомным миром, — в обозримом будущем не будет иметь обходных путей. Эти области не будут подавлены следующим обновлением базовой модели. Но если вы ищете направления с высокой защитой, это то, что я бы рекомендовал.

Я всегда предпочитал глубокие технологии. Настоящие долгосрочные и ценные вещи не бывают простыми. Я всегда привлекался глубокими технологиями. В 2010 году, когда мы начинали, ИИ был глубокой технологией — инвесторы говорили мне: «Мы уже знаем, что это не сработает», а академическое сообщество считало это узким направлением, которое пытались реализовать в 90-х и провалились. Но если у вас есть уверенность в своей идее — почему на этот раз будет иначе, каков ваш уникальный набор опыта — в идеале, вы сами эксперт в области машинного обучения и приложений, или вы можете собрать такую команду основателей — здесь есть огромный потенциал для создания влияния и ценности.

Гэри Тан: Эта информация важна. После того как что-то сделано, это кажется само собой разумеющимся, но до этого все были против тебя.

Демис Хассабис: Конечно, вы должны заниматься тем, что действительно вас вдохновляет. Для меня, что бы ни случилось, я буду заниматься ИИ. Я решил это ещё в детстве — это было самым влиятельным делом, которое я мог себе представить. И это подтвердилось, хотя могло и не получиться — возможно, мы опередили время на 50 лет. Это также и самое интересное, что я могу себе представить. Даже если бы сегодня мы всё ещё сидели в маленьком гараже и ИИ ещё не был создан, я бы нашёл способ продолжать. Возможно, я вернулся бы в академическую среду, но я нашёл бы какой-то способ двигаться дальше.

Гэри Тан: AlphaFold — это пример того, как вы последовали за направлением и удачно сделали ставку. Что делает научную область подходящей для появления прорывов в стиле AlphaFold? Существуют ли закономерности, например, определённая целевая функция?

Демис Хассабис: Мне действительно стоит как-нибудь записать это. Из всех проектов Alpha, таких как AlphaGo и AlphaFold, я вывел следующий опыт: наши существующие технологии работают наилучшим образом, когда: во-первых, задача имеет огромное комбинаторное пространство поиска — чем больше, тем лучше, настолько большое, что никакой метод полного перебора или специализированный алгоритм не могут его решить. Пространство ходов в го и конфигурационное пространство белков значительно превышают количество атомов во Вселенной. Во-вторых, вы можете четко определить целевую функцию, например, минимизацию свободной энергии белка или победу в го, чтобы система могла выполнять градиентный подъем. В-третьих, у вас достаточно данных или есть симулятор, способный генерировать большое количество синтетических данных внутри распределения.

Если выполняются эти три условия, то сегодняшними методами можно продвинуться далеко в поиске «иголки в стоге сена», которую вы ищете. То же самое логически верно и для открытия лекарств: существует соединение, способное лечить это заболевание без побочных эффектов; если физические законы допускают его существование, единственная проблема — как эффективно и практически его найти. Я считаю, что AlphaFold впервые доказал, что такие системы способны находить такие иголки в огромном пространстве поиска.

Гэри Тан: Я хочу подняться на следующий уровень. Мы говорим о том, как люди с помощью этих методов создали AlphaFold, но есть еще один метауровень: люди используют ИИ для исследования возможного пространства гипотез. Насколько мы далеки от того, чтобы ИИ-системы могли совершать настоящие научные рассуждения (а не просто сопоставлять паттерны в данных)?

Демис Хассабис: Я чувствую, что мы уже очень близки. Мы разрабатываем такие универсальные системы. У нас есть система под названием AI co-scientist и алгоритмы, такие как AlphaEvolve, которые способны делать вещи, выходящие за рамки базового Gemini. Все передовые лаборатории исследуют это направление.

Но до сих пор я лично не видел ни одного настоящего, значительного научного открытия, сделанного этими системами. Я чувствую, что оно вот-вот произойдет. Оно, возможно, связано с творчеством, о котором мы раньше говорили — с настоящим прорывом за пределы известного. На этом уровне это уже не сопоставление шаблонов, потому что шаблонов просто не существует для сопоставления. Это также не совсем экстраполяция, а некий вид аналогического мышления (analogical reasoning), которым, как я считаю, эти системы пока не обладают или мы еще не используем их правильно.

В научной сфере я часто говорю о следующем критерии: может ли он сформулировать действительно интересную гипотезу, а не просто проверить существующую? Ведь сама проверка гипотезы может быть грандиозным достижением — например, доказательство гипотезы Римана или решение какой-либо задачи тысячелетия — но, возможно, до этого осталось всего несколько лет.

Но сложнее того, можно ли сформулировать новый набор задач тысячелетия, которые будут считаться столь же глубокими и достойными жизни, посвященной их изучению, ведущими математиками. Я считаю, что это на порядок сложнее, и мы пока не знаем, как это сделать. Но я не думаю, что это магия; я верю, что эти системы в конечном итоге смогут это сделать, возможно, им не хватает еще одной-двух вещей.

Способ проверить это — я иногда называю это «тестом Эйнштейна»: сможете ли вы обучить систему на знаниях 1901 года, а затем позволить ей самостоятельно вывести результаты, полученные Эйнштейном в 1905 году, включая специальную теорию относительности и его другие статьи того года. Я считаю, что нам действительно стоит провести этот тест, многократно пробуя, чтобы понять, когда это станет возможным. Как только это удастся, эти системы окажутся совсем близко к настоящему изобретению чего-то совершенно нового.

Советы для предпринимателей

Гэри Тан: Последний вопрос. Среди присутствующих много людей с глубокой технической подготовкой, которые хотят сделать что-то подобное вашему масштабу — вы один из крупнейших в мире исследовательских организаций в области ИИ. Вы прошли через самые передовые достижения в области AGI. Есть ли что-то, что вы сейчас знаете, но хотели бы знать в 25 лет?

Демис Хассабис: Мы уже частично об этом говорили. Вы обнаружите, что сложность решения сложных задач и простых задач примерно одинакова — просто они сложны по-разному. Разные вещи имеют разные трудности. Но жизнь коротка, и энергии ограничено, поэтому лучше вложить свою жизненную силу в то, что никто другой не сделает, если вы этого не сделаете. Выбирайте по этому критерию.

Еще один момент: я считаю, что в ближайшие годы междисциплинарные комбинации станут более распространенными, и ИИ сделает междисциплинарность проще.

Последнее зависит от вашего графика появления AGI. Мой — около 2030 года. Если вы начинаете глубокотехнологичный проект сегодня, это обычно означает десятилетний путь. Тогда вы должны учитывать возможность появления AGI по пути. Что это значит? Это не обязательно плохо, но вы должны это учитывать. Сможет ли ваш проект использовать AGI? Как AGI-системы будут взаимодействовать с вашим проектом?

Возвращаясь к ранее обсуждаемой связи между AlphaFold и универсальными ИИ-системами, я могу предвидеть следующую ситуацию: Gemini, Claude или подобные универсальные системы будут использовать такие специализированные системы, как AlphaFold, в качестве инструментов. Я не считаю, что мы будем втискивать всё в один огромный «мозг» — нет смысла загружать Gemini всеми данными о белках, ведь Gemini не должен заниматься складыванием белков. Возвращаясь к вашему вопросу об информационной эффективности, эти данные о белках обязательно замедлят его языковые способности. Более разумный подход — создать мощные универсальные модели, способные вызывать и даже обучать специализированные инструменты, при этом сами специализированные инструменты остаются независимыми системами.

Эта идея заслуживает глубокого размышления: как она влияет на то, что вы строите сегодня, включая тип фабрик и финансовых систем, которые вы создаете. Вам нужно серьезно отнестись к расписанию AGI, представить, каким будет этот мир, и создать что-то, что останется полезным, когда этот мир наступит.

Демис Хассабис о сроках достижения ОИИ, научных прорывах и будущем DeepMind

Редактировать вступление

Ключевые цитаты

AGI roadmap and timeline

Память и окно контекста

Дефекты логики

Агент и креативность

Дистилляция и малые модели

Scientific discoveries and the "Einstein Test"

Рекомендации для стартапов в области глубоких технологий

Путь к реализации AGI

Дистилляция и малые модели

Память и логика

Настоящие возможности агента

Open source and multimodal models

Следующий научный прорыв

Успешный опыт

Советы для предпринимателей