デミス・ハサビスによるAGIのタイムライン、科学的ブレイクスルー、およびディープマインドの将来

整理・編集：深潮 TechFlow

ゲスト：デミス・ハサビス（DeepMind創設者、2024年ノーベル化学賞受賞者、Google DeepMind責任者）

モデレーター：Gary Tan

ポッドキャスト元：Y Combinator

デミス・ハサビス：エージェント、AGI、そして次の大規模な科学的ブレイクスルー

放送時間：2026年4月29日

編集者コメント

Google DeepMindのCEOでノーベル化学賞受賞者であるデミス・ハサビスがY Combinatorに登場し、AGIへの道のりにおける重要な進展、起業家が競争優位を維持するためのアドバイス、そして次の大規模な科学的ブレークスルーがどこで起こる可能性があるかについて語りました。深科技スタートアップの創業者にとって最も実用的な判断は、今日10年計画の深科技プロジェクトを立ち上げる場合、AGIの登場を計画に組み込む必要があるということです。また、彼はDeepMindからスピンオフしたAI製薬企業Isomorphic Labsがまもなく重大な発表を行うことを明らかにしました。

名言集

AGI ロードマップとタイムライン

これらの既存の技術コンポーネントは、ほぼ確実にAGIの最終アーキテクチャの一部となるでしょう。
継続的な学習、長期的な推論、記憶の一部の課題はまだ解決されておらず、AGIはこれらすべてを克服する必要があります。
もしあなたのAGIのタイムラインが私のように2030年頃で、今日あなたがディープテクノロジーのプロジェクトを始めたなら、AGIが途中で登場することを考慮に入れる必要があります。

メモリとコンテキストウィンドウ

コンテキストウィンドウは、おおまかに言えば作業記憶に相当します。人間の作業記憶は平均して7つの数字程度しか持ちませんが、私たちには百万、あるいは千万トークンものコンテキストウィンドウがあります。しかし問題は、重要な情報だけでなく、不要で誤った情報まですべて詰め込んでいる点で、現在のやり方は非常に乱暴です。
リアルタイムの動画ストリームを処理し、すべてのトークンを保存する場合、100万トークンでは約20分しか持ちません。

推論の欠陥

私はGeminiでチェスをします。時々、それは悪手であることに気づきながらも、より良い手が見つからず、結局またその悪手を指してしまうことがあります。しかし、正確な推論システムはこのような状況になってはいけません。
それは一方でIMO金賞レベルの問題を解けるが、別の方法で質問されると小学校の算数の間違いを犯す。自身の思考プロセスに対する内省において、何かが欠けているようだ。

エージェントと創造性

AGIに到達するには、あなたのために積極的に問題を解決できるシステムが必要です。エージェントがその道であり、私たちはまだ始まったばかりだと考えています。
まだ誰も、vibe coding でアプリストアのランキングトップに到達した3Aゲームを作ったことはありません。現在の投入精力から考えれば、それは可能かもしれませんが、まだ実現していません。これは、ツールやプロセスに何らかの欠けている部分があることを示しています。

蒸留と小型モデル

私たちの仮説は、最先端のProモデルがリリースされて半年から1年後には、その能力がエッジデバイス上で実行可能な非常に小さなモデルに圧縮できるというものです。現在のところ、情報密度の理論的限界にはまだ到達していません。

科学的発見と「アインシュタインテスト」

私は時々これを「アインシュタインテスト」と呼んでいます。つまり、1901年の知識だけでシステムを訓練し、それが自らアインシュタインが1905年に導き出した成果、たとえば特殊相対性理論などを導き出せるかどうかというテストです。それが可能になれば、これらのシステムは真に新しいものを発明する段階に近づいたことになります。
解決一個千禧年大獎問題已經非常了不起了。但更難的是，能否提出一組新的千禧年大獎問題，並且這些問題被頂尖數學家認為同樣深刻、值得用一生去研究。

ディープテックスタートアップの提案

難しい質問と簡単な質問を追うのは、実は似たようなもので、難しいやり方が異なるだけだ。人生は短い。あなたがやらないと本当に誰もやらないことに対して、エネルギーを注ごう。

AGIの実現パス

ゲイリー・タン：あなたは、AGIについて考える時間をほぼ誰よりも長く費やしてきました。現在のパラダイムを見ると、AGIの最終アーキテクチャのうち、どれくらいをすでに実現しているとお考えですか？今、根本的に欠けているものは何ですか？

デミス・ハサビス：大規模プリトレーニング、RLHF、チェーンオブシンキングなど、これらはAGIの最終アーキテクチャの一部になると私は確信しています。これらの技術が今日に至るまでに示してきたものはあまりにも多いです。两年後にはこれが死胡同だったと発見されるとは、私には想像できません。しかし、既存の技術に加えて、まだ一つか二つほど足りない要素があるかもしれません。継続的学習（continual learning）、長期的推論（long-term reasoning）、記憶のいくつかの側面など、まだ解決されていない問題があります。AGIにはこれらすべてを完璧に解決する必要があります。現在の技術に少しずつの革新を加えることでそのレベルに到達できるかもしれませんし、まだ一つか二つの大きな鍵を突破する必要があるかもしれません。私はそれ以上にはならないと思います。私自身の判断では、このような未解決の鍵が存在する確率は五分五分です。そのため、Google DeepMindでは、両方の道を並行して進めています。

ゲイリー・タン：私は多くのエージェントシステムとやり取りしていますが、最も驚いたのは、底層で繰り返し使われているのは同じ重みのセットだということです。したがって、継続的学習という概念は特に興味深いです。なぜなら、現在私たちが使っているのは、「夜の夢のサイクル」のようなものなど、テープで一時的に貼り合わせたようなものだからです。

デミス・ハサビス：はい、その夢のサイクルはとても興味深いです。私たちは以前から情景記憶の統合について考えていきました。私の博士研究は、海馬体が新しい知識を既存の知識体系にどのように洗練されて統合するかでした。脳はこのプロセスを非常に優れています。特にレム睡眠（REM sleep）中に、重要な体験を繰り返し再生することで学習を行います。私たちが開発した最初のAtariプログラムDQN（DeepMindが2013年に発表したディープQネットワークで、深層強化学習を用いてAtariゲームで人間レベルのパフォーマンスを達成した最初の例）がAtariゲームを習得できた鍵の一つは、経験再現（experience replay）でした。これは神経科学から学んだアイデアで、成功した経路を繰り返し再生するものです。これは2013年のことで、AIの分野では古代の話ですが、当時は非常に重要でした。

あなたが言っていることに賛成です。今、私たちはまさにテープで全部を貼り付けている状況です。すべてをコンテキストウィンドウに詰め込んでいます。これは何かおかしいと感じます。たとえ私たちが作っているのが生物の脳ではなく機械であっても、理論的には数百万、数千万のコンテキストウィンドウを実現でき、記憶は完璧に保てるとしても、検索と取得のコストは依然として存在します。今この瞬間、具体的な意思決定が必要なとき、すべてを保存できても、本当に関連する情報を正確に見つけるのは簡単ではありません。そのため、記憶の分野にはまだ大きな革新の余地があると思います。

ゲイリー・タン：正直、百万トークンのコンテキストウィンドウは私の予想をはるかに上回り、多くのことが可能になります。

デミス・ハサビス：ほとんどの使用シナリオには十分なサイズです。しかし、コンテキストウィンドウは作業記憶に相当すると考えてみてください。人間の作業記憶は平均して7つの数字程度しか保持できませんが、私たちには百万、あるいは千万レベルのコンテキストウィンドウがあります。問題は、その中に重要でない情報や誤った情報まですべて詰め込んでいる点で、現在のやり方は非常に粗雑です。また、リアルタイムの動画ストリームを処理する場合、すべてのトークンを単純に記録すると、100万トークンでは約20分分しか持ちません。しかし、システムにあなたが1〜2か月分の生活状況を理解させようとするなら、それはまだはるかに不十分です。

ゲイリー・タン：DeepMindはこれまで強化学習と検索に深く取り組んできましたが、この哲学はGeminiの構築プロセスにどの程度組み込まれていますか？強化学習はまだ過小評価されているのでしょうか？

デミス・ハサビス：おそらく確かに過小評価されています。この分野への関心は盛り上がりと沈静を繰り返しています。DeepMind設立当初から、エージェントシステムの開発に取り組んできました。AtariやAlphaGoでのすべての作業は、本質的に目標を自立して達成し、意思決定を行い、計画を立てる強化学習エージェントです。当時は複雑さを制御しやすいゲーム分野を選択し、次第により複雑なゲームへと進んでいきました。AlphaGoの後にはAlphaStarを開発し、基本的に私たちが取り組めるすべてのゲームを網羅しました。

次の問いは、これらのモデルをゲームモデルに限定せず、世界モデルや言語モデルとして一般化できるかどうかです。過去数年間、私たちはこの取り組みを続けてきました。今日のすべての最先端モデルにおける思考パターンやチェーンオブシンキング推論は、本質的に当時のAlphaGoが開拓したものを再帰的に再現しています。私は、当時私たちが行った多くの作業が今日と非常に密接に関連していると考えており、モンテカルロ木探索（Monte Carlo tree search）を含むさまざまな強化学習手法を、より大規模でより汎用的な方法で再評価しています。AlphaGoやAlphaZeroの思想は、今日の基礎モデルと極めて密接に関連しており、今後数年の進歩の大部分はここから生まれると考えています。

蒸留と小型モデル

ガリー・タン：今ではより賢くなるにはより大きなモデルが必要ですが、同時に蒸留技術も進化しており、小さなモデルも非常に高速化しています。あなたのFlashモデルは非常に優れており、ほぼ最先端モデルの95％の性能を達成しながら、価格は1/10です。正しいですか？

デミス・ハサビス：これは私たちの核心的な強みの一つだと思います。最先端の能力を得るには、まず最大のモデルを構築する必要があります。私たちの最大の強みの一つは、その能力を急速に蒸留・圧縮し、ますます小さなモデルに凝縮できることです。蒸留という手法自体が私たちが発明したものであり、現在も世界で最も優れています。また、この取り組みには強いビジネス的動機があります。私たちはおそらく世界最大のAIアプリケーションプラットフォームです。AI OverviewsやAI Mode、Geminiを有し、Googleのすべての製品——地図やYouTubeなど——がGeminiまたは関連技術を統合しています。これは数十億人のユーザー、そして十数個の十億ユーザー規模の製品を対象としています。それらは極めて高速で、極めて効率的かつ低コスト、低遅延である必要があります。この要請が、Flashやさらに小型のFlash-Liteモデルを極限まで効率化する大きな動機となっています。私は、これが最終的にユーザーのさまざまな作業にも貢献することを願っています。

ゲイリー・タン：これらの小さなモデルがどれほど賢くなるのか気になります。蒸留には限界があるのでしょうか？50Bや400Bのモデルは、今日の最大級の最先端モデルと同じくらい賢くなることができるのでしょうか？

デミス・ハサビス：我々は情報理論的な限界に到達したとは思っていません。少なくとも、現在誰もその限界に到達したとは言っていません。いずれ、情報密度の上限に遭遇する可能性はあるかもしれませんが、現在の私たちの仮定は、最先端のProモデルがリリースされた後、その能力が半年から1年以内に非常に小さく、エッジデバイス上でほぼ実行可能なモデルに圧縮できるということです。Gemmaモデルでもそれが見られます。私たちのGemma 4モデルは、同じ規模で非常に優れた性能を発揮しています。これはすべて、大量の蒸留技術と小規模モデルの効率最適化技術を活用しています。したがって、私は理論的な限界は見えておらず、その限界にまだずっと遠いと考えています。

ガリー・タン：現在、エンジニアがこなせる作業量は、6か月前と比べて500から1000倍になっています。この部屋にいる一部の人々は、2000年代のGoogleエンジニアの1000倍の作業量をこなしているかもしれません。スティーブ・イエッグはこのことを語っています。

デミス・ハサビス：とてもワクワクしています。小さなモデルには多くの用途があります。一つはコストが低く、スピードが速いという利点です。コーディングやその他のタスクでは、特にシステムと協力する際に、より迅速にイテレーションできます。たとえ最前線の90％～95％の性能しかなくても、それは十分に役立ち、イテレーション速度で得られる利点はその10％をはるかに上回ります。

もう一つの大きな方向性は、これらのモデルをエッジデバイス上で動作させることです。これは効率のためだけでなく、プライバシーとセキュリティのためでもあります。非常に個人的な情報を処理するさまざまなデバイスやロボットを考えてみてください。自宅のロボットに対しては、特定のシナリオでのみタスクをクラウドの大規模モデルに委譲し、それ以外はローカルで効率的で強力なモデルを実行したいと思います。オーディオやビデオのストリームはすべてローカルで処理され、データはローカルに留まります。これが理想的な最終形態であると私は想像できます。

記憶と推論

ゲイリー・タン：コンテキストと記憶に戻りましょう。現在のモデルはステートレスですが、継続的学習機能が追加された場合、開発者の体験はどうなるでしょうか？このようなモデルをどのように導きますか？

デミス・ハサビス：これは非常に興味深い質問です。継続的な学習の欠如は、現在のエージェントが完全なタスクを完了できない主要なボトルネックです。現在のエージェントはタスクの局所的な部分には有効ですが、それらを組み合わせて面白いことを実現することはできます。しかし、それらはあなたの具体的な環境に適応することができません。これが、エージェントがまだ真に「発射後は放置」できない理由です。エージェントは、あなたの具体的なシナリオを学習できる能力を必要としています。完全な汎用知能に到達するためには、この問題を解決しなければなりません。

ガリー・タン：推論の進捗はどの程度ですか？モデルの思考チェーンは非常に強力ですが、賢い学部生なら犯さないような誤りを依然として犯しています。具体的に何を修正する必要がありますか？推論面ではどのような進展を期待していますか？

デミス・ハサビス：思考のパラダイムにはまだ多くの革新の余地があります。私たちが行っていることはまだ非常に粗く、非常に暴力的です。思考チェーンのプロセスを監視し、思考の途中で介入するなど、改善の方向性は多数存在します。私は常に、私たちのシステムも競合他社のシステムも、某种程度において過剰に思考し、ループに陥っていると感じています。

私は時々、Geminiでチェスをプレイして観察するのが好きです。すべてのリーディングベースモデルはチェスが非常に苦手で、これは興味深いことです。チェスは十分に理解された分野であるため、その思考プロセスを観察することは価値があり、すぐに誤った手や不適切な推論を判断できます。実際に見られるのは、ある手を考慮し、それが悪手であることに気づきながらも、より良い手を見つけられず、結局またその悪手を選んでしまうという状況です。正確な推論システムでは、このような状況は発生すべきではありません。

この大きな差異は依然として存在しているが、それを修正するにはたった一つか二つの調整で十分かもしれない。これが、IMO金賞レベルの問題を解ける一方で、質問の仕方を少し変えると小学校の算数の間違いを犯してしまう「ジャギー・インテリジェンス」と呼ばれる現象の正体である。自身の思考プロセスに対する内省において、何かが欠けているようだ。

エージェントの真の能力

ゲイリー・タン：エージェントは大きな話題です。一部ではバブルだとされていますが、個人的にはまだ始まったばかりだと感じています。DeepMindの内部研究では、エージェントの能力についてどのように評価されているのでしょうか？また、外部の宣伝との間にどれほどの差があるのでしょうか？

デミス・ハサビス：あなたのおっしゃる通り、私たちはまだ始まったばかりです。AGIに到達するには、自ら問題を解決してくれるシステムが必要です。これは私たちにとって常に明確でした。エージェントこそがその道であり、私はまだ始まったばかりだと考えています。皆、エージェントをより効果的に活用する方法を模索しており、私も多くの個人的な実験を重ねてきました。おそらくここにいる多くの人も同様でしょう。エージェントをワークフローにどのように統合し、単なる装飾ではなく、本質的な役割を果たさせるか。現在、私たちはまだ実験段階にあります。おそらく最近の2〜3ヶ月で、ようやく特に価値のあるシナリオを見つけ始めたところです。技術もちょうどその段階に達し、もはや玩具のようなデモではなく、本当にあなたの時間と効率に価値をもたらす段階になりました。

私はよく、誰かが数十のエージェントを起動して数十時間走らせるのを見ますが、その投入に見合った成果が出るかどうかはまだ確信がありません。

まだ誰も、vibe coding でアプリストアのランキングトップに輝く3Aゲームを作ったことはありません。私も過去に作成したことがあり、ここにいる多くの人も優れた小さなデモを作りました。今なら私は30分で『Theme Park』のプロトタイプを作れます。当時17歳の私は、それを半年かけて作りました。もし夏全体を使って取り組めば、本当に驚異的なものを生み出せるような気がします。しかし、それには依然として技術と人間の魂、審美眼が必要です。あなたが構築するあらゆる製品に、これらの要素を必ず取り入れなければなりません。実際、現在のツールの投入レベルを考えれば、1000万本以上売れるヒットゲームを子供が作ることは可能のはずですが、まだそのような事例は存在しません。つまり、何らかの欠けているものがある——おそらくプロセスやツールに関係しているのでしょう。今後6〜12ヶ月以内に、そのような成果が現れると予想しています。

ゲイリー・タン：そのうちどの程度が完全に自動化されるでしょうか？最初から完全自動化されるとは思いません。より現実的な道筋は、まず皆さんが1000倍の効率を達成し、その後、これらのツールを使ってヒットアプリやヒットゲームを開発する人が現れ、その段階でさらに多くのプロセスが自動化されていくことです。

デミス・ハサビス：はい、これがまずご覧になるべきです。

ガリー・タン：また、一部の人々は実際にそうしているが、エージェントがどれほど役立ったかを公に言いたくないという理由もある。

デミス・ハサビス：おそらくそうですね。しかし、創造性について話したいと思います。私はよくAlphaGoの例を挙げます。皆さんは第2局の37手をご存知でしょう。私自身は、那样的な瞬間が来るのをずっと待っていました。その瞬間が訪れた後、ようやくAlphaFoldのような科学プロジェクトを立ち上げました。私たちはソウルから帰った翌日からAlphaFoldの開発を始めました。それは10年前のことです。今回、韓国を訪れたのはAlphaGoの10周年を祝うためです。

しかし、Move 37を生み出すだけでは不十分です。それはクールで有用ですが、このシステムは囲碁そのものを発明できるでしょうか？たとえば、「ルールは5分で学べるが、一生かけても極めきれないゲームで、美しく洗練されており、1局を午後1時間で終えられる」という高レベルの記述を与えたら、システムが返答として「囲碁」を出せるでしょうか？今のシステムではそれはできません。では、なぜでしょうか？

ゲイリー・タン：ここにいる誰かがそれを達成できるかもしれません。

デミス・ハサビス：もし誰かがそれを成し遂げたのなら、その答えはシステムに欠陥があるのではなく、私たちがシステムをどう使っているかに問題があるということだ。それが正しい答えかもしれない。今日のシステムにはすでにその能力が備わっている可能性があり、ただ、そのプロジェクトの魂を提供し、ツールと高度に融合し、ほぼツールと一体化するような十分に天才的なクリエイターが必要なだけだ。これらのツールに日夜没頭し、深い創造性を備えていれば、想像をはるかに超えるものを生み出せるかもしれない。

オープンソースおよびマルチモーダルモデル

ガリー・タン：話題を変えて、オープンソースについて話しましょう。最近のGemmaのリリースにより、非常に強力なモデルをローカルで実行できるようになりました。これについてどう思いますか？AIはクラウドに留まり続けるのではなく、ユーザー自身が制御するものになるでしょうか？これにより、これらのモデルを使って製品を構築できる人物は変わるでしょうか？

デミス・ハサビス：私たちはオープンソースとオープンサイエンスの強い支持者です。あなたが言及したAlphaFoldについては、すべてを無料で公開しています。私たちの科学的成果は今でもトップジャーナルに掲載されています。Gemmaについては、同等の規模で世界をリードするモデルを作りたいと考えています。現在、Gemmaのダウンロード数はすでに約4,000万回に達しており、リリースされてからわずか2週間半です。

私は、オープンソース分野において西洋の技術スタックが存在することが重要だと考えています。中国のオープンソースモデルは優れており、現在オープンソース分野でリードしていますが、我々はGemmaが同規模において非常に競争力があると考えています。

私たちにはリソースの問題もあり、2つのフルサイズの最先端モデルを同時に実行する余剰計算能力は誰にもありません。そのため、現在の判断としては、エッジモデルをAndroid、メガネ、ロボットなどに使用し、これらはデバイスにデプロイされた時点で既に暴露されるため、オープンモデルとして徹底的にオープンにするのが最善です。私たちはナノレベルでオープン戦略を統一しており、これは戦略的にも理にかなっています。

ゲイリー・タン：登壇する前に、私が作成したAIオペレーティングシステムをデモしました。私は直接音声でGeminiとやり取りし、デモを実施しましたが、正直とても緊張しました。しかし、無事に動作させることができました。Geminiは当初からマルチモーダルで構築されています。私は多くのモデルを試してきましたが、音声から直接モデルへのインタラクション、ツール呼び出しの深さ、およびコンテキスト理解の面で、現在のところGeminiに匹敵するモデルは存在しません。

デミス・ハサビス：はい。Geminiシリーズのまだ十分に認識されていない利点の一つは、当初からマルチモーダルで構築したことです。これはテキストのみに焦点を当てた場合よりも初期段階で難易度が高くなりましたが、長期的にはその恩恵を受けることができると信じており、すでにその恩恵が現れ始めています。たとえば、世界モデルに関しては、Geminiの上にGenie（DeepMindが開発した生成的インタラクティブ環境モデル）を構築しました。ロボット分野でも同様に、Gemini Roboticsはマルチモーダル基礎モデルに基づいて構築されます。私たちのマルチモーダルにおける優位性が競争上の強みとなるでしょう。また、Waymo（Alphabet傘下の自動運転企業）でもGeminiの利用がますます増えてきています。

あなたの周囲の物理的世界と環境を理解する必要がある、あなたと共に現実世界に現れるデジタルアシスタントを想像してみてください。それはあなたのスマホやメガネに搭載されるかもしれません。私たちのシステムはこの点で非常に優れています。我们将继续在这一方向投入，我认为我们在这一类问题上的领先优势是很大的。

ガリー・タン：推論コストは急速に低下しています。推論がほぼ無料になったとき、何が可能になるでしょうか？あなたのチームの最適化の方向性はこれにより変わるでしょうか？

デミス・ハサビス：推論が本当に無料になるとは思っていません。ジェボンズのパラドックスが存在するからです。私は、結局すべての人が手に入る計算能力をすべて使い切ってしまうと思います。数百万のエージェントが協調して働く様子、あるいは小さなエージェントグループが複数の方向で同時に思考し、それらを統合する様子を想像できます。私たちはこれらの方向性をすべて実験しており、これらすべてが利用可能な推論リソースを消費します。

エネルギー面では、制御核融合、室温超伝導、最適バッテリーなどの課題のいくつかを解決できれば、材料科学を通じてエネルギーコストをほぼゼロに近づけることができると思います。しかし、チップの物理的製造などの工程には依然としてボトルネックが存在し、少なくとも今後数十年はその状況が続くでしょう。そのため、推論端には依然としてクォータ制限が課され、効率的な使用が求められます。

次なる科学的ブレークスルー

ガリー・タン：小さなモデルがますます賢くなっているのは幸いです。ここには生物学およびバイオテクノロジー分野の多くの創業者がいらっしゃいます。AlphaFold 3 はタンパク質を超え、より広範な生体分子へと拡張されています。完全な細胞システムのモデリングまで、まだどれくらい距離がありますか？これはまったく異なる難易度の問題なのでしょうか？

デミス・ハサビス：Isomorphic Labsの進展は非常に良好です。AlphaFoldは薬物発見プロセスの一部に過ぎず、私たちは関連する生化学研究を行い、適切な性質を持つ化合物を設計しています。まもなく重要な発表があります。

私たちの最終目標は、完全な仮想細胞、つまり擾動を加えられるフル機能の細胞シミュレーターを作成することです。その出力は実験結果に十分近いものであり、実用的な価値を持ちます。大量の探索ステップをスキップし、多数の合成データを生成して他のモデルを訓練することで、それらが実際の細胞の挙動を予測できるようにします。

私は、完全な仮想細胞までまだ約10年かかると推測しています。DeepMindの科学チームでは、細胞核が比較的自己完結しているため、仮想細胞核から着手しています。このような問題の鍵は、適切な複雑さの断片を切り出し、その入力と出力を合理的に近似でき、そのサブシステムに集中できるかどうかです。細胞核はこの観点から非常に適しています。

もう一つの問題はデータが不足していることです。私は電子顕微鏡やその他のイメージング技術のトップ科学者たちと話しました。細胞を殺すことなく生きた細胞をイメージングできれば、それは画期的です。なぜなら、それを視覚的問題に変換でき、視覚的問題には解決方法が既に知られているからです。しかし、私の知る限り、現在のところ、ナノメートル解像度で生きた動的な細胞を損傷なくイメージングする技術は存在しません。静止画像をその解像度で撮ることはすでに非常に精緻で、非常に興奮しますが、それを直接視覚的問題に変えるには不十分です。

したがって、二つの道があります。一つはハードウェア駆動、データ駆動のアプローチであり、もう一つはこれらの力学システムをシミュレートするためのより優れた学習可能シミュレーターを構築することです。

ゲイリー・タン：あなたは生物学だけを見ているわけではありません。材料科学、薬物発見、気候モデリング、数学。もし順位をつけるとすれば、今後5年でどの科学分野が最も大きく変革されるでしょうか？

デミス・ハサビス：どの分野も刺激的で、これが私が30年以上にわたりAIに取り組んできた理由であり、私の最大の情熱でもあります。私はAIが科学的理解、科学的発見、医学、そして宇宙への理解を進めるための究極のツールになると信じてきました。

当初，我們以兩個步驟來表述我們的使命：第一步，解決智能問題，即構建AGI；第二步，用它來解決其他所有問題。後來我們不得不調整措辭，因為有人會問：「你們真的是說要解決所有問題嗎？」我們確實就是這個意思。現在，人們開始理解這意味著什麼了。具體來說，我指的是解決那些我稱為「根節點問題」的科學領域——這些領域一旦取得突破，就能開啟全新的發現分支。AlphaFold 就是我們想做的事情的原型。全球超過三百萬名研究者，幾乎每一位生物學研究者現在都在使用 AlphaFold。我從一些製藥公司高管朋友那裡聽說，未來發現的幾乎每一種藥物，都將在藥物發現流程的某個環節用到 AlphaFold。我們為此感到自豪，這正是我們希望 AI 能產生的影響力。但我認為，這僅僅是開始。

AIが役に立たない科学や工学の分野は思いつかない。あなたが挙げた那些分野は、ほぼ「AlphaFold 1の瞬間」にいると感じている。結果はすでに有望だが、まだその分野の大きな課題を真正面から解決していない。今後2年間で、材料科学から数学に至るまで、これらのすべての分野で多くの進展が見られるだろう。

ゲイリー・タン：人間にとって全新的な能力を与えるような、プロメテウス的な感じです。

デミス・ハサビス：はい。プロメテウスの物語が示すように、この能力をどのように使用し、どこに適用するか、そして同じツールが悪用されるリスクに注意する必要があります。

成功の経験

ガリー・タン：ここにいる多くの人が、AIを科学に応用するスタートアップを立ち上げようとしています。あなたが考えるに、真に最先端を推進するスタートアップと、単に基礎モデルにAPIを被せて「AI for Science」と称するスタートアップとの間には、どのような違いがありますか？

デミス・ハサビス：もし今日、私が皆さんの立場にいて、Y Combinatorでプロジェクトを見ているとしたら、どうするだろうかと考えています。一つは、AI技術の動向を予測しなければならないことです。これは非常に難しいことです。しかし、AIの動向を、材料科学、医学、あるいはその他の非常に困難なサイエンス分野と組み合わせることに、大きな機会があると私は確信しています。この交差点、原子世界に関わる分野、たとえば材料や医学などは、今後見通せる範囲で近道はありません。これらの分野は、次回の基礎モデルの更新によって一気に押し流されることはありません。しかし、防御性の高い方向性を探しているなら、これが私が推奨するところです。

私は常にディープテクノロジーが好きです。真に持続的で価値のあるものは、簡単に手に入るものではありません。私は常にディープテクノロジーに引きつけられてきました。2010年、私たちがスタートしたとき、AIはディープテクノロジーでした——投資家たちは「この手のものは無理だとわかっている」と言いましたし、学術界も、これは1990年代に試され、失敗したマイナーな分野だと考えていました。しかし、自分のアイデアに信念があれば——なぜ今回は違うのか、自分のバックグラウンドにはどのような独自の組み合わせがあるのか——理想的には、自分自身が機械学習と応用分野の専門家であるか、あるいはそのような創業チームを組めるのであれば、そこには大きな影響力と価値を生み出す可能性があります。

ガリー・タン：この情報は重要です。何かを成し遂げた後では当然のように見えますが、成し遂げる前は誰もが反対します。

デミス・ハサビス：もちろんです。だから、あなたは本当に情熱を注げることをやるべきです。私にとって、何が起こってもAIをやり続けます。幼い頃から、これが私が考えられる最も影響力のあることだと決めていました。実際、その通りになってきましたが、もしかしたら50年早すぎたのかもしれません。同時に、私が考えられる最も興味深いことでもあります。たとえ今日でも私たちが小さなガレージに閉じこもっていて、AIがまだ実現していないとしても、私は何らかの方法で継続するでしょう。もしかしたら学術界に戻るかもしれませんが、何かしらの形で続けていく方法を見つけるでしょう。

ガリー・タン：AlphaFoldは、あなたがある方向を追い、正しい方向に賭けた例です。どのような科学分野がAlphaFoldのようなブレークスルーを生み出すのに適しているのでしょうか？何か規則、例えば特定の目的関数のようなものがあるのでしょうか？

デミス・ハサビス：確かに、このことをいつか書き留めるべきです。AlphaGoやAlphaFoldなどのすべてのAlphaプロジェクトから学んだ教訓は、私たちの現在の技術が以下の条件下で最も効果を発揮するということです。第一に、問題が巨大な組合せ探索空間を有し、できるだけ大きいほど良く、いかなる力ずくの全探索や特別なアルゴリズムでも解決できないほどであることです。囲碁の手の空間やタンパク質の構成空間は、宇宙中の原子の数をはるかに超えています。第二に、タンパク質の自由エネルギー最小化や囲碁での勝利のように、明確に目的関数を定義でき、システムが勾配上昇を実行できるような状況であることです。第三に、十分なデータがあるか、またはシミュレーターが大量の分布内合成データを生成できるような状況であることです。

この3つの条件が満たされれば、今日の方法で十分に進み、必要な「干し草の山の中の針」を見つけることができます。薬物発見も同じロジックです。ある化合物がこの疾患を治療し、副作用がない可能性は、物理法則がそれを許す限り存在します。唯一の課題は、それをいかに効率的かつ実用的に見つけるかです。私はAlphaFoldが、このようなシステムが膨大な探索空間の中でこうした針を見つける能力を初めて証明したと考えています。

ガリー・タン：私はレベルを一つ上げたいと思います。私たちは、人類がこれらの手法を使ってAlphaFoldを生み出したことを話していますが、さらにその上位のレベルとして、人類がAIを使って可能性のある仮説空間を探索しています。AIシステムが単なるデータのパターンマッチングではなく、真の科学的推論を実行するまでには、まだどれほどの距離があるのでしょうか？

デミス・ハサビス：私は、もうすぐ実現すると感じています。私たちはこのような汎用システムを開発しています。AI co-scientistというシステムや、AlphaEvolveのようなアルゴリズムがあり、基礎的なGeminiを超えることができるのです。すべての最先端ラボがこの方向性を探索しています。

しかしこれまで、私はこれらのシステムによって真正で重大な科学的発見がなされたという事例をまだ見ていない。私は、それらが間もなく現れると感じている。それは、これまで議論してきた創造性と関係している可能性があり、既知の境界を真正に突破するものだ。そのレベルに達すると、パターンマッチングではなく、マッチするパターンそのものが存在しない。また単なる外挿でもなく、ある種の類推的推論（analogical reasoning）である。私は、これらのシステムは現在その能力を持っていない、あるいは私たちがまだ正しい方法でそれらを活用していないと考えている。

科学の分野で私はよく言う標準ですが、それは単に仮説を検証するだけでなく、本当に興味深い仮説を立てられるかどうかです。仮説の検証自体もまた画期的な出来事になり得ます。例えば、リーマン予想を証明したり、あるミレニアム懸賞問題を解決したりすることです。しかし、それらを達成するまであと数年しか残っていないのかもしれません。

しかし、それよりも難しいのは、新たなミレニアム懸賞問題のセットを提示し、それがトップレベルの数学者たちによって同じほど深く、一生をかけて研究する価値があると認められることである。私は、これはさらに一つの桁難しいことだと考えている。現在、私たちはそれをどうやって実現するのかをまだ知らない。しかし、これは何らかの魔法ではないと信じており、これらのシステムは最終的に実現できると確信している。おそらく、あと一つか二つの要素が足りないだけだ。

私たちが検証できる方法の一つは、私が時々「アインシュタインテスト」と呼ぶものです。つまり、1901年の知識だけでシステムを訓練し、それが1905年にアインシュタインが導き出した成果——特殊相対性理論やその年の他の論文——を自力で導き出せるかどうかを試すことです。私は、このテストを実際に実行し、繰り返し試行して、いつそれが可能になるかを確認すべきだと考えています。一旦それが可能になれば、これらのシステムは真に新しいものを発明する段階に近づいていると言えるでしょう。

起業のアドバイス

ガリー・タン：最後の質問です。ここにいる多くの人々は高度な技術的背景を持っていますが、あなた方のような規模のことを実現したいと思っています。あなた方は世界最大のAI研究組織の一つです。AGI研究の最前線を歩んでこられたあなたが、今知っていて、25歳のときに知っていればよかったと思うことは何ですか？

デミス・ハサビス：実はその点について少し話しました。難しい問題と簡単な問題の難しさはほぼ同じで、ただその難しさの仕方が異なるだけです。異なることにはそれぞれ異なる難しさがあります。しかし人生は短く、エネルギーも限られています。だから、あなたがやらないと本当に誰もやらないようなことに、あなたの生命力を注ぎ込むべきです。その基準で選んでください。

また、今後数年でクロスディシプリナリーな組み合わせがより一般的になると感じています。AIはクロスディシプリナリーをより簡単にします。

最後の点は、あなたのAGIのタイムラインに依存します。私の場合は2030年頃です。今日、デープテクノロジーのプロジェクトを開始するということは、通常10年間の旅路を意味します。つまり、AGIがその途中で登場することを計画に組み込む必要があります。これは何を意味するのでしょうか？必ずしも悪いことではありませんが、考慮に入れる必要があります。あなたのプロジェクトはAGIを活用できますか？AGIシステムはあなたのプロジェクトとどのように相互作用するでしょうか？

以前話したAlphaFoldと汎用AIシステムの関係に戻ると、GeminiやClaude、あるいはそれらに類する汎用システムが、AlphaFoldのような専用システムをツールとして呼び出すような状況が予想されます。すべての情報を巨大な単一の「脳」に詰め込むことはないと思います。すべてのタンパク質データをGeminiに投入しても意味がなく、Geminiはタンパク質の折りたたみを必要としません。あなたが言及した情報効率の話に戻ると、那些タンパク質データは確かにその言語能力を低下させます。より良い方法は、非常に強力な汎用ツール利用モデルを構築し、それらが専用ツールを呼び出し、甚至訓練することです。ただし、専用ツールは独立したシステムとして存在します。

この発想は深く考える価値があります。それは、今日あなたが何を構築するか、どのような工場や金融システムを築くかに影響を与えます。AGIのタイムラインを真剣に受け止め、その世界がどのようなものになるかを想像し、その世界が訪れたときにも依然として役立つものを構築してください。