德米斯·哈薩比斯談 AGI 時程、科學突破與 DeepMind 的未來

整理 & 編譯：深潮 TechFlow

嘉賓：Demis Hassabis（DeepMind 創辦人，2024 年諾貝爾化學獎得主，Google DeepMind 負責人）

主持人：Gary Tan

播客源：Y Combinator

德米斯·哈薩比斯：代理、人工通用智慧與下一場重大科學突破

播出時間：2026 年 4 月 29 日

編輯導語

Google DeepMind 執行長、諾貝爾化學獎得主 Demis Hassabis 做客 Y Combinator，談及通往 AGI 還有哪些關鍵進展、給創業者如何保持領先的建議，以及下一個重大科學突破可能出現在哪裡。對深科技創業者最實用的判斷是，如果你今天啟動一個十年期的深科技項目，必須將 AGI 的出現納入規劃中。此外，他還透露 Isomorphic Labs（從 DeepMind 拆分的 AI 藥物研發公司）即將發布重大消息。

精華語錄

AGI 路線與時間線

These existing technical components will almost certainly become part of the final AGI architecture.
Issues with continuous learning, long-term reasoning, and certain aspects of memory remain unsolved; AGI needs to resolve them all.
「如果你的 AGI 時間線和我一樣是 2030 年左右，而你今天開始了一個深科技項目，那你必須把 AGI 會在半路出現這件事考慮進去。」

記憶與上下文視窗

The context window is roughly equivalent to working memory. Human working memory can only hold about seven digits on average, yet we have context windows of millions or even tens of millions of tokens. But the problem is that we cram everything into it, including irrelevant and incorrect information, and this approach is currently quite crude.
If you need to process real-time video streams and store all the tokens, one million tokens would only last about 20 minutes.

推理的缺陷

I like to play chess with Gemini. Sometimes it recognizes that a move is bad, but can't find a better one, so it ends up circling back and making that bad move anyway. But a precise reasoning system shouldn't behave this way.
它一方面能解 IMO 金牌級別的題，另一方面換個方式提問就會犯小學數學的錯誤。在自身思考過程的內省上，好像還缺了點什麼。

Agent 與創造力

To achieve AGI, you need a system that can proactively solve problems for you. Agents are the way forward, and I think we’ve only just begun.
I haven’t seen anyone create a 3A game that tops the app store rankings using vibe coding. Given the current level of effort invested, this should be possible, but it hasn’t happened yet—indicating that something is still missing in the tools or process.

蒸餾與小模型

Our assumption is that six months to a year after the release of a cutting-edge Pro model, its capabilities can be compressed into very small models that can run on edge devices. We have not yet encountered any theoretical limit to information density.

Scientific Discoveries & the "Einstein Test"

我有時稱之為「愛因斯坦測試」，即能否用 1901 年的知識訓練一個系統，然後讓它獨立推導出愛因斯坦在 1905 年所取得的成果，包括狹義相對論。一旦能做到，這些系統就離真正發明全新事物不遠了。
Solving one of the Millennium Prize Problems is already impressive. But even harder is whether you can propose a new set of Millennium Prize Problems that are regarded by top mathematicians as equally profound and worthy of a lifetime of research.

深科技創業建議

Chasing hard problems and chasing easy problems are actually quite similar—just different in how they’re hard. Life is short; better to pour your energy into things that no one else will do if you don’t.

AGI 實現路徑

Gary Tan：你思考 AGI 的時間幾乎比所有人都長。看當前的範式，你覺得我們已經擁有了多少 AGI 的最終架構？現在根本性缺失的是什麼？

Demis Hassabis：大規模預訓練、RLHF、思維鏈等，我非常確定它們將成為 AGI 最終架構的一部分。這些技術走到今天已證明了太多東西。我幾乎無法想像兩年後我們會發現這是一條死路，這對我來說說不通。但在現有技術之上，可能還缺一兩樣。持續學習（continual learning）、長程推理（long-term reasoning）、記憶的某些方面，仍有一些問題尚未解決。AGI 需要全部搞定。也許現有技術加上一些漸進式創新就能擴展到那個程度，但也可能還剩一兩個關鍵點需要突破。我不認為會超過一兩個。我個人判斷是否存在這種未解的關鍵點，機率大約是五五開。因此，在 Google DeepMind，我們正在雙線推進。

Gary Tan：我與一堆 Agent 系統打交道，最讓我震驚的是，底層來來回回就是同一套權重。因此，持續學習這個概念特別有趣，因為現在我們基本上只是用膠帶臨時黏合，比如那些「夜間夢境週期」之類的東西。

Demis Hassabis：對，那些夢境週期真的很酷。我們過去就曾思考過情景記憶整合的問題。我的博士研究就是海馬體如何將新知識優雅地融入既有知識體系。大腦在這方面做得極好，它在睡眠期間完成這個過程，特別是在快速眼動睡眠（REM sleep）時，重放重要的經歷以從中學習。我們最早的 Atari 程式 DQN（DeepMind 於 2013 年發表的深度 Q 網路，首次使用深度強化學習在 Atari 遊戲上達到人類水平）能掌握 Atari 遊戲，其中一個關鍵方法就是經驗回放（experience replay）。這正是從神經科學中學來的，反覆重放成功的路徑。那是 2013 年的事了，在 AI 領域算上古時期，但當時它非常關鍵。

我同意你的說法，現在我們確實在用膠帶黏合，把所有東西塞進上下文視窗裡。這種感覺不太對。即使我們處理的是機器而非生物大腦，理論上可以擁有百萬、千萬級別的上下文視窗，且記憶可以是完美的，但查找和檢索的成本依然存在。在當下這個需要具體決策的時刻，即使你能儲存所有東西，要找到真正相關的資訊也並不簡單。因此，我認為記憶這個領域仍有很大的創新空間。

Gary Tan：說實話，百萬 token 的上下文視窗已經遠超我的預期，能做很多事。

Demis Hassabis：對於大多數它該使用的場景來說，這已經足夠了。但你想一下，上下文視窗大致相當於工作記憶。人類的工作記憶平均只有七個數字，而我們卻有百萬甚至千萬級別的上下文視窗。問題在於我們把所有東西都往裡塞，包括不重要、錯誤的資訊，目前這種做法相當粗暴。而且如果你現在要處理實時影片串流，天真地記錄下所有 token，一百萬個 token 其實只夠大約 20 分鐘。但如果你想讓系統理解你一兩個月內的生活狀況，那還遠遠不夠。

Gary Tan：DeepMind 長期以來深度投入強化學習與搜尋，這種哲學在你們現在構建 Gemini 的過程中融入了多深？強化學習是否仍然被低估了？

Demis Hassabis：可能確實被低估了。這方面的關注度時高時低。我們從 DeepMind 成立的第一天起就在開發 Agent 系統。所有在 Atari 和 AlphaGo 上的工作，本質上都是強化學習 Agent，即能夠自主完成目標、做出決策、制定計劃的系統。當然，我們當時選擇了遊戲領域，因為其複雜度可控，然後逐步挑戰更複雜的遊戲，例如在 AlphaGo 之後我們開發了 AlphaStar，基本上我們把能做的遊戲都做了一遍。

接下來的問題是，能否將這些模型泛化為世界模型或語言模型，而不僅僅是遊戲模型。過去幾年我們一直在做這件事。今天所有領先模型的思考模式和思維鏈推理，本質上就是當年 AlphaGo 所開創之物的回歸。我認為當年我們做的許多工作與今天高度相關，我們正在以更大的規模、更通用的方式重新審視那些舊想法，包括蒙特卡洛樹搜索（Monte Carlo tree search）等各種強化學習方法。AlphaGo 和 AlphaZero 的那些思想與今天的基礎模型極度相關，我認為未來幾年的進步很大一部分將來自於此。

蒸餾與小模型

Gary Tan：現在要更聰明就需要更大的模型，但同時蒸餾技術也在進步，小模型可以變得相當快。你們的 Flash 模型很強，基本能達到前沿模型 95% 的效果，但價格只有十分之一。對嗎？

Demis Hassabis：我認為這是我們的核心優勢之一。你必須先建立最大的模型以獲得前沿能力。我們最大的優勢之一是能快速將這些能力蒸餾並壓縮到越來越小的模型中。蒸餾這套方法原本就是我們發明的，我們至今仍是全球頂尖。而且我們有強烈的商業動機去推動這件事。我們可能是全球最大的 AI 應用平台，擁有 AI Overviews 和 AI Mode，以及 Gemini，現在 Google 的每一個產品，包括地圖、YouTube 等，都在整合 Gemini 或相關技術。這涉及數十億用戶，以及十幾個十億級用戶的產品。它們必須速度極快、效率極高、成本極低、延遲極低。這給了我們極大的動力去將 Flash 和更小的 Flash-Lite 模型做到極致高效，我希望這最終也能為用戶的各類工作提供優秀服務。

Gary Tan：我很好奇這些小型模型到底能聰明到什麼程度。知識蒸餾有沒有限度？50B 或 400B 的模型能否與今天最大的前沿模型一樣聰明？

Demis Hassabis：我不認為我們已經觸及資訊理論上的極限，至少目前沒有人知道是否已經觸及。也許某天會遇到某種資訊密度的天花板，但現在我們的假設是，一個前沿的 Pro 模型發布後，在半年到一年內，其能力就能被壓縮到非常小、幾乎可以在邊緣設備上運行的模型中。你們也能在 Gemma 模型上看到這一點，我們的 Gemma 4 模型在同體量下表現非常強大。這都運用了大量的蒸餾技術和小模型效率優化技術。因此，我真的沒看到任何理論極限，我認為我們離那個極限還很遠。

Gary Tan：現在有個很離譜的現象，即工程師能完成的工作量大約是六個月前的 500 到 1000 倍。這個房間裡有些人正在完成相當於 2000 年代一位 Google 工程師 1000 倍的工作量。Steve Yegge 曾經提到過這一點。

Demis Hassabis：我感到非常興奮。小模型有許多用途。一個是成本低，而且速度快也會帶來好處。在寫代碼或其他任務中，你能更快地迭代，尤其是與系統協作時。即使快速的系統不是最前沿的，例如只有前沿的 90% 到 95%，但這完全足夠，而且你在迭代速度上獲得的收益遠超那 10%。

另一個大方向是將這些模型運行在邊緣設備上，不僅是為了效率，也是為了隱私和安全。想想各種處理極度私人資訊的設備，還有機器人；對於你家中的機器人，你會希望在本地運行一個高效且強大的模型，僅在特定情境下將任務委派給雲端的大模型。音頻和視頻流都在本地處理，數據保留在本地，我能想像這將是一個理想的最終狀態。

記憶與推理

Gary Tan：回到上下文與記憶。目前模型是無狀態的，如果具備持續學習能力，開發者的體驗會是怎樣的？你如何引導這樣的模型？

Demis Hassabis：這個問題很有趣。缺乏持續學習是當前 Agent 無法完成完整任務的一個關鍵瓶頸。現有的 Agent 對任務的局部環節很有用，你可以將它們拼接起來做一些很酷的事情，但它們無法很好地適應你所處的具體環境。這就是它們還不能真正「發射後不管」的原因，它們需要能夠學習你的具體情境。要實現完全的通用智能，這個問題必須解決。

Gary Tan：推理方面進展到哪了？模型現在的思維鏈很強，但在一些聰明本科生不會犯的錯誤上還是會出錯。具體需要改什麼？推理上你預期會有什麼進展？

Demis Hassabis：在思考範式上仍有大量創新空間。我們所做的事情仍然相當粗糙、相當暴力。有很多改進方向，例如監控思維鏈的過程，並在思考中途進行干預。我經常覺得，不論是我們的系統還是競爭對手的系統，在某種程度上都會過度思考，陷入循環。

我有時喜歡用 Gemini 下棋來觀察。所有領先的基礎模型在下棋方面其實都相當差，這很有趣。觀察它們的思考軌跡很有價值，因為棋類是一個被充分理解的領域，我能快速判斷它是否走偏、推理是否有效。我們看到的情況是，有時它會考慮一步棋，意識到是步臭棋，卻又找不到更好的選擇，結果繞了一圈還是走了那步臭棋。一個精確的推理系統不應該出現這種情況。

這種巨大的落差仍然存在，但修復它可能只需要一兩個調整。這就是為什麼你會看到所謂的「鋸齒狀智能」（jagged intelligence），它一方面能解 IMO 金牌級別的題，另一方面換個方式提問就會犯小學數學的錯誤。在對自身思維過程的內省上，好像還缺了點什麼。

Agent's true capabilities

Gary Tan：Agent 是一個大話題。有人說是炒作，但我個人覺得才剛開始。DeepMind 內部對 Agent 能力的真實評估是什麼？與外界的宣傳有多大差距？

Demis Hassabis：我同意你的說法，我們才剛開始。要達成 AGI，你必須有一個能主動為你解決問題的系統。這對我們來說一直很明確。Agent 就是那條路，我覺得我們才剛起步。大家都在摸索如何讓 Agent 更好地協同工作，我們在個人實驗上做了很多探索，在座的很多人應該也是如此。如何讓 Agent 融入工作流程，讓它不只是錦上添花，而是真正做根本性的事情。目前我們仍處於實驗階段，可能最近兩三個月才開始真正找到特別有價值的場景。技術也剛好達到那個程度，不再是玩具示範，而是真的為你的時間和效率帶來價值。

我經常看到有人啟動幾十個 Agent，讓它們運行幾十個小時，但我還不確定產出能否與此投入相匹配。

我們還沒有看到有人用 vibe coding 做出一款登頂應用商店排行榜的 3A 遊戲。我自己也寫過，在座很多人也做過一些不錯的小 demo。我現在半小時就能做出一個《Theme Park》的原型，當年 17 歲的我花了六個月。我有種感覺，如果你花一整個夏天去做，可以做出真正不可思議的東西。但它仍然需要工藝和人的靈魂、品位，你必須確保把這些東西帶進你所構建的任何產品裡。事實上現在還沒有哪個小孩做出了賣出一千萬份的爆款遊戲，按理說以當前的工具投入，這應該是有可能的。所以還缺點什麼，可能跟流程有關，可能跟工具有關。我預計未來 6 到 12 個月內會看到那樣的成果。

Gary Tan：其中有多大程度會是全自動的？我認為不會一開始就是全自動。更可能的路徑是在座的人先實現 1000 倍效率，然後出現有人用這些工具做出了暢銷應用、暢銷遊戲，之後更多環節才會被自動化。

Demis Hassabis：對，這就是你應該先看到的。

Gary Tan：也有一部分原因是，有些人確實這麼做了，但他們不願公開說明 Agent 幫了多少忙。

Demis Hassabis：可能是。但我想要聊聊創造力這個問題。我經常以 AlphaGo 為例，大家都知道第二局的第 37 手。對我來說，我一直等待這樣的時刻出現，一旦它出現，我就啟動了像 AlphaFold 這樣的科學項目。我們在從首爾回來的第二天就開始了 AlphaFold 的工作，那是十年前了。我這次去韓國就是為了慶祝 AlphaGo 十週年。

但僅僅走出 Move 37 是不夠的。它很酷，很有用。但這個系統能否發明圍棋本身？如果你給它一段高層描述，例如「一個五分鐘能學會規則、但窮盡一生也難以精通的遊戲，美學上很優雅，一個下午能下完一盤」，然後系統返回給你的結果是圍棋。今天的系統做不到這一點。問題是為什麼？

Gary Tan：在座的人中可能就有誰能做到。

Demis Hassabis：如果有人做到了，那答案就不是系統缺了什麼，而是我們使用系統的方式有問題。這说不定就是正確答案。也許今天的系統就有這個能力，只是需要一個足夠天才的創作者來驅動它，提供那種項目的靈魂，同時這個人要跟工具高度融合，幾乎跟工具合為一體。如果你日夜泡在這些工具裡並且具備深度創造力，也許就能做出超乎想像的東西。

開源與多模態模型

Gary Tan：換個話題聊聊開源。最近 GEMMA 的發布讓非常強大的模型可以在本地運行。你怎麼看？AI 會不會變成用戶自己掌握的東西，而不是主要留在雲端？這會改變誰能用這些模型來構建產品嗎？

Demis Hassabis：我們是開源和開放科學的堅定支持者。你提到的 AlphaFold，我們已全部免費開放。我們的科學研究至今仍發表於頂級期刊。至於 Gemma，我們希望為同等規模創造世界領先的模型。目前 Gemma 的下載量已達到約 4000 萬次，而距離發布僅過去了兩週半。

我還認為在開源領域中存在西方技術棧非常重要。中國的開源模型非常優秀，目前在開源領域處於領先地位，但我們認為 Gemma 在同等規模下具有很強的競爭力。

我們還面臨資源問題，沒有人有多餘的算力來運行兩個全尺寸先進模型。因此，我們目前的決策是：邊緣模型適用於 Android、眼鏡、機器人等，最好採用開放模型，因為一旦部署到設備上，它們本質上就是暴露的，不如直接徹底開放。我們在納米層級統一了開放策略，這在戰略上也說得通。

Gary Tan：在上台前，我為你演示了我開發的 AI 操作系統，我可以直接用語音與 Gemini 互動，雖然為你演示時我有點緊張，但居然成功運行了。Gemini 從一開始就是以多模態為基礎構建的。我用過很多模型，目前沒有任何模型能像 Gemini 一樣，在語音直接到模型的互動、工具調用能力以及上下文理解方面達到如此深度。

Demis Hassabis：對。Gemini 系列一個尚未被充分認識的優勢，就是我們從一開始就以多模態為基礎進行構建。這讓初期開發比僅專注於文本更困難，但我們相信長期來看將獲益，而這種優勢現在已開始顯現。例如在世界模型方面，我們基於 Gemini 構建了 Genie（DeepMind 開發的生成式交互環境模型）。在機器人領域也是如此，Gemini Robotics 將建立在多模態基礎模型之上，我們在多模態方面的優勢將成為競爭壁壘。我們也在 Waymo（Alphabet 旗下的自動駕駛公司）中越來越多地使用 Gemini。

想像一下，一個伴隨你進入真實世界的數位助手，可能位於你的手機或眼鏡上，它需要理解你周圍的物理世界和環境。我們的系統在這方面極為強大。我們會繼續在這個方向投入，我認為我們在這類問題上的領先優勢非常大。

Gary Tan：推理成本正在快速下降。當推理基本免費時，什麼變得可能了？你們團隊的優化方向會因此改變嗎？

Demis Hassabis：我不確定推理會真正免費，傑文斯悖論就在那兒。我覺得所有人都最終會用掉所有能拿到的算力。可以想像數百萬個 Agent 協同工作，或一小群 Agent 同時沿多個方向思考然後進行整合。我們都在實驗這些方向，所有這些都會消耗可用的推理資源。

在能源方面，如果我們解決了可控核聚變、室溫超導、最佳電池等問題中的幾個——我認為我們會透過材料科學做到——那麼能源成本將趨近於零。但晶片的物理製造等環節仍存在瓶頸，至少未來幾十年會是這樣。因此，推理端仍會有配額限制，仍需高效使用。

下一個科學突破

Gary Tan：幸好小模型越來越聰明了。在座有很多生物和生物技術領域的創始人。AlphaFold 3 已經超越蛋白質，擴展到更廣譜的生物分子。我們距離建模完整的細胞系統還有多少距離？這是不是一個完全不同難度級別的問題？

Demis Hassabis：Isomorphic Labs 的進展非常良好。AlphaFold 僅是藥物發現流程中的一個環節，我們正在進行相關的生物化學研究，設計具有正確特性的化合物等，很快將有重大發布。

我們的最終目標是建立一個完整的虛擬細胞，一個可以施加擾動的全功能細胞模擬器，其輸出足夠接近實驗結果，並具有實際用途。你可以跳過大量搜尋步驟，生成大量合成數據來訓練其他模型，讓它們預測真實細胞的行為。

我估計距離完整的虛擬細胞大約還需要十年。我們在 DeepMind 的科學團隊正從虛擬細胞核開始著手，因為細胞核相對自成體系。這類問題的關鍵在於，能否切出一個複雜度恰當的片段，使其足夠自包含，你能合理地近似其輸入和輸出，然後專注於這個子系統。從這個角度看，細胞核非常合適。

另一個問題是數據不足。我與從事電子顯微鏡和其他成像技術的頂尖科學家討論過。如果能在不殺死細胞的前提下對活細胞進行成像，那將是革命性的。因為這樣就能將其轉化為一個視覺問題，而我們知道如何解決視覺問題。但據我所知，目前還沒有技術能在納米級分辨率下對活的動態細胞進行成像而不破壞它。你已經可以拍到該分辨率的靜態圖像，這已經非常精細，令人興奮，但還不足以直接將其轉化為一個視覺問題。

因此有兩條路徑：一條是硬體驅動、數據驅動的方案；另一條是構建更佳的可學習模擬器來模擬這些動力學系統。

Gary Tan：你不只關注生物。材料科學、藥物發現、氣候建模、數學，如果必須排個序，未來五年哪個科學領域會被改造得最徹底？

Demis Hassabis：每個領域都令人興奮，這也正是為什麼這一直是我最大的熱情所在，也是我三十多年來從事 AI 的原因。我始終認為，AI 將是推進科學理解、科學發現、醫學以及我們對宇宙認知的終極工具。

我們最初表述使命的方式是兩步：第一步，解決智能，即構建 AGI；第二步，用它解決其他所有問題。後來不得不調整措辭，因為有人會問：「你們真的是說解決所有問題嗎」？我們確實就是這個意思。現在大家開始理解這意味著什麼了。具體來說，我指的是解決那些我稱為「根節點問題」的科學領域，那些一旦突破就能解鎖全新發現分支的領域。AlphaFold 就是我們想做的事情的原型。全球超過三百萬名研究者，幾乎每位生物學研究者現在都在使用 AlphaFold。我從一些製藥公司高管朋友那裡聽說，今後發現的幾乎每一種藥物都會在藥物發現流程的某個環節用到 AlphaFold。我們為此感到自豪，這也是我們希望 AI 能產生的那種影響力。但我覺得這只是開始。

我想不出有任何科學或工程領域是 AI 無法提供幫助的。你提到的那些領域，我認為差不多處於「AlphaFold 1 時刻」，結果已經很有希望，但尚未真正攻克該領域的重大挑戰。未來兩年，我們在所有這些領域——從材料科學到數學——都將有大量進展可談。

Gary Tan：感覺像是普羅米修斯式的，為人類帶來一種全新的能力。

Demis Hassabis：沒錯。當然，正如普羅米修斯故事的寓意一樣，我們也必須謹慎對待這種能力被如何使用、用在何處，以及同一套工具被濫用的風險。

成功經驗

Gary Tan：在座有很多人在嘗試創辦將 AI 應用於科學的公司。在你看來，真正推進前沿的創業公司和那些只是給基礎模型套層 API、然後自稱「AI for Science」的創業公司，區別在哪？

Demis Hassabis：我在想，如果今天我坐在你們的位置上，在 Y Combinator 看項目，我會怎麼做。一件事是你必須預判 AI 技術的走向，這本身就很难。但我確實認為，把 AI 的走向與另一個深科技領域結合起來，有巨大的機會。這個交叉點，不論是材料、醫學還是其他真正困難的科學領域，特別是涉及原子世界的，在可預見的未來都不會有捷徑。這些領域不會因為下一次基礎模型更新就被碾壓。但如果你要找防禦性強的方向，這是我不會推薦的。

我個人一直偏愛深科技。真正持久且有價值的東西沒有容易的。我總是被深科技吸引。2010 年我們起步的時候，AI 就是深科技——投資人跟我說「我們已經知道這東西不行」，學術界也認為這是個 90 年代試過然後失敗的小眾方向。但如果你對自己的想法有信念——為什麼這次不同，你的背景有什麼獨特的組合——理想情況下你自己在機器學習和應用領域都是專家，或者你能組建這樣的創始團隊——那裡面有巨大的影響力和價值可以創造。

Gary Tan：這個資訊很重要。一件事完成之後看起來理所當然，但在完成之前，所有人都反對你。

Demis Hassabis：當然，所以你必須做你真正熱愛的事。對我來說，無論發生什麼，我都會從事 AI。我從小就決定，這是我能想到的最具影響力的事。事實也證明了這一點，但也可能並非如此，也許我們早了 50 年。同時，這也是我所能想到的最有趣的事。即使今天我們仍蹲在一個小車庫裡，AI 還未被創造出來，我也會想辦法繼續下去。也許我會回到學術界，但我會找到某種方式繼續前進。

Gary Tan：AlphaFold 是你追了一個方向，然後賭對了的例子。什麼讓一個科學領域適合產生 AlphaFold 式的突破？有沒有規律，比如某種目標函數？

Demis Hassabis：我確實應該找個時間把這寫下來。從 AlphaGo 和 AlphaFold 等所有 Alpha 項目中，我學到的經驗是，我們現有的技術在以下情況下效果最好。第一，問題具有巨大的組合搜索空間，越大越好，大到任何暴力窮舉或特殊算法都無法解決。圍棋的走法空間和蛋白質的構型空間都遠超宇宙中原子的數量。第二，你能清晰地定義目標函數，例如蛋白質的自由能最小化，或圍棋中的贏棋，這樣系統可以進行梯度上升。第三，有足夠的數據，或有一個模擬器能生成大量分佈內的合成數據。

如果這三個條件成立，那麼以今天的方法就能走得很遠，找到你需要的那根「稻草堆中的針」。藥物發現也是同樣的邏輯：存在某種化合物能治療這種疾病且沒有副作用，只要物理定律允許它存在，唯一的问题就是如何高效且可行地找到它。我認為 AlphaFold 首次證明了這類系統有能力在海量搜索空間中找到這種針。

Gary Tan：我想提升一個層次。我們在談論人類如何用這些方法創造出 AlphaFold，但還有一個元層面，就是人類利用 AI 去探索可能的假設空間。我們距離 AI 系統能夠進行真正的科學推理（而不僅僅是數據上的模式匹配）還有多少遠？

德米斯·哈薩比斯：我覺得很接近了。我們正在開發這類通用系統，我們有一個稱為 AI co-scientist 的系統，還有 AlphaEvolve 這樣的算法，能夠做到比基礎 Gemini 更進一步的事情。所有前沿實驗室都在探索這個方向。

但到目前為止，我個人還沒有看到這些系統做出任何真正的、重大的科學發現。我覺得它快來了。它可能與我們之前討論的創造力有關，真正突破已知的邊界。到了那個層面，它就不再是模式匹配了，因為沒有模式可以匹配。也不完全是外推，而是某種類比推理（analogical reasoning），我認為這些系統目前還不具備，或者說我們還沒有以正確的方式去使用它們。

我在科學領域經常說的一個標準是，它能否提出一個真正有趣的假設，而不僅僅是驗證一個。因為驗證一個假設本身也可能是一件驚天動地的大事，例如證明黎曼猜想或解決某個千禧年大獎問題，但或許我們離做到這一步只剩下幾年了。

但更難的是，能否提出一組新的千禧年大獎問題，並被頂尖數學家認為同樣深刻、值得用一輩子去研究。我覺得這難了一個量級，我們目前還不知道該如何做到。但我並不認為這是什麼魔法，我相信這些系統最終能夠做到，也許只差一兩樣東西。

我們可以用來檢驗的方式，我有時稱之為「愛因斯坦測試」：你能否用 1901 年的知識訓練一個系統，然後讓它獨立推導出愛因斯坦在 1905 年所取得的成果，包括狹義相對論以及他當年的其他論文？我認為我們真的應該去運行這個測試，反覆嘗試，看看何時能夠達成。一旦能做到，這些系統就離真正發明全新事物不遠了。

創業建議

Gary Tan：最後一個問題。在座的很多人具有深厚的技術背景，希望做類似你們這樣規模的事情，你們是全球最大的 AI 研究組織之一。你從 AGI 研究的最前線走過來，有哪件事是你現在知道、但希望 25 歲時就知道的？

Demis Hassabis：我們其實已經談到一部分了。你會發現，追難題和追簡單題的難度其實差不多，只是難的方式不同。不同的事情有不同的難處。但人生很短，精力有限，不如把你的生命力砸在那種如果你不做就真沒人做的事情上。用這個標準去選擇。

此外，我認為未來幾年跨領域的組合將會更加普遍，AI 會讓跨領域變得更容易。

最後一點取決於你的 AGI 時間表。我的是在 2030 年左右。如果你今天開始一個深科技項目，通常意味著一段十年的旅程。那你必須將 AGI 在中途出現的情況納入規劃。這意味著什麼？不一定是壞事，但你必須考慮進去。你的項目能利用 AGI 嗎？AGI 系統會如何與你的項目互動？

回到之前討論的 AlphaFold 與通用 AI 系統的關係，我所能預見的一種情況是，Gemini、Claude 或類似的通用系統會將 AlphaFold 這樣的專用系統當作工具來調用。我不認為我們會把所有東西都塞進一個龐大的單一「大腦」裡，如果把所有蛋白質數據塞進 Gemini，那毫無意義，Gemini 不需要進行蛋白質摺疊。回到你提到的資訊效率，那些蛋白質數據肯定會拖慢它的語言能力。更好的方式是擁有強大的通用工具使用模型，它們可以調用甚至訓練這些專用工具，但專用工具是獨立的系統。

這個思路值得深思，它對你今天構建什麼有影響，包括你要建什麼樣的工廠、什麼樣的金融系統。你需要認真對待 AGI 時程表，想像那個世界會是什麼樣子，然後構建一個在那個世界到來時仍然有用的東西。