Biohub 推出 ESM Atlas，涵蓋 110 億個蛋白質結構，挑戰 AlphaFold

AlphaFold 席位告急！

《Nature》刊文：扎克伯格旗下的 Biohub 釋出一記王炸，一次性發布 11 億個蛋白質結構預測，比 AlphaFold 數據庫多出 8 億條。

背後的 AI 模型 ESMFold2 號稱性能全面超越 AlphaFold3。

更重要的是，完全開源，不限商用。

Biohub

https://www.nature.com/articles/d41586-026-01686-3

Google DeepMind 苦心經營多年的蛋白質 AI 霸主地位，正在被一個開源攪局者動搖。

The landscape of the protein AI sector may be rewritten.

1.1 billion protein structures, served right on the table

5 月 27 日，由扎克伯格夫婦創立的生物醫學機構 Biohub 正式上線了名為 ESM Atlas 的蛋白質結構資料庫。

1.1 billion predicted protein structures, plus 6.8 billion protein sequence entries.

AlphaFold 的資料庫累積了超過 2 億個結構預測，ESM Atlas 一上來就多出 8 億條。

用於生成這些預測的 AI 模型稱為 ESMFold2，由 Biohub 科學負責人 Alex Rives 帶領開發。

Biohub

Rives 說：

This map illustrates the entirety of protein biology, especially the most unknown aspects.

為什麼蛋白質結構預測很重要？

Proteins are the core components that drive life; knowing their shape allows us to understand their functions, thereby enabling the design of new drugs and the treatment of diseases.

AlphaFold 依靠此成果獲得諾貝爾化學獎，是 AI 改變科學的標誌性案例。

現在一個新模型帶著大 5 倍的數據集登場了。

作為 AI 模型，ESMFold2 強在哪

ESMFold2 採用了與 AlphaFold 不同的技術路徑。

它基於 2024 年發布的「蛋白質語言模型」構建，核心思路借鑒了 NLP 領域的做法，將蛋白質序列當作「語言」來理解，在數十億條蛋白質數據上訓練，讓模型學會從序列直接預測三維結構。

AlphaFold 的 AI 同行們看到這裡應該會覺得熟悉，這和大語言模型學習人類語言的邏輯是一樣的。

訓練數據的覆蓋範圍是關鍵變數。

ESMFold2 納入了大量來自土壤、海洋等環境的微生物蛋白質數據，這部分在 AlphaFold 的資料庫裡是空白的。

Broader coverage means the model has seen a more complete 「protein world」.

Biohub 團隊稱，ESMFold2 在預測蛋白質之間相互作用的複合結構方面，表現優於 AlphaFold3。

但最有說服力的不是跑分，而是落地驗證。

The team designed entirely new proteins using ESMFold2, had them synthesized and tested in the lab, and a high proportion of the designs functioned as expected.

從「預測」到「設計」再到「驗證」，這條鏈路打通後，價值便從論文延伸至真實世界。

Biohub

完全開源，這才是最大的殺手鐧

ESMFold2 最鋒利的競爭武器，是完全開源且不限商用。

這個選擇的戰略意義，放在整個 AI 行業的語境下看更清楚。

AlphaFold 雖然有開放資料庫，但 AlphaFold3 在發布初期對商業使用做了限制。

谷歌 DeepMind 旗下的 Isomorphic Labs 今年推出的蛋白質相互作用預測模型更是完全閉源。

延伸閱讀：谷歌發布「AlphaFold 4」，不再開源！性能全面超越上一代

麻省理工學院的計算生物學家 Ovchinnikov 直接點明了開源的價值，「我預計很多人會很興奮地想試一試 ESMFold2。」

開源 AI 的槓桿效應在大語言模型賽道中已得到充分驗證，Meta 的 Llama 系列就是最好的例子。

一個足夠強大的開源模型，能驅動全球社區去迭代、應用，並發現原始開發者都未曾想到的用途。

蛋白質 AI 領域的情況更特殊，全球有大量實驗室和研究機構迫切需要一個免費、無限制的結構預測工具，閉源模型再強，能觸及的用戶群就那麼大。

Biohub 選擇全面開源，與 Meta 在大語言模型上的策略一脈相承。

扎克伯格系在 AI 領域的策略越來越清晰——用開源做基礎設施，用生態做護城河。

Biohub

同行大牛，買不買賬？

學界反應積極，但保留意見也很明確。

瑞典隆德大學的 Gemma Atkinson 表示，ESM Atlas「應該成為生物學的非凡資源」。

Biohub

倫敦大學學院的 Christine Orengo 認可其價值，但強調預測結果需要獨立驗證。

Biohub

更尖銳的問題來自首爾國立大學的 Martin Steinegger。

Biohub

He is concerned about how ESMFold2 performs when faced with "new structures" that differ significantly from known proteins.

他的團隊此前發現，ESMFold 第一版在這方面並不出色。這個問題對 ESMFold2 依然懸而未決。

MIT 的 Ovchinnikov 給出了最冷靜的判斷，他認為 ESM Atlas 更適合定位為 AlphaFold 數據庫的補充。

Biohub

He also noted that Isomorphic Labs' proprietary models, as well as some Biohub models without direct open-source counterparts, have achieved similar levels of results.

ESMFold2 的領先幅度，可能沒有論文暗示的那麼大。

This caution precisely reflects that the competition in the protein AI sector has become extremely intense.

開源、閉源、學術、商業，各類模型都在以極快速度迭代。

今天的「最強」，半年後可能就被刷新。這個節奏，已經和大語言模型賽道的軍備競賽非常相似了。

當 AI 開始讀懂生命的源代碼

過去，解析一個蛋白質的三維結構可能需要幾個月到幾年的實驗室工作。

AlphaFold 首次證明 AI 可在數分鐘內完成。

ESMFold2 現已將預測規模推至 11 億量級，涵蓋了大量此前從未被解析的蛋白質。

沿著這條路推演，當 AI 能精準預測所有蛋白質結構，能設計全新的功能性蛋白質且實驗驗證有效，那 AGI 在生命科學領域的落地，可能比大多數人預想的更近。

如果 ASI 真正到來，生物學對它而言不再是需要「研究」的學科，而是可以被「工程化」的系統。

從分子層面設計生命，按需定制蛋白質，重寫進化的規則。

這聽起來像科幻，但 ESMFold2 這類工具正逐步將「科幻」轉變為「工程問題」。

Today, 1.1 billion protein structures are laid out on the table, freely accessible to any scientist worldwide with an internet connection.

This means that AI's understanding of life has reached a new level.

參考資料：https://www.nature.com/articles/d41586-026-01686-3

本文來自微信公眾號「新智元」，作者：ASI 啟示錄；編輯：馬可