Biohub、110億のタンパク質構造を含むESMアトラスを発表し、AlphaFoldに挑戦

AlphaFoldの座が危ぶまれている！

Natureが掲載：ザッカーバーグが設立したBiohubが大発表、11億個のタンパク質構造予測を一斉に公開。AlphaFoldデータベースより8億件多い。

背後にあるAIモデルESMFold2は、AlphaFold3を全面的に上回る性能を謳っている。

さらに重要なのは、完全にオープンソースであり、商用利用に制限がないことです。

Biohub

https://www.nature.com/articles/d41586-026-01686-3

Google DeepMindが長年築いてきたタンパク質AIの霸権が、オープンソースの参入者によって揺らぎつつある。

タンパク質AI分野の構図が書き換えられる可能性がある。

11億のタンパク質構造を、そのままお届けします

5月27日、ザッカーバーグ夫妻が設立した生物医学機関Biohubが、ESM Atlasというタンパク質構造データベースを正式にリリースしました。

11億個のタンパク質構造の予測、および68億本のタンパク質配列情報。

AlphaFoldのデータベースは2億以上の構造予測を蓄積しており、ESM Atlasはこれに8億を追加した。

これらの予測を生成したAIモデルは、Biohub科学責任者であるAlex Rivesが率いて開発したESMFold2です。

Biohub

リーブスが言います：

このグラフは、特に最も未知の部分を含む、タンパク質生物学の全体像を示しています。

なぜタンパク質構造予測が重要なのか？

タンパク質は生命活動の核心部品であり、その形状を理解すれば機能を把握でき、新薬の設計や疾患の克服につながります。

AlphaFoldはこれによりノーベル化学賞を受賞し、AIが科学を変える象徴的な事例である。

今、新しいモデルが5倍のデータセットを携えて登場しました。

AIモデルとして、ESMFold2の強みはどこにありますか

ESMFold2は、AlphaFoldとは異なる技術路線を採用しました。

これは2024年に発表された「タンパク質言語モデル」を基に構築され、NLP分野の手法を参考に、タンパク質配列を「言語」として理解し、数十億のタンパク質データで学習させることで、モデルが配列から直接三次元構造を予測できるようにしました。

AlphaFoldのAI同行たちは、ここに書いてあることが、大言語モデルが人間の言語を学習するロジックと似ていると感じるはずだ。

トレーニングデータのカバー範囲は重要な変数です。

ESMFold2は、土壌や海洋などの環境から得られた多数の微生物タンパク質データを導入しており、これらのデータはAlphaFoldのデータベースには存在していませんでした。

カバー範囲が広いほど、モデルが见过した「タンパク質の世界」はより完全になる。

Biohubチームは、ESMFold2がタンパク質間の相互作用複合体構造の予測においてAlphaFold3を上回っていると述べています。

しかし、最も説得力のあるのはスコアではなく、実際の検証です。

チームはESMFold2を使用して新規タンパク質を設計し、実験室で合成・テストしたところ、設計の大部分が予想通りに機能しました。

「予測」から「設計」、そして「検証」までこの一連のプロセスを実現することで、価値は論文から現実の世界へと拡張されます。

Biohub

すべてオープンソースであることが、最大の杀手锏だ

ESMFold2の最も強力な競争優位性は、完全にオープンソースであり、商用利用に制限がないことです。

この選択の戦略的意義は、AI業界全体の文脈で見るとより明確である。

AlphaFoldはオープンデータベースを有していますが、AlphaFold3はリリース初期に商業利用に制限を設けています。

グーグルDeepMind傘下のIsomorphic Labsが今年リリースしたタンパク質間相互作用予測モデルは、完全にクローズドソースである。

関連記事：Googleが「AlphaFold 4」をリリース、オープンソース不再是！性能は前世代を圧倒

MITの計算生物学者Ovchinnikovは、オープンソースの価値を明確に指摘した。「多くの人がESMFold2を試してみたいとワクワクするだろう。」

オープンソースAIのレバレッジ効果は、大規模言語モデル分野で既に十分に実証されており、MetaのLlamaシリーズが最も良い例である。

十分強力なオープンソースモデルは、グローバルなコミュニティを動かし、オリジナルの開発者自身も思いつかなかった用途を継続的に改善し、発見させることができる。

タンパク質AI分野の状況はさらに特殊であり、世界中の多数の実験室と研究機関が、無料で制限のない構造予測ツールを切実に必要としている。閉源モデルがどれほど強力であっても、到達できるユーザー層は限られている。

Biohubは全面的なオープンソースを選択し、Metaの大規模言語モデルにおける戦略と一貫しています。

ザッカーバーグのAI分野における戦略はますます明確になっている——オープンソースでインフラを構築し、エコシステムで競争優位を築く。

Biohub

同行のビッグネーム、買いますか？

学界の反応は前向きですが、保留の意見も明確です。

スウェーデンのルンド大学のゲマ・アトキンソンは、ESM Atlasを「生物学の優れたリソースとなるべき」と述べた。

Biohub

ロンドン大学学院のクリスティーン・オレンゴはその価値を認めつつ、予測結果の独立した検証が必要であると強調した。

Biohub

より鋭い質問はソウル国立大学のマーティン・シュタインゲッガーから寄せられました。

Biohub

彼が気になっているのは、ESMFold2が、既知のタンパク質と大きく異なる「新構造」に対してどのように機能するかである。

彼のチームは以前、ESMFoldの第1版がこの点で優れていないことを発見していた。この問題はESMFold2においても未解決のままである。

MITのOvchinnikovは、ESM AtlasをAlphaFoldデータベースの補完として位置付けるのが最も冷静な判断であると述べた。

Biohub

また、Isomorphic Labsのクローズドソースモデルや、Biohubと直接比較できない一部のオープンソースモデルも、同程度の成果を達成したと指摘した。

ESMFold2のリード幅は、論文が示唆するほど大きくない可能性がある。

この慎重さは、タンパク質AI分野の競争が激化していることを恰恰反映している。

オープンソース、クローズドソース、学術、商業のあらゆるモデルが非常に速いペースで更新されています。

今日の「最強」は、半年後には更新されているかもしれない。このペースは、大規模言語モデル分野の軍拡競争と非常に似ている。

AIが生命のソースコードを読み始める

過去、タンパク質の三次元構造を解析するには、数ヶ月から数年の実験作業が必要だった。

AlphaFoldは、AIが数分でそれを実現できることを初めて証明した。

ESMFold2は現在、予測規模を11億レベルまで拡大し、これまで解析されていなかった多数のタンパク質をカバーしています。

この道をさらに進めるならば、AIがすべてのタンパク質構造を正確に予測し、新しい機能性タンパク質を設計して実験でその有効性を検証できるようになったとき、AGIが生命科学分野で実用化される日は、多くの人が予想するよりもはるかに近い可能性がある。

ASIが本当に到来すれば、生物学は「研究」されるべき分野ではなく、「工学化」可能なシステムとなる。

分子レベルで生命を設計し、必要に応じてタンパク質をカスタマイズし、進化のルールを書き換える。

これはSFのように聞こえますが、ESMFold2のようなツールは、次第に「SF」を「工学的課題」に変えています。

今日、11億個のタンパク質構造がテーブルの上に広げられ、ネットに接続された世界中の科学者が無料で利用できます。

これは、AIが生命を理解する能力がさらに一歩進んだことを意味します。

参照：https://www.nature.com/articles/d41586-026-01686-3

本文は微信公众号「新智元」より、著者：ASI启示録；編集：マーコ