Biohub melancarkan ESM Atlas dengan 11 bilion struktur protein, mencabar AlphaFold

icon MarsBit
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Biohub, sebuah institut penyelidikan yang ditubuhkan oleh Mark Zuckerberg, telah melancarkan ESM Atlas, pangkalan data protein dengan 11 bilion struktur yang diprediksi dan 68 bilion urutan. Model AI ESMFold2 mengklaim prestasi yang lebih baik daripada AlphaFold3 dan bersifat sumber terbuka untuk penggunaan komersial. Perkembangan ini boleh mengguncang bidang AI protein. Langkah ini telah memicu perbincangan dalam kalangan komuniti berita AI + kripto mengenai aplikasi atas rantai dan kemungkinan integrasi data baru.

Takhta AlphaFold dalam bahaya!

Nature menerbitkan artikel: Biohub milik Zuckerberg melepaskan kejutan besar, memperkenalkan 1.1 miliar ramalan struktur protein sekaligus, 800 juta lebih banyak daripada pangkalan data AlphaFold.

Model AI di sebaliknya, ESMFold2, diklaim memiliki prestasi yang secara menyeluruh melampaui AlphaFold3.

Lebih penting lagi, sumber terbuka sepenuhnya, tanpa sekatan untuk penggunaan komersial.

Biohub

https://www.nature.com/articles/d41586-026-01686-3

Kedudukan dominan AI protein yang dibina selama bertahun-tahun oleh Google DeepMind sedang digoyahkan oleh seorang pengacau sumber terbuka.

Keseluruhan lanskap litar AI protein mungkin perlu ditulis semula.

1.1 bilion struktur protein, semuanya telah disediakan

Pada 27 Mei, pangkalan data struktur protein bernama ESM Atlas yang dicipta oleh institusi biomedik Biohub yang didirikan oleh pasangan Zuckerberg, secara rasmi dilancarkan.

1.1 bilion struktur protein yang diprediksi, ditambah 6.8 bilion maklumat urutan protein.

Basis data AlphaFold telah mengumpulkan lebih daripada 200 juta ramalan struktur, sementara ESM Atlas menambahkan 800 juta lagi.

Model AI yang menghasilkan ramalan ini dipanggil ESMFold2, yang dikembangkan di bawah kepimpinan Alex Rives, Ketua Sains Biohub.

Biohub

Rives berkata:

Grafik ini menunjukkan gambaran keseluruhan biologi protein, terutama bahagian-bahagian yang paling tidak diketahui.

Mengapa ramalan struktur protein penting?

Protein adalah komponen utama yang menjalankan kehidupan; mengetahui bentuknya membolehkan kita memahami fungsinya, seterusnya merekabentuk ubat baru dan mengatasi penyakit.

AlphaFold memenangi Hadiah Nobel Kimia dengan ini, merupakan kes bersejarah di mana AI mengubah sains.

Sekarang, satu model baru muncul dengan set data 5 kali lebih besar.

Sebagai model AI, kekuatan ESMFold2 terletak di mana

ESMFold2 mengikuti jalan teknologi yang berbeza daripada AlphaFold.

Ia dibina berdasarkan "protein language model" yang dikeluarkan pada 2024, dengan idea utama yang diambil daripada bidang NLP, memperlakukan urutan protein sebagai "bahasa", dilatih pada berbilion data protein, supaya model dapat belajar meramal struktur tiga dimensi secara langsung daripada urutan.

Rakan-rakan AI AlphaFold seharusnya merasa familiar dengan ini, kerana ia sama dengan logik model bahasa besar yang belajar bahasa manusia.

Cakupan data latihan adalah pemboleh ubah utama.

ESMFold2 memasukkan sejumlah besar data protein mikrobial dari persekitaran seperti tanah dan laut, yang merupakan ruang kosong dalam pangkalan data AlphaFold.

Cakupan yang lebih luas, model yang pernah dilihat dunia protein menjadi lebih lengkap.

Pasukan Biohub menyatakan bahawa ESMFold2 menunjukkan prestasi yang lebih baik daripada AlphaFold3 dalam meramal struktur kompleks interaksi antara protein.

Namun, yang paling meyakinkan bukanlah skor ujian, tetapi pengesahan di lapangan.

Pasukan merekabentuk protein baru menggunakan ESMFold2, kemudian menghantar ke makmal untuk sintesis dan ujian, dengan kadar yang tinggi dari rekabentuk berfungsi seperti yang dijangka.

Dari "memprediksi" ke "mereka" dan kemudian "mengesahkan", rantai ini berjalan lancar, nilai tersebut meluas dari kertas akademik ke dunia nyata.

Biohub

Sepenuhnya sumber terbuka, itulah senjata utama terbesar

Senjata persaingan paling tajam ESMFold2 ialah ia sepenuhnya sumber terbuka dan tanpa sekatan penggunaan komersial.

Makna strategik pilihan ini menjadi lebih jelas apabila dilihat dalam konteks keseluruhan industri AI.

Walaupun AlphaFold mempunyai pangkalan data terbuka, AlphaFold3 telah mengenakan sekatan terhadap penggunaan komersial semasa pelancaran awalnya.

Model ramalan interaksi protein yang dilancarkan tahun ini oleh Isomorphic Labs, anak syarikat Google DeepMind, adalah sepenuhnya tertutup.

Bacaan lanjutan: Google melancarkan 'AlphaFold 4', tidak lagi sumber terbuka! Prestasi mengalahkan generasi sebelumnya

Ahli biologi komputasi dari MIT, Ovchinnikov, secara langsung menekankan nilai sumber terbuka, "Saya menganggap ramai orang akan bersemangat untuk mencuba ESMFold2."

Kesan pengungkitan AI sumber terbuka telah dibuktikan sepenuhnya dalam litar model bahasa besar, dengan siri Llama Meta sebagai contoh terbaik.

Model open source yang cukup kuat untuk mendorong komuniti global mengembangkan, mengaplikasikan, dan menemukan penggunaan yang tidak pernah terbayangkan oleh pengembang asalnya.

Kesituan dalam bidang protein AI lebih khusus, di seluruh dunia terdapat banyak laboratorium dan institusi penyelidikan yang sangat memerlukan alat ramalan struktur percuma tanpa sekatan; model tertutup sekuat mana pun, kumpulan pengguna yang boleh dicapai tetap terhad.

Biohub memilih untuk membuka sumber sepenuhnya, mengikuti pendekatan yang sama dengan Meta dalam model bahasa besar.

Strategi Zuckerberg di bidang AI menjadi semakin jelas—menggunakan sumber terbuka sebagai infrastruktur dan ekosistem sebagai parit pertahanan.

Biohub

Pemain besar sejajar, beli atau tidak?

Tindak balas akademik adalah positif, tetapi pandangan berkecuali juga jelas.

Gemma Atkinson dari Universiti Lund, Sweden, menggambarkan ESM Atlas sebagai "sumber daya yang luar biasa untuk biologi".

Biohub

Christine Orengo dari University College London mengakui nilainya, tetapi menekankan bahawa keputusan ramalan perlu diverifikasi secara bebas.

Biohub

Soalan yang lebih tajam datang dari Martin Steinegger dari Universiti Kebangsaan Seoul.

Biohub

Dia prihatin tentang bagaimana ESMFold2 berperforma apabila menghadapi "struktur baharu" yang sangat berbeza daripada protein yang sudah diketahui.

Pasukan beliau sebelum ini mendapati bahawa versi pertama ESMFold tidak cemerlang dalam aspek ini. Masalah ini masih belum diselesaikan untuk ESMFold2.

Ovchinnikov dari MIT memberikan penilaian paling tenang, beliau berpendapat ESM Atlas lebih sesuai dijadikan pelengkap kepada pangkalan data AlphaFold.

Biohub

Dia juga menunjukkan bahawa model tertutup Isomorphic Labs serta beberapa model sumber terbuka yang tidak boleh dibandingkan secara langsung dengan Biohub juga mencapai pencapaian pada tahap yang serupa.

Kepimpinan ESMFold2 mungkin tidak sebesar yang dinyatakan dalam kertas kerja tersebut.

Kewaspadaan ini justru mencerminkan bahawa persaingan di lintasan AI protein telah mencapai tahap yang sengit.

Model-model sumber terbuka, sumber tertutup, akademik, dan komersial semuanya sedang beriterasi dengan kelajuan yang sangat pantas.

Yang paling kuat hari ini mungkin akan dilampaui selepas enam bulan. Ritme ini sudah sangat serupa dengan perlumbaan senjata di litar model bahasa besar.

Apabila AI mula memahami kod sumber kehidupan

Dahulu, menganalisis struktur tiga dimensi satu protein mungkin memerlukan beberapa bulan hingga bertahun-tahun kerja makmal.

AlphaFold membuktikan pertama kali bahawa AI boleh melakukannya dalam beberapa minit.

Sekarang ESMFold2 mendorong skala ramalan ke tahap 1.1 bilion, meliputi banyak protein yang sebelumnya tidak pernah diuraikan.

Mengikuti perkembangan ini, apabila AI mampu meramal struktur semua protein dengan tepat, mereka protein fungsional baru, dan membuktikan keberkesanannya melalui ujian eksperimen, maka pelaksanaan AGI dalam bidang sains kehidupan mungkin lebih dekat daripada yang ramai bayangkan.

Jika ASI benar-benar tiba, biologi bukan lagi disiplin yang perlu diteliti, tetapi sistem yang boleh direkabentuk.

Reka bentuk kehidupan pada peringkat molekul, menyesuaikan protein mengikut keperluan, dan menulis semula peraturan evolusi.

Ini kedengaran seperti sains fiksyen, tetapi alat seperti ESMFold2 sedang secara beransur-ansur mengubah "sains fiksyen" menjadi "masalah kejuruteraan".

Hari ini, 1.1 miliar struktur protein dibentangkan di atas meja, dan setiap saintis di seluruh dunia yang mempunyai sambungan internet boleh mengaksesnya secara percuma.

Ini bermakna, keupayaan AI untuk memahami kehidupan telah naik ke peringkat yang lebih tinggi.

Rujukan: https://www.nature.com/articles/d41586-026-01686-3

Artikel ini berasal daripada akaun微信公众号 "Sinzhiyuan", penulis: ASI Revelation; editor: Marco

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.