Ngai vàng của AlphaFold đang gặp nguy hiểm!
Nature đăng bài: Biohub của Zuckerberg vừa tung ra một đòn chí mạng, đồng thời công bố 1,1 tỷ dự đoán cấu trúc protein, nhiều hơn 800 triệu so với cơ sở dữ liệu AlphaFold.
Mô hình AI phía sau, ESMFold2, được tuyên bố có hiệu năng vượt trội hoàn toàn so với AlphaFold3.
Quan trọng hơn, mã nguồn hoàn toàn mở và không giới hạn mục đích thương mại.

https://www.nature.com/articles/d41586-026-01686-3
Vị thế thống trị lâu năm của AI protein do Google DeepMind xây dựng đang bị một đối thủ mã nguồn mở lay chuyển.
Bối cảnh của lĩnh vực AI protein có thể sẽ được viết lại.
1.1 tỷ cấu trúc protein, đã được phục vụ sẵn sàng
Ngày 27 tháng 5, cơ sở sinh học y khoa Biohub do cặp đôi Zuckerberg thành lập đã chính thức ra mắt cơ sở dữ liệu cấu trúc protein mang tên ESM Atlas.
1,1 tỷ cấu trúc protein được dự đoán, cộng với 6,8 tỷ chuỗi protein.
Cơ sở dữ liệu của AlphaFold đã tích lũy hơn 200 triệu dự đoán cấu trúc, trong khi ESM Atlas ngay từ đầu đã thêm 800 triệu.
Mô hình AI tạo ra những dự đoán này được gọi là ESMFold2, do Alex Rives, Trưởng khoa học của Biohub, dẫn đầu phát triển.

Rives nói:
Biểu đồ này cho thấy toàn cảnh sinh học protein, đặc biệt là những phần chưa được biết đến nhiều nhất.
Tại sao dự đoán cấu trúc protein lại quan trọng?
Protein là các bộ phận cốt lõi vận hành sự sống; hiểu được hình dạng của chúng sẽ giúp hiểu chức năng của chúng, từ đó thiết kế thuốc mới và đánh bại bệnh tật.
AlphaFold đã giành giải Nobel Hóa học nhờ điều này, là minh chứng tiêu biểu cho việc AI thay đổi khoa học.
Bây giờ, một mô hình mới đã xuất hiện với bộ dữ liệu lớn gấp 5 lần.
Là một mô hình AI, ESMFold2 mạnh ở đâu
ESMFold2 đã đi theo một con đường kỹ thuật khác với AlphaFold.
Nó được xây dựng dựa trên “mô hình ngôn ngữ protein” được phát hành năm 2024, với ý tưởng cốt lõi được lấy cảm hứng từ lĩnh vực NLP, coi chuỗi protein như một “ngôn ngữ”, được huấn luyện trên hàng tỷ dữ liệu protein để mô hình học cách dự đoán trực tiếp cấu trúc ba chiều từ chuỗi.
Các đồng nghiệp AI của AlphaFold khi nhìn到这里 sẽ cảm thấy quen thuộc, vì điều này giống với logic mà các mô hình ngôn ngữ lớn học ngôn ngữ con người.
Phạm vi dữ liệu huấn luyện là biến số quan trọng.
ESMFold2 đã tích hợp một lượng lớn dữ liệu protein vi sinh vật từ môi trường như đất, biển, những phần này trong cơ sở dữ liệu của AlphaFold là trống rỗng.
Phạm vi bao phủ rộng hơn, mô hình đã thấy thế giới « protein » sẽ hoàn chỉnh hơn.
Đội ngũ Biohub cho biết, ESMFold2 thể hiện hiệu suất vượt trội hơn AlphaFold3 trong việc dự đoán cấu trúc phức hợp của các tương tác giữa các protein.
Nhưng điều thuyết phục nhất không phải là điểm số, mà là xác minh thực tế.
Đội ngũ đã thiết kế các protein hoàn toàn mới bằng ESMFold2, mang đi tổng hợp và thử nghiệm tại phòng thí nghiệm, với tỷ lệ cao các thiết kế hoạt động như dự kiến.
Từ “dự đoán” đến “thiết kế” rồi đến “xác minh”, chuỗi liên kết này được kết nối, giá trị sẽ được mở rộng từ các bài báo nghiên cứu sang thế giới thực.

Mở nguồn hoàn toàn, đó mới là vũ khí lợi hại nhất
Vũ khí cạnh tranh sắc bén nhất của ESMFold2 là hoàn toàn mã nguồn mở và không giới hạn mục đích thương mại.
Ý nghĩa chiến lược của lựa chọn này trở nên rõ ràng hơn khi đặt trong bối cảnh toàn ngành AI.
Mặc dù AlphaFold có cơ sở dữ liệu mở, nhưng AlphaFold3 đã áp dụng hạn chế đối với việc sử dụng thương mại trong giai đoạn đầu ra mắt.
Mô hình dự đoán tương tác protein do Isomorphic Labs, một đơn vị thuộc Google DeepMind, ra mắt năm nay hoàn toàn là mã nguồn đóng.
Đọc thêm: Google công bố 'AlphaFold 4', không còn mở nguồn! Hiệu năng vượt trội thế hệ trước
Nhà sinh học tính toán của MIT, Ovchinnikov, đã trực tiếp nhấn mạnh giá trị của mã nguồn mở: “Tôi dự đoán nhiều người sẽ rất hào hứng muốn thử ESMFold2.”
Hiệu ứng đòn bẩy của AI mã nguồn mở trên lĩnh vực mô hình ngôn ngữ lớn đã được xác minh đầy đủ, với loạt Llama của Meta là ví dụ điển hình nhất.
Một mô hình mã nguồn mở đủ mạnh để thúc đẩy cộng đồng toàn cầu cùng phát triển, ứng dụng và khám phá những cách sử dụng mà ngay cả nhà phát triển ban đầu cũng chưa từng nghĩ đến.
Trường hợp trong lĩnh vực protein AI đặc biệt hơn, trên toàn cầu có rất nhiều phòng thí nghiệm và tổ chức nghiên cứu đang khao khát một công cụ dự đoán cấu trúc miễn phí và không bị giới hạn; dù mô hình đóng nguồn mạnh đến đâu, thì nhóm người dùng tiếp cận được cũng chỉ giới hạn trong phạm vi nhất định.
Biohub lựa chọn mở nguồn hoàn toàn, theo đuổi chiến lược tương tự như Meta trong lĩnh vực mô hình ngôn ngữ lớn.
Chiến lược của Zuckerberg trong lĩnh vực AI ngày càng rõ ràng—sử dụng mã nguồn mở làm hạ tầng và hệ sinh thái làm hàng rào bảo vệ.

Các chuyên gia trong ngành, có mua không?
Phản ứng từ giới học thuật tích cực, nhưng quan điểm giữ lại cũng rất rõ ràng.
Gemma Atkinson từ Đại học Lund, Thụy Điển, gọi ESM Atlas là “nguồn tài nguyên phi thường cho sinh học”.

Christine Orengo từ University College London công nhận giá trị của nó, nhưng nhấn mạnh rằng các kết quả dự đoán cần được xác minh độc lập.

Câu hỏi sắc sảo hơn đến từ Martin Steinegger của Đại học Quốc gia Seoul.

Anh ấy quan tâm đến việc ESMFold2 hoạt động như thế nào khi đối mặt với những "cấu trúc mới" khác biệt lớn so với các protein đã biết.
Đội ngũ của anh ấy trước đây đã phát hiện rằng phiên bản đầu tiên của ESMFold không nổi bật trong khía cạnh này. Vấn đề này vẫn chưa được giải quyết đối với ESMFold2.
Ovchinnikov từ MIT đưa ra đánh giá bình tĩnh nhất, cho rằng ESM Atlas phù hợp hơn với vai trò bổ sung cho cơ sở dữ liệu AlphaFold.

He also noted that Isomorphic Labs' proprietary models, as well as some Biohub models without direct open-source counterparts, achieved similar levels of results.
Sự dẫn đầu của ESMFold2 có thể không lớn như những gì bài báo cáo ngụ ý.
Sự thận trọng này chính là phản ánh sự cạnh tranh khốc liệt trên lĩnh vực AI protein.
Các mô hình mã nguồn mở, mã nguồn đóng, học thuật và thương mại đều đang được cập nhật với tốc độ cực nhanh.
Hôm nay là “mạnh nhất” thì sau sáu tháng có thể đã bị vượt mặt. Nhịp độ này đã rất giống với cuộc chạy đua vũ trang trong lĩnh vực mô hình ngôn ngữ lớn.
Khi AI bắt đầu đọc mã nguồn của sự sống
Trước đây, việc phân tích cấu trúc ba chiều của một protein có thể mất từ vài tháng đến vài năm công việc trong phòng thí nghiệm.
AlphaFold lần đầu tiên chứng minh AI có thể làm được điều đó trong vài phút.
Hiện tại, ESMFold2 đã đẩy quy mô dự đoán lên mức 1,1 tỷ, bao phủ một lượng lớn các protein trước đây chưa từng được phân tích.
Khi suy luận theo hướng này, nếu AI có thể dự đoán chính xác tất cả các cấu trúc protein, thiết kế các protein chức năng hoàn toàn mới và xác thực hiệu quả qua thực nghiệm, thì khoảng cách để AGI được ứng dụng trong lĩnh vực khoa học sự sống có thể gần hơn nhiều so với hầu hết mọi người tưởng tượng.
Nếu ASI thực sự đến, sinh học đối với nó sẽ không còn là một ngành cần được "nghiên cứu", mà là một hệ thống có thể được "kỹ thuật hóa".
Thiết kế sự sống ở cấp độ phân tử, tùy chỉnh protein theo yêu cầu, viết lại các quy luật tiến hóa.
Nghe có vẻ như khoa học viễn tưởng, nhưng các công cụ như ESMFold2 đang từng bước biến “khoa học viễn tưởng” thành “vấn đề kỹ thuật”.
Hôm nay, 1,1 tỷ cấu trúc protein đã được bày ra trên bàn, bất kỳ nhà khoa học nào trên toàn cầu có kết nối internet đều có thể truy cập miễn phí.
Điều này có nghĩa là khả năng hiểu sự sống của AI đã tiến thêm một bước nữa.
Tài liệu tham khảo: https://www.nature.com/articles/d41586-026-01686-3
Bài viết này đến từ tài khoản WeChat “New Intelligence Yuan”, tác giả: ASI Revelation; biên tập: Marco
