Престол AlphaFold під загрозою!
Nature опублікувала статтю: Biohub Зака Бергера випустив потужний прорив — одразу 1,1 мільярда прогнозованих структур білків, що на 800 мільйонів більше, ніж у базі даних AlphaFold.
Задній AI-модель ESMFold2 заявляє, що має повний превосходящий продуктивність над AlphaFold3.
Ще важливіше — повністю відкритий код, без обмежень для комерційного використання.

https://www.nature.com/articles/d41586-026-01686-3
Головна позиція Google DeepMind у сфері штучного інтелекту для білків, яку вона обіймала роками, зараз піддається випробуванню від відкритого проекту-конкурента.
Ситуація на ринку AI для білків може бути переписана.
1,1 мільярда структур білків — сервірується прямо зараз
27 травня біомедичний інститут Biohub, заснований Закербергами, офіційно запустив базу даних структур білків під назвою ESM Atlas.
1,1 мільярда передбачених структур білків та 6,8 мільярда послідовностей білків.
База даних AlphaFold накопичила понад 200 мільйонів прогнозів структур, а ESM Atlas додала ще 800 мільйонів.
AI-модель, яка генерує ці прогнози, називається ESMFold2 і була розроблена під керівництвом наукового керівника Biohub Алекса Рівза.

Рівс каже:
Ця схема показує повну картину біології білків, зокрема ті найменш відомі частини.
Чому важливо передбачення структури білків?
Білки є ключовими компонентами життєдіяльності; зрозумівши їхню форму, можна зрозуміти їхню функцію, а потім розробити нові ліки та подолати хвороби.
AlphaFold отримав Нобелівську премію з хімії за це — це знаковий приклад того, як ШІ змінює науку.
Зараз з’явився нова модель з набором даних, який у 5 разів більший.
Як модель штучного інтелекту, у чому переваги ESMFold2?
ESMFold2 вибрав інший технічний підхід, ніж AlphaFold.
Він побудований на основі «мовної моделі білків», опублікованої у 2024 році, і його основна ідея запозичена з галузі NLP: білкові послідовності розглядаються як «мова», а модель навчається на десятках мільярдів даних про білки, щоб передбачати тривимірну структуру безпосередньо з послідовності.
AI-партнери AlphaFold, ймовірно, відчувають знайомість, оскільки це працює так само, як великі мовні моделі вивчають людську мову.
Обсяг навчальних даних є ключовим фактором.
ESMFold2 включив велику кількість даних про мікробні білки з оточення, таких як ґрунт і океан, що є порожніми в базі даних AlphaFold.
Чим ширший охоплення, тим повнішою є «білкова всесвіт», яку бачила модель.
Команда Biohub стверджує, що ESMFold2 продемонструвала кращі результати, ніж AlphaFold3, у прогнозуванні комплексних структур взаємодії між білками.
Але найбільш переконливим не є бенчмарк, а практичне підтвердження.
Команда спроектувала нові білки за допомогою ESMFold2, надіслала їх у лабораторію для синтезу та тестування — велика частка проектів працювала за задумом.
Від «прогнозування» до «дизайну» і далі до «верифікації» — коли цей ланцюжок працює, цінність поширюється з наукових статей у реальний світ.

Повністю відкритий код — це справжній кілл-ап
ESMFold2 найгострішим конкурентним інструментом є повна відкритість та відсутність обмежень щодо комерційного використання.
Стратегічне значення цього вибору краще видно в контексті всієї галузі ШІ.
Хоча AlphaFold має відкриту базу даних, AlphaFold3 на початку випуску обмежив комерційне використання.
Модель прогнозування взаємодії білків, запущена Isomorphic Labs, дочірньою компанією Google DeepMind, цього року, є повністю проприєтарною.
Додаткове читання: Google випустив «AlphaFold 4», більше не відкриває код! Продуктивність перевершує попередню версію
Обчислювальний біолог з МІТ Овчинніков прямо вказав на цінність відкритого коду: «Я очікую, що багато людей захочуть спробувати ESMFold2».
Леверидж відкритого коду AI на ринку великих мовних моделей уже повністю підтверджений, і найкращим прикладом є серія Llama від Meta.
Достатньо потужна відкрита модель, яка може спонукати глобальну спільноту до ітерацій, застосувань та виявлення використань, яких самі початкові розробники не передбачали.
Ситуація в галузі білкового ІІ є більш спеціфічною: по всьому світу існує велика кількість лабораторій та дослідних установ, які відчайдушно потребують безкоштовного та необмеженого інструменту для прогнозування структури; навіть найпотужніші закриті моделі можуть досягти лише обмеженого кола користувачів.
Biohub вибрав повне відкриття коду, що узгоджується з підходом Meta до великих мовних моделей.
Стратегія Цукерберга в галузі ШІ стає все більш очевидною — використовувати відкрите програмне забезпечення як інфраструктуру, а екосистему — як бар’єр для конкурентів.

Товариші-профі, купуєте чи ні?
Академічне середовище відгукнулося позитивно, але його застереження також були чіткими.
Гемма Аткінсон з Університету Лунд у Швеції назвала ESM Atlas «видатним ресурсом для біології».

Крістін Оренго з Університетського коледжу Лондона підтверджує їхню цінність, але підкреслює, що результати прогнозування потребують незалежної перевірки.

Більш гострі питання поступили від Мартина Штайнеггера з Національного університету Сеула.

Він цікавиться, як ESMFold2 впорається з «новими структурами», які значно відрізняються від відомих білків.
Його команда раніше виявила, що перша версія ESMFold не виявилася сильною в цьому аспекті. Ця проблема залишається нерозв’язаною для ESMFold2.
Овчинников із MIT дав найспокійнішу оцінку, вважаючи, що ESM Atlas краще розглядати як доповнення до бази даних AlphaFold.

Він також зазначив, що закриті моделі Isomorphic Labs, а також деякі моделі Biohub, для яких немає прямих відкритих моделей для порівняння, досягли подібного рівня результатів.
Перевага ESMFold2, можливо, не така велика, як це підказує стаття.
Ця обережність саме відображає, що конкуренція на ринку AI для білків досягла апогею.
Відкриті, закриті, академічні та комерційні моделі швидко ітеруються.
Сьогоднішній «найсильніший» через півроку може бути перевершений. Цей темп дуже схожий на змагання у розробці великих мовних моделей.
Коли ШІ почне розуміти код життя
Раніше розшифровка тривимірної структури білка могла займати місяці або навіть роки лабораторної роботи.
AlphaFold вперше довів, що ШІ може зробити це за хвилини.
ESMFold2 зараз підняв масштаб прогнозування до рівня 1,1 мільярда, охопивши велику кількість білків, які раніше не були розшифровані.
Продовжуючи цю логічну лінію, коли ШІ зможе точно передбачати всі структури білків, проектувати абсолютно нові функціональні білки, які підтверджуються експериментально, до реалізації AGI в галузі життєвих наук, можливо, залишається набагато менше, ніж більшість людей передбачають.
Якщо ASI справді настане, біологія для нього більше не буде дисципліною, яку потрібно «вивчати», а стане системою, яку можна «інженеризувати».
Дизайн життя на молекулярному рівні, замовлення білків за потребою, переписування правил еволюції.
Це звучить як наукова фантастика, але інструменти, такі як ESMFold2, поступово перетворюють «наукову фантастику» на «інженерну задачу».
Сьогодні 1,1 мільярда структур білків розкладено на столі, і будь-який науковець у світі з підключенням до інтернету може отримати їх безкоштовно.
Це означає, що здатність ШІ розуміти життя піднялася на новий рівень.
Джерело: https://www.nature.com/articles/d41586-026-01686-3
Цей матеріал зі сторінки WeChat «New Intelligence Yuan», автор: Apokalypsi ASI; редагування: Марко
