Biohub запускает ESM Atlas с 11 миллиардами структур белков, бросая вызов AlphaFold

icon MarsBit
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Biohub, исследовательский институт, основанный Марком Цукербергом, запустил ESM Atlas — базу данных белков с 11 миллиардами предсказанных структур и 68 миллиардами последовательностей. Модель ИИ ESMFold2 утверждает о лучшей производительности по сравнению с AlphaFold3 и является открытой для коммерческого использования. Это развитие может потрясти сферу ИИ для белков. Этот шаг вызвал обсуждения в кругах новостей об ИИ и криптовалюте о возможностях применения на цепочке и новых вариантах интеграции данных.

Трон AlphaFold под угрозой!

Nature опубликовала статью: Biohub, принадлежащий Цукербергу, выпустил мощный прорыв — сразу 1,1 миллиарда предсказанных структур белков, что на 800 миллионов больше, чем в базе данных AlphaFold.

Фоновая модель ИИ ESMFold2 заявляет о превосходстве по всем параметрам над AlphaFold3.

Более важно, что это полностью с открытым исходным кодом и без ограничений для коммерческого использования.

Biohub

https://www.nature.com/articles/d41586-026-01686-3

Доминирующее положение Google DeepMind в области ИИ для белков, выстроенный годами, сейчас подрывается открытым проектом-конкурентом.

Ситуация на рынке AI для белков может быть переписана.

1,1 миллиарда структур белков — всё подано на стол

27 мая биомедицинский институт Biohub, основанный Зукербергом и его супругой, официально запустил базу данных структур белков под названием ESM Atlas.

1,1 миллиарда предсказанных структур белков и 6,8 миллиарда последовательностей белков.

База данных AlphaFold накопила более 200 миллионов предсказаний структур, а ESM Atlas добавила сразу еще 800 миллионов.

Модель ИИ, создавшая эти прогнозы, называется ESMFold2 и была разработана под руководством научного руководителя Biohub Алекса Ривза.

Biohub

Ривс говорит:

Эта схема демонстрирует полную картину биологии белков, особенно наиболее неизвестные аспекты.

Why is protein structure prediction important?

Белки — это ключевые компоненты, обеспечивающие функционирование жизни; зная их форму, можно понять их функцию и разрабатывать новые лекарства, побеждать болезни.

AlphaFold получил Нобелевскую премию по химии за это — это знаковый пример того, как ИИ меняет науку.

Теперь появилась новая модель с набором данных, в 5 раз большим.

В чем преимущества ESMFold2 как модели ИИ?

ESMFold2 выбрал другую техническую траекторию по сравнению с AlphaFold.

Он построен на основе «языковой модели белков», выпущенной в 2024 году, и основная идея заимствована из области NLP: белковые последовательности рассматриваются как «язык», и модель обучается на миллиардах данных о белках, чтобы учиться напрямую предсказывать трехмерную структуру по последовательности.

Искусственный интеллект-соперники AlphaFold, вероятно, найдут это знакомым — это то же самое логическое обучение, что и у крупных языковых моделей, изучающих человеческий язык.

Объем обучающих данных — ключевой фактор.

ESMFold2 включает в себя большое количество данных о белках микроорганизмов из окружающей среды, таких как почва и океан, которые отсутствуют в базе данных AlphaFold.

Чем шире охват, тем более полной является «миро́вое представление» модели о белках.

Команда Biohub утверждает, что ESMFold2 превосходит AlphaFold3 в предсказании комплексных структур взаимодействия между белками.

Но самое убедительное — это практическая проверка.

Команда использовала ESMFold2 для проектирования новых белков, которые были синтезированы и протестированы в лаборатории; значительная доля спроектированных белков работала так, как ожидалось.

От «прогнозирования» через «проектирование» до «верификации» — когда эта цепочка работает, ценность переходит от научных статей в реальный мир.

Biohub

Все открыто исходное код,这才是最大的杀手锏

ESMFold2 — его самое мощное конкурентное преимущество — полная открытость и отсутствие ограничений на коммерческое использование.

Стратегическое значение этого выбора становится более очевидным в контексте всей индустрии ИИ.

Хотя AlphaFold имеет открытую базу данных, AlphaFold3 в начале выпуска наложил ограничения на коммерческое использование.

Модель прогнозирования взаимодействия белков, представленная Isomorphic Labs, дочерней компанией Google DeepMind, в этом году полностью закрыта.

Дополнительное чтение: Google выпустил «AlphaFold 4» — больше не с открытым исходным кодом! Производительность значительно превосходит предыдущую версию

Вычислительный биолог из MIT Овчинников прямо указал на ценность открытого исходного кода: «Я ожидаю, что многие люди с энтузиазмом захотят попробовать ESMFold2».

Леверидж открытого ИИ на рынке крупных языковых моделей уже полностью подтвержден, и лучшим примером является серия Llama от Meta.

Достаточно мощная открытая модель, которая может вовлечь глобальное сообщество в её развитие, применение и обнаружение вариантов использования, о которых даже первоначальные разработчики не подозревали.

Ситуация в области белкового ИИ более специфична: по всему миру множество лабораторий и исследовательских институтов отчаянно нуждаются в бесплатном и неограниченном инструменте для предсказания структуры; как бы ни были мощны закрытые модели, их аудитория всегда будет ограничена.

Biohub выбрал полную открытость исходного кода, что соответствует стратегии Meta в области крупных языковых моделей.

Стратегия Цукерберга в области ИИ становится все более ясной — использовать открытый исходный код для инфраструктуры и экосистему в качестве барьера для входа.

Biohub

Соотечественники-эксперты, покупаете или нет?

Академическое сообщество отреагировало положительно, но также четко высказало оговорки.

Гемма Эткинсон из Университета Лунда в Швеции назвала ESM Atlas «выдающимся ресурсом для биологии».

Biohub

Christine Orengo из Университетского колледжа Лондона признает их ценность, но подчеркивает, что результаты прогнозов требуют независимой проверки.

Biohub

Более острый вопрос поступил от Мартина Штайнеггера из Сеульского национального университета.

Biohub

Он интересуется, как ESMFold2 справляется с «новыми структурами», которые сильно отличаются от известных белков.

Его команда ранее обнаружила, что первая версия ESMFold не справлялась с этим. Эта проблема остается нерешенной для ESMFold2.

Овчинников из МИТ дал самый спокойный прогноз, считая, что ESM Atlas лучше позиционировать как дополнение к базе данных AlphaFold.

Biohub

Он также отметил, что закрытые модели Isomorphic Labs, а также некоторые модели Biohub, для которых не существует прямых открытых аналогов, достигли сопоставимого уровня результатов.

Преимущество ESMFold2, возможно, не такое большое, как предполагается в статье.

Эта осмотрительность как раз отражает, насколько ожесточилась конкуренция на рынке белкового ИИ.

Открытые, закрытые, академические и коммерческие модели все активно обновляются с огромной скоростью.

Сегодняшний «самый сильный» может быть превзойден через полгода. Этот темп уже очень похож на гонку вооружений в сегменте крупных языковых моделей.

Когда ИИ начнёт понимать исходный код жизни

Раньше определение трехмерной структуры белка могло занимать от нескольких месяцев до нескольких лет лабораторной работы.

AlphaFold впервые доказал, что ИИ может сделать это за несколько минут.

Теперь ESMFold2 расширил масштаб предсказаний до уровня 1,1 миллиарда, охватив множество белков, ранее не подвергавшихся анализу.

Продолжая эту логику, когда ИИ сможет точно предсказывать все структуры белков, проектировать совершенно новые функциональные белки и подтверждать их эффективность экспериментально, применение ИИ в области биологических наук может оказаться ближе, чем большинство предполагают.

Если ASI действительно наступит, биология перестанет быть дисциплиной, которую нужно «изучать», и станет системой, которую можно «инженерно проектировать».

Проектирование жизни на молекулярном уровне, создание белков по заказу, переписывание правил эволюции.

Это звучит как научная фантастика, но такие инструменты, как ESMFold2, постепенно превращают «научную фантастику» в «инженерную задачу».

Сегодня 1,1 миллиарда структур белков выложены на столе, и любой ученый с подключением к интернету по всему миру может получить их бесплатно.

Это означает, что способность ИИ понимать жизнь вышла на новый уровень.

Ссылки для справки: https://www.nature.com/articles/d41586-026-01686-3

Эта статья взята из официального аккаунта WeChat «Новознание», автор: АСИ, Откровение; редактор: Ма Ко

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.