Отсутствие машинного интерфейса для биологических научных данных ограничивает точность ИИ; добавление слоя инструментов может значительно повысить её.

Автор статьи, источник: НовыеЗнания

[Введение] Ведущие ИИ-системы для программирования стремительно развиваются, но в области биологии они часто ошибаются — не потому, что модели недостаточно умны, а потому, что научные базы данных до сих пор созданы исключительно для человеческого клика мышью.

Самая мощная модель проиграла там, где не должна была проиграть: в счете?

Недавно Anthropic опубликовала научный блог под названием «Paving the way for agents in biology», в котором одна группа цифр вызывает леденящий холод по спине.

https://www.anthropic.com/research/agents-in-biology

Исследователи поручили нескольким самым мощным современным научным агентам (Claude, GPT, Biomni, Edison Analysis) выполнить задачу, которая кажется совершенно простой: точно подсчитать количество вирусных последовательностей в базе данных NCBI Virus, соответствующих заданным критериям.

В результате ни один из них не смог стабильно давать правильные ответы.

Еще более абсурдно то, что при одном и том же вопросе, одной и той же модели и одном и том же промпте ответы могут отличаться в десятки раз.

Claude Sonnet 4 при поиске последовательности вируса Эбола вернул сначала 106 результатов, затем 15, затем 5. Правильный ответ — 266.

Разве ИИ действительно не может заниматься биологией?

За этим скрывается печальная правда: в научной сфере настоящим слабым местом агентов является не рассуждение, а то, что у них вообще нет стабильного, воспроизводимого и машинно-осуществимого пути для точного извлечения данных.

Без специализированного слоя поиска средняя точность различных систем варьируется от 16,9% до 91,3%. Даже если новые модели показывают улучшения, оставшиеся ошибки остаются критичными: поскольку порог прохождения для таких задач фактически составляет 100%.

Одна пропущенная запись может сделать так, что диагностический реагент будет казаться охватывающим все распространенные штаммы, или сдвинуть дату начала вспышки на несколько недель вперед.

Тогда в чем именно проблема?

Город, построенный для повозок, не подходит для автомобилей.

Anthropic привела очень наглядную аналогию: использование агентов для работы с биологическими базами данных — это как вести машину через старый город, построенный до появления автомобилей.

Улицы могут быть элегантными и продуманными, но все они — узкие переулки и резкие повороты, спроектированные для конных повозок. Разрозненные базы данных, причудливые форматы файлов и одноразовые скрипты поиска — всё это часть этого старого города. Вы можете добавить дорожные знаки, организовать парковки, расширить пару улиц, но фундаментальная городская планировка изначально не была рассчитана на автомобили.

Мир программного обеспечения — совершенно противоположный. Это новый город, построенный для автомобилей: ровные асфальтовые дороги, четкие полосы движения, стандартизированные светофоры. Системы контроля версий, хорошо задокументированные API, менеджеры пакетов — весь комплекс инструментов, который позволяет вам быстро добраться от начала до конца, изначально создан для «автомобилей» (то есть агентов).

Таким образом, кодовые агенты делают огромные успехи, в то время как биологические агенты кружат на месте.

В области программного обеспечения предоставляются структурированные цифровые рабочие процессы и надежные интерфейсы: создание задачи на GitHub, генерация патча, запуск тестов и немедленная проверка. В биологической области представлены хрупкие, гетерогенные и зависящие от конкретных процессов инфраструктуры, с почти отсутствием простых, проверяемых и значимых сигналов вознаграждения.

Что касается NCBI Virus, сделайте это более явным. Это по сути веб-портал. Вы выбираете условия на веб-странице: хозяин — человек, место отбора — Африка, длина последовательности больше определённого значения, исключить лабораторные пассажи, и только тогда фоновая система переводит эти условия в запросы к нескольким базам данных (GenBank, RefSeq, система INSDC), после чего фильтрует и выводит вам результаты.

Главная страница портала NCBI Virus: для поиска вирусных последовательностей сначала необходимо выбрать параметры на веб-странице, ввести ключевые слова и применить фильтры — весь этот интерфейс разработан для людей, и его сложно напрямую использовать машинам.

Его логика фильтрации в большом объеме реализована на уровне веб-страницы и не предоставлена в виде чистого программного интерфейса.

Для человеческих вирусологов это всего лишь несколько кликов в браузере. Для машин (агентов) это настоящая катастрофа, поскольку агенты могут напрямую использовать только несколько базовых API (REST, Datasets, E-utilities), которые не предоставляют фильтрующую семантику, идентичную веб-странице.

Приведем конкретный пример:

На веб-странице «Место отбора проб — Африка» — это флажок, за которым может стоять необходимость согласования метаданных десятков стран, а также обработка записей с неоднородным написанием этих полей; условие, такое как «содержит поверхностный гликопротеин», нельзя определить только по последовательности — необходимо загрузить и сравнить аннотации генов/белков для каждой записи из GenBank.

Эти скрытые шаги выполняет веб-сайт, но исходный API не делает этого за вас.

Таким образом, агенту приходится самостоятельно «угадывать», как воссоздать эту логику. Если что-то пропущено, расчеты будут неполными (например, будет пропущена последовательность какой-либо африканской страны); если что-то сделано неверно, расчеты будут избыточными (условия фильтрации интерпретированы неправильно).

Это именно та причина, по которой Sonnet 4 отвечает на одни и те же вопросы 106, 15 и 5 по-разному: его логика фильтрации каждый раз восстанавливается по-разному.

Gget virus решает именно это: повторно реализовать скрытое поведение фильтрации в веб-интерфейсе в виде стабильной, воспроизводимой и прямо вызываемой машиной программной системы, чтобы агентам не приходилось каждый раз заново угадывать.

Ошибся в одной последовательности, начало пандемии сдвинулось на несколько недель

Если вы считаете, что «считать неправильно несколько последовательностей» не имеет значения, этот прямой эфир изменит ваше мнение.

В мае 2026 года в Демократической Республике Конго вспыхнула вспышка лихорадки Эбола типа Бандибу-Джо. 14 мая INRB в Киншасе проанализировал 13 образцов крови, а на следующий день подтвердил 8 случаев. К 29 мая ВОЗ сообщила, что количество подтвержденных и подозреваемых случаев превысило 1000, число смертей превысило 200.

Перед исследователями стоят три жизненно важных вопроса: насколько этот вирус отличается от предыдущих? Можно ли его обнаружить с помощью существующих диагностических методов? Эффективны ли существующие методы лечения?

Ответьте на эти вопросы, сравнив новую геномную последовательность с историческими геномами Эболы из NCBI Virus по одной. И первый шаг этого анализа — вручную кликать по веб-странице, вручную воспроизводить длинный список сложных фильтров и надеяться, что полученный набор данных полный и корректный.

Исследователи использовали предыдущий запрос по Эболе, чтобы заставить Sonnet 4 извлечь данные и построить филогенетическое дерево для оценки времени последнего общего предка (TMRCA). Это ключевой показатель для определения времени возникновения вспышки.

Данные, вручную проверенные, указывают на TMRCA январь 2014 года, что согласуется с предыдущими отчетами.

Три набора данных, полученных с Sonnet 4, содержат явные недостатки. Один из них перенес предполагаемое время возникновения с 2014 года обратно на 1922 год, искусственно добавив более девяноста лет. Оставшийся набор выглядит правдоподобно, но пропустил последовательность Гвинеи и тайно сместил время возникновения на апрель 2014 года, тем самым изменив хронологию.

Филогенетическое дерево зайерского эбола: верхний левый — ручная коррекция данных, запуски 1–3 — результаты поиска Sonnet 4. Красные пунктирные линии обозначают TMRCA, серый цвет — отсутствующая или неверная информация о странах.

То же самое относится к анализу антителотерапии. Исследователи хотели проверить, не происходило ли ранее мутаций в сайтах, на которые нацелены две антителотерапии против Эболы — мафтивимаб и MBP134, чтобы определить, успевают ли терапии за эволюцией вируса. В результате Sonnet 4 три раза выдал три совершенно разных картины мутаций.

Распределение мутаций гликопротеина Эбола зайерского типа: чем глубже красный, тем выше частота; сферы обозначают сайты связывания антител maftivimab и MBP134. Слева — искусственно откорректированные данные; результаты трех поисков Sonnet 4 (запуск 1–3) различаются.

Модели сбоев очевидны: если остановиться посреди увеличения набора результатов, некоторые данные будут пропущены; если неправильно применить фильтры, данных станет слишком много. Записи таких вирусов, как грипп A и ВИЧ-1, содержат огромное количество данных и имеют наибольшее отклонение. Как только количество параллельных фильтров превышает три-четыре, производительность резко падает.

Сделать ошибку с уверенностью — это самый страшный вид ошибки в науке.

Прокопать машинную туннель для старого города

Как это исправить?

Исследователи Anthropic и NCBI совместно создали что-то под названием gget virus.

Это не еще один модный «AI-плагин», а детерминированный слой поиска. По сути, он переводит фильтрующие функции веб-интерфейса NCBI Virus в воспроизводимую программную систему.

Технически он координирует несколько нижележащих систем — REST, Datasets и E-utilities, автоматически определяя, какие фильтры можно применить через API, а какие необходимо проверять локально. Он обрабатывает пакетный запрос данных, обеспечивая полное извлечение больших наборов результатов без их обрезки посередине.

Он загружает вирусные нуклеотидные последовательности и связанные метаданные из системы INSDC (NCBI, ENA, DDBJ), выводя данные в форматах, понятных как людям, так и машинам: FASTA, CSV, JSONL, а также предоставляет подробные журналы, объясняющие, как именно был получен результат. Для частых запросов он сокращает объем передаваемых данных более чем на 98%.

Эффект мгновенный.

После подключения gget virus точность всех протестированных систем выросла выше 90,0%, GPT-5.5 достиг 99,7%. Случайные колебания между запусками практически исчезли, стабильность повысилась до 0,92–1,00.

Самое приятное то, что разрыв между моделями также значительно сократился.

Точность поиска агентов на базе VirBench: после подключения gget virus (темный) все показатели превысили 90%, самый правый — gget virus в одиночном режиме.

После добавления слоя инструментов с определенностью, ваш выбор модели становится менее важным.

Это действительно то, на что стоит обратить внимание.

Построение надежного набора данных не должно зависеть от того, можете ли вы позволить себе самые новые и дорогие модели, или от того, случайно ли вы знаете, какая модель лучше всего подходит для какой базы данных. Дешевые модели в сочетании с правильными инструментами также работают стабильно.

Еще один интересный деталь: за 360 запусков GPT-5.5 самостоятельно обнаружил и использовал gget virus без каких-либо подсказок — и именно в этот раз он единственный раз правильно ответил на этот вопрос.

Ценность инструмента была подтверждена самой моделью с помощью голосования.

Настоящий ключ к победе — переход от модели к фундаменту

Расширьте свой взгляд — это дело касается не только вируса.

Тот же трение возникает в каждой среде, созданной «для людей, а не для агентов».

Несколько месяцев назад Карпати говорил о программировании в эпоху ИИ, жалуясь, что, создавая небольшое веб-приложение с помощью vibe coding, на его запуск (вход в систему, оплата, развертывание) ушло целую неделю, потраченную на клики в браузере. Его вывод: «Написание кода — это самая простая часть».

Слайды выступления Карпати «Docs for people»: документация по настройке сервисов, таких как Vercel и Clerk, полностью предназначена для людей — «нажмите здесь, заполните там» — и не может быть напрямую использована LLM.

Биологи, услышав жалобы Карпати, возможно, сильно с ним сопереживают: эту боль они, возможно, терпели много лет.

Gget virus не является единственным случаем; аналогичные «контекстные движки» создаются также такими биомедицинскими агентами, как ToolUniverse, Robin, Biomni и другими.

Проблема заключается в том, на каком уровне следует размещать определенность и как это правильно организовать.

Конечно, некоторые спросят: если прогресс моделей происходит так быстро, что однажды агенты станут настолько мощными, что смогут самостоятельно пройти через хаотичные порталы, синхронизировать ID, правильно перелистывать страницы и самостоятельно восстанавливаться после ошибок, не исчезнут ли такие «леса» как gget virus мгновенно?

Возможно. Но ответ Anthropic: даже если агент способен это сделать, это не означает, что ему следует каждый раз заново изобретать всё с нуля.

Модель, способная самостоятельно пройти через этот запутанный процесс извлечения данных, может быть слишком дорогой, слишком медленной, слишком сложной для аудита и слишком ненадежной, чтобы поддерживать повседневные научные исследования.

Более того, даже если скелеты в конечном итоге устареют, уроки биологических баз данных остаются в силе: с сегодняшнего дня следует рассматривать агентов как масштабируемых пользователей и проектировать их с учетом массового использования с самого начала.

На поверхности этот конкурс — кто из моделей умнее. На более глубоком уровне — кто имеет более подходящую основу для бега машин.

Мы хотим, чтобы модель безгранично генерировала гипотезы и проектировала эксперименты. Но тот нижний слой — идентификаторы генов, схема данных, логика поиска, система координат, соглашения по метаданным — должен быть абсолютно надежным и скучным.

Кривая модели продолжает расти.

Но настоящим ключом к победе в этом цикле, возможно, не являются облачные крупные модели, а та нижняя система данных, которую никто не хочет обслуживать, но от которой зависит успех или провал.

Клауд ошибочно определил происхождение вируса на 90 лет из-за ограничений веб-интерфейса

Город, построенный для повозок, не подходит для автомобилей.

Ошибся в одной последовательности, начало пандемии сдвинулось на несколько недель

Прокопать машинную туннель для старого города

Настоящий ключ к победе — переход от модели к фундаменту