Отсутствие машинного интерфейса для биологических научных данных ограничивает точность ИИ; добавление слоя инструментов может значительно повысить её.Автор статьи, источник: НовыеЗнания
[Введение] Ведущие ИИ-системы для программирования стремительно развиваются, но в области биологии они часто ошибаются — не потому, что модели недостаточно умны, а потому, что научные базы данных до сих пор созданы исключительно для человеческого клика мышью.
Самая мощная модель проиграла там, где не должна была проиграть: в счете?
Недавно Anthropic опубликовала научный блог под названием «Paving the way for agents in biology», в котором одна группа цифр вызывает леденящий холод по спине.

https://www.anthropic.com/research/agents-in-biology
Исследователи поручили нескольким самым мощным современным научным агентам (Claude, GPT, Biomni, Edison Analysis) выполнить задачу, которая кажется совершенно простой: точно подсчитать количество вирусных последовательностей в базе данных NCBI Virus, соответствующих заданным критериям.
В результате ни один из них не смог стабильно давать правильные ответы.
Еще более абсурдно то, что при одном и том же вопросе, одной и той же модели и одном и том же промпте ответы могут отличаться в десятки раз.
Claude Sonnet 4 при поиске последовательности вируса Эбола вернул сначала 106 результатов, затем 15, затем 5. Правильный ответ — 266.Разве ИИ действительно не может заниматься биологией?
За этим скрывается печальная правда: в научной сфере настоящим слабым местом агентов является не рассуждение, а то, что у них вообще нет стабильного, воспроизводимого и машинно-осуществимого пути для точного извлечения данных.
Без специализированного слоя поиска средняя точность различных систем варьируется от 16,9% до 91,3%. Даже если новые модели показывают улучшения, оставшиеся ошибки остаются критичными: поскольку порог прохождения для таких задач фактически составляет 100%.
Одна пропущенная запись может сделать так, что диагностический реагент будет казаться охватывающим все распространенные штаммы, или сдвинуть дату начала вспышки на несколько недель вперед.
Тогда в чем именно проблема?
Город, построенный для повозок, не подходит для автомобилей.
Anthropic привела очень наглядную аналогию: использование агентов для работы с биологическими базами данных — это как вести машину через старый город, построенный до появления автомобилей.
Улицы могут быть элегантными и продуманными, но все они — узкие переулки и резкие повороты, спроектированные для конных повозок. Разрозненные базы данных, причудливые форматы файлов и одноразовые скрипты поиска — всё это часть этого старого города. Вы можете добавить дорожные знаки, организовать парковки, расширить пару улиц, но фундаментальная городская планировка изначально не была рассчитана на автомобили.
Мир программного обеспечения — совершенно противоположный. Это новый город, построенный для автомобилей: ровные асфальтовые дороги, четкие полосы движения, стандартизированные светофоры. Системы контроля версий, хорошо задокументированные API, менеджеры пакетов — весь комплекс инструментов, который позволяет вам быстро добраться от начала до конца, изначально создан для «автомобилей» (то есть агентов).
Таким образом, кодовые агенты делают огромные успехи, в то время как биологические агенты кружат на месте.
В области программного обеспечения предоставляются структурированные цифровые рабочие процессы и надежные интерфейсы: создание задачи на GitHub, генерация патча, запуск тестов и немедленная проверка. В биологической области представлены хрупкие, гетерогенные и зависящие от конкретных процессов инфраструктуры, с почти отсутствием простых, проверяемых и значимых сигналов вознаграждения.
Что касается NCBI Virus, сделайте это более явным. Это по сути веб-портал. Вы выбираете условия на веб-странице: хозяин — человек, место отбора — Африка, длина последовательности больше определённого значения, исключить лабораторные пассажи, и только тогда фоновая система переводит эти условия в запросы к нескольким базам данных (GenBank, RefSeq, система INSDC), после чего фильтрует и выводит вам результаты.

Главная страница портала NCBI Virus: для поиска вирусных последовательностей сначала необходимо выбрать параметры на веб-странице, ввести ключевые слова и применить фильтры — весь этот интерфейс разработан для людей, и его сложно напрямую использовать машинам.
Его логика фильтрации в большом объеме реализована на уровне веб-страницы и не предоставлена в виде чистого программного интерфейса.
Для человеческих вирусологов это всего лишь несколько кликов в браузере. Для машин (агентов) это настоящая катастрофа, поскольку агенты могут напрямую использовать только несколько базовых API (REST, Datasets, E-utilities), которые не предоставляют фильтрующую семантику, идентичную веб-странице.
Приведем конкретный пример:
На веб-странице «Место отбора проб — Африка» — это флажок, за которым может стоять необходимость согласования метаданных десятков стран, а также обработка записей с неоднородным написанием этих полей; условие, такое как «содержит поверхностный гликопротеин», нельзя определить только по последовательности — необходимо загрузить и сравнить аннотации генов/белков для каждой записи из GenBank.
Эти скрытые шаги выполняет веб-сайт, но исходный API не делает этого за вас.
Таким образом, агенту приходится самостоятельно «угадывать», как воссоздать эту логику. Если что-то пропущено, расчеты будут неполными (например, будет пропущена последовательность какой-либо африканской страны); если что-то сделано неверно, расчеты будут избыточными (условия фильтрации интерпретированы неправильно).
Это именно та причина, по которой Sonnet 4 отвечает на одни и те же вопросы 106, 15 и 5 по-разному: его логика фильтрации каждый раз восстанавливается по-разному.
Gget virus решает именно это: повторно реализовать скрытое поведение фильтрации в веб-интерфейсе в виде стабильной, воспроизводимой и прямо вызываемой машиной программной системы, чтобы агентам не приходилось каждый раз заново угадывать.
Ошибся в одной последовательности, начало пандемии сдвинулось на несколько недель
Если вы считаете, что «считать неправильно несколько последовательностей» не имеет значения, этот прямой эфир изменит ваше мнение.
В мае 2026 года в Демократической Республике Конго вспыхнула вспышка лихорадки Эбола типа Бандибу-Джо. 14 мая INRB в Киншасе проанализировал 13 образцов крови, а на следующий день подтвердил 8 случаев. К 29 мая ВОЗ сообщила, что количество подтвержденных и подозреваемых случаев превысило 1000, число смертей превысило 200.
Перед исследователями стоят три жизненно важных вопроса: насколько этот вирус отличается от предыдущих? Можно ли его обнаружить с помощью существующих диагностических методов? Эффективны ли существующие методы лечения?
Ответьте на эти вопросы, сравнив новую геномную последовательность с историческими геномами Эболы из NCBI Virus по одной. И первый шаг этого анализа — вручную кликать по веб-странице, вручную воспроизводить длинный список сложных фильтров и надеяться, что полученный набор данных полный и корректный.
Исследователи использовали предыдущий запрос по Эболе, чтобы заставить Sonnet 4 извлечь данные и построить филогенетическое дерево для оценки времени последнего общего предка (TMRCA). Это ключевой показатель для определения времени возникновения вспышки.
Данные, вручную проверенные, указывают на TMRCA январь 2014 года, что согласуется с предыдущими отчетами.
Три набора данных, полученных с Sonnet 4, содержат явные недостатки. Один из них перенес предполагаемое время возникновения с 2014 года обратно на 1922 год, искусственно добавив более девяноста лет. Оставшийся набор выглядит правдоподобно, но пропустил последовательность Гвинеи и тайно сместил время возникновения на апрель 2014 года, тем самым изменив хронологию.

Филогенетическое дерево зайерского эбола: верхний левый — ручная коррекция данных, запуски 1–3 — результаты поиска Sonnet 4. Красные пунктирные линии обозначают TMRCA, серый цвет — отсутствующая или неверная информация о странах.
То же самое относится к анализу антителотерапии. Исследователи хотели проверить, не происходило ли ранее мутаций в сайтах, на которые нацелены две антителотерапии против Эболы — мафтивимаб и MBP134, чтобы определить, успевают ли терапии за эволюцией вируса. В результате Sonnet 4 три раза выдал три совершенно разных картины мутаций.

Распределение мутаций гликопротеина Эбола зайерского типа: чем глубже красный, тем выше частота; сферы обозначают сайты связывания антител maftivimab и MBP134. Слева — искусственно откорректированные данные; результаты трех поисков Sonnet 4 (запуск 1–3) различаются.
Модели сбоев очевидны: если остановиться посреди увеличения набора результатов, некоторые данные будут пропущены; если неправильно применить фильтры, данных станет слишком много. Записи таких вирусов, как грипп A и ВИЧ-1, содержат огромное количество данных и имеют наибольшее отклонение. Как только количество параллельных фильтров превышает три-четыре, производительность резко падает.
Сделать ошибку с уверенностью — это самый страшный вид ошибки в науке.
Прокопать машинную туннель для старого города
Как это исправить?
Исследователи Anthropic и NCBI совместно создали что-то под названием gget virus.
Это не еще один модный «AI-плагин», а детерминированный слой поиска. По сути, он переводит фильтрующие функции веб-интерфейса NCBI Virus в воспроизводимую программную систему.
Технически он координирует несколько нижележащих систем — REST, Datasets и E-utilities, автоматически определяя, какие фильтры можно применить через API, а какие необходимо проверять локально. Он обрабатывает пакетный запрос данных, обеспечивая полное извлечение больших наборов результатов без их обрезки посередине.
Он загружает вирусные нуклеотидные последовательности и связанные метаданные из системы INSDC (NCBI, ENA, DDBJ), выводя данные в форматах, понятных как людям, так и машинам: FASTA, CSV, JSONL, а также предоставляет подробные журналы, объясняющие, как именно был получен результат. Для частых запросов он сокращает объем передаваемых данных более чем на 98%.
Эффект мгновенный.
После подключения gget virus точность всех протестированных систем выросла выше 90,0%, GPT-5.5 достиг 99,7%. Случайные колебания между запусками практически исчезли, стабильность повысилась до 0,92–1,00.
Самое приятное то, что разрыв между моделями также значительно сократился.

Точность поиска агентов на базе VirBench: после подключения gget virus (темный) все показатели превысили 90%, самый правый — gget virus в одиночном режиме.
После добавления слоя инструментов с определенностью, ваш выбор модели становится менее важным.
Это действительно то, на что стоит обратить внимание.
Построение надежного набора данных не должно зависеть от того, можете ли вы позволить себе самые новые и дорогие модели, или от того, случайно ли вы знаете, какая модель лучше всего подходит для какой базы данных. Дешевые модели в сочетании с правильными инструментами также работают стабильно.
Еще один интересный деталь: за 360 запусков GPT-5.5 самостоятельно обнаружил и использовал gget virus без каких-либо подсказок — и именно в этот раз он единственный раз правильно ответил на этот вопрос.
Ценность инструмента была подтверждена самой моделью с помощью голосования.
Настоящий ключ к победе — переход от модели к фундаменту
Расширьте свой взгляд — это дело касается не только вируса.
Тот же трение возникает в каждой среде, созданной «для людей, а не для агентов».
Несколько месяцев назад Карпати говорил о программировании в эпоху ИИ, жалуясь, что, создавая небольшое веб-приложение с помощью vibe coding, на его запуск (вход в систему, оплата, развертывание) ушло целую неделю, потраченную на клики в браузере. Его вывод: «Написание кода — это самая простая часть».

Слайды выступления Карпати «Docs for people»: документация по настройке сервисов, таких как Vercel и Clerk, полностью предназначена для людей — «нажмите здесь, заполните там» — и не может быть напрямую использована LLM.
Биологи, услышав жалобы Карпати, возможно, сильно с ним сопереживают: эту боль они, возможно, терпели много лет.
Gget virus не является единственным случаем; аналогичные «контекстные движки» создаются также такими биомедицинскими агентами, как ToolUniverse, Robin, Biomni и другими.
Проблема заключается в том, на каком уровне следует размещать определенность и как это правильно организовать.
Конечно, некоторые спросят: если прогресс моделей происходит так быстро, что однажды агенты станут настолько мощными, что смогут самостоятельно пройти через хаотичные порталы, синхронизировать ID, правильно перелистывать страницы и самостоятельно восстанавливаться после ошибок, не исчезнут ли такие «леса» как gget virus мгновенно?
Возможно. Но ответ Anthropic: даже если агент способен это сделать, это не означает, что ему следует каждый раз заново изобретать всё с нуля.
Модель, способная самостоятельно пройти через этот запутанный процесс извлечения данных, может быть слишком дорогой, слишком медленной, слишком сложной для аудита и слишком ненадежной, чтобы поддерживать повседневные научные исследования.
Более того, даже если скелеты в конечном итоге устареют, уроки биологических баз данных остаются в силе: с сегодняшнего дня следует рассматривать агентов как масштабируемых пользователей и проектировать их с учетом массового использования с самого начала.
На поверхности этот конкурс — кто из моделей умнее. На более глубоком уровне — кто имеет более подходящую основу для бега машин.
Мы хотим, чтобы модель безгранично генерировала гипотезы и проектировала эксперименты. Но тот нижний слой — идентификаторы генов, схема данных, логика поиска, система координат, соглашения по метаданным — должен быть абсолютно надежным и скучным.
Кривая модели продолжает расти.
Но настоящим ключом к победе в этом цикле, возможно, не являются облачные крупные модели, а та нижняя система данных, которую никто не хочет обслуживать, но от которой зависит успех или провал.
