Claude calcula erróneamente el origen del virus en 90 años debido a limitaciones de la interfaz web

iconMetaEra
Compartir
AI summary iconResumen
Los datos de ciencias biológicas carecen de interfaces de máquina; una capa de procesamiento puede aumentar significativamente la precisión de la IA.

Autor y fuente del artículo: Nuevos智元

[Introducción] La codificación de IA de primer nivel avanza rápidamente, pero en el campo de la biología sigue cometiendo errores frecuentes; no es que los modelos no sean lo suficientemente inteligentes, sino que las bases de datos científicas aún se diseñaron únicamente para que los humanos hagan clic con el ratón.

El modelo más potente se derrumbó en el lugar menos adecuado: contando?

Recientemente, Anthropic publicó un blog científico titulado «Paving the way for agents in biology», en el que un conjunto de números resulta escalofriante.

https://www.anthropic.com/research/agents-in-biology

Los investigadores pidieron a los principales agentes de investigación actuales (Claude, GPT, Biomni, Edison Analysis) que realizaran una tarea que parece extremadamente sencilla: contar con precisión cuántas secuencias virales cumplen con los criterios en la base de datos NCBI Virus.

Como resultado, ninguno pudo responder correctamente de manera constante.

Lo más absurdo es que, con la misma pregunta, el mismo modelo y el mismo texto de instrucción, hacer la pregunta tres veces puede generar respuestas que difieren en decenas de veces.

Claude Sonnet 4 busca una secuencia del virus Ébola y devuelve 106 resultados la primera vez, 15 la segunda y 5 la tercera. La respuesta correcta es 266.

¿Es cierto que la IA no puede hacer biología?

Detrás de esto se esconde una verdad dolorosa: en el campo de la ciencia, la verdadera debilidad de los agentes no es el razonamiento, sino que simplemente no tienen un camino estable, reproducible y machine-readable para extraer datos con precisión.

Sin una capa de búsqueda dedicada, la precisión promedio de los sistemas varía desde un 16,9% hasta un 91,3%; incluso si los nuevos modelos muestran mejoras, los errores residuales siguen siendo mortales: porque la línea de aprobación para este tipo de tareas es, de hecho, del 100%.

Faltar un registro podría hacer que un reactivo de diagnóstico parezca cubrir todas las cepas circulantes, o hacer que el origen de un brote se calcule mal por varias semanas.

Entonces, ¿dónde está exactamente el problema?

Ciudad construida para carros, no apta para automóviles

Anthropic proporcionó una metáfora muy ilustrativa: usar agentes para ejecutar bases de datos biológicas es como conducir a través de una ciudad antigua construida antes de la aparición de automóviles.

Las calles pueden ser elegantes y detalladas, pero son callejones y curvas estrechas diseñados originalmente para carruajes. Las bases de datos dispersas, los formatos de archivo extravagantes y los scripts de búsqueda únicos forman parte de esta ciudad antigua. Puedes añadir señales de tráfico, crear algunos estacionamientos y ampliar unas pocas calles, pero la estructura urbana subyacente nunca fue diseñada para automóviles.

El mundo del software es lo contrario. Es una ciudad nueva construida para automóviles: carreteras de asfalto niveladas, carriles claramente marcados, semáforos estandarizados. Control de versiones, API bien documentada, gestores de paquetes: todo un sistema diseñado desde el inicio para llevarte directamente desde el punto de partida hasta el destino, preparado para el «automóvil» (es decir, el agente).

Entonces, los agentes de código avanzan rápidamente, mientras que los agentes biológicos dan vueltas en el mismo lugar.

El ámbito del software ofrece flujos de trabajo digitales estructurados e interfaces confiables: un issue de GitHub, generar un parche, ejecutar pruebas y validar inmediatamente. El ámbito biológico ofrece infraestructuras frágiles, heterogéneas y dependientes de procesos específicos, con casi ninguna señal de recompensa simple, verificable y significativa.

En cuanto a NCBI Virus, por favor hazlo más claro. Es esencialmente un portal web. En la página web, seleccionas condiciones: huésped humano, ubicación de muestreo en África, longitud de secuencia mayor que un cierto valor, excluir muestras pasadas por laboratorio; solo entonces el sistema trasero traduce estas condiciones en consultas a múltiples bases de datos subyacentes (GenBank, RefSeq, sistema INSDC) y filtra los resultados para mostrártelos.

Página principal del portal NCBI Virus: para buscar secuencias virales, primero debes seleccionar opciones en la página web, ingresar palabras clave y hacer clic en filtros; toda esta interacción está diseñada para humanos y es difícil de reutilizar directamente por máquinas.

Su lógica de filtrado masiva está implementada en la capa de la página web y no se ha expuesto como una interfaz de programa limpia.

Para los virólogos humanos, esto es solo cuestión de hacer unos clics en el navegador. Para las máquinas (agentes), esto es simplemente un desastre. Debido a que los agentes solo pueden invocar directamente algunas API básicas (REST, Datasets, E-utilities), y estas API no exponen la misma semántica de filtrado que la página web.

Por ejemplo:

En la página web, «Muestra procedente de África» es una casilla de verificación; detrás de esto, es posible que se necesite alinear campos de metadatos de decenas de países y procesar registros cuyos campos estén escritos de forma inconsistente. Para condiciones como «contiene glicoproteína de superficie», no se puede determinar solo con la secuencia; es necesario recuperar y comparar las anotaciones de genes/proteínas de cada registro en GenBank.

Estos pasos implícitos, la página web los realiza por ti, pero la API original no lo hace.

Entonces, el agente solo puede "adivinar" y volver a armar esta lógica por sí mismo. Si se le olvida un paso, calcula menos (omite la secuencia de algún país africano); si se equivoca, calcula más (interpreta mal las condiciones de filtrado).

Esta es precisamente la causa raíz de las tres respuestas del Soneto 4: cada vez que reconstruye la lógica de filtrado, no es completamente la misma.

Lo que gget virus busca resolver es precisamente esto: reimplementar el comportamiento de filtrado oculto en la interfaz web como un sistema programático estable, reproducible y directamente invocable por máquinas, para que los agentes no necesiten adivinarlo cada vez.

Error en una secuencia, el inicio de la pandemia se desplazó varias semanas

Si crees que "contar mal algunas secuencias" no es grave, esta transmisión en vivo cambiará tu opinión.

En mayo de 2026, se produjo un brote de ébola de tipo Bundeju en la República Democrática del Congo. El 14 de mayo, el INRB en Kinshasa analizó 13 muestras de sangre y al día siguiente confirmó ocho casos. Para el 29 de mayo, la OMS informó que los casos confirmados y sospechosos superaban los 1.000, con más de 200 muertes.

Ante el investigador se presentan tres preguntas cruciales: ¿En qué medida difiere este virus de los anteriores? ¿Aún se pueden detectar con los diagnósticos actuales? ¿Siguen siendo efectivos los tratamientos actuales?

Responda a esto: debe comparar uno a uno el nuevo genoma con los genomas históricos de Ébola en NCBI Virus. Y el primer paso de este análisis es precisamente hacer clic manualmente en la página web, reproducir manualmente una larga serie de condiciones de filtrado complejas, y luego rezar para que el conjunto de datos obtenido sea completo y correcto.

Los investigadores utilizaron la consulta anterior sobre Ébola para que Sonnet 4 recopilara datos y construyera un árbol filogenético, con el fin de estimar el «tiempo al antepasado común más reciente (TMRCA)». Este es un indicador clave para determinar cuándo surgió una epidemia.

El conjunto de datos revisado manualmente proporciona una TMRCA de enero de 2014, consistente con informes anteriores.

Y de los tres conjuntos de datos generados por Sonnet 4, dos presentan claramente incompletitudes. Uno de ellos retrotrajo la fecha de origen calculada de 2014 a 1922, añadiendo arbitrariamente más de noventa años. El restante parecía creíble, pero omitió la secuencia de Guinea y desplazó silenciosamente la fecha de origen a abril de 2014, reescribiendo así la línea temporal.

Árbol filogenético del Ébola de tipo Zaire: los datos manualmente refinados se encuentran en la esquina superior izquierda; las corridas 1 a 3 son los resultados de la búsqueda de Sonnet 4. La línea discontinua roja marca el TMRCA; el gris representa información faltante o incorrecta sobre el país.

Lo mismo ocurre con el análisis de la terapia con anticuerpos. Los investigadores querían ver si los sitios objetivo de las terapias con anticuerpos contra el Ébola, maftivimab y MBP134, habían experimentado mutaciones históricamente, para determinar si las terapias aún podrían seguir el ritmo de la evolución viral. Como resultado, Sonnet 4 produjo tres escenarios de mutación completamente diferentes en tres ejecuciones.

Distribución de mutaciones de la glicoproteína del Ébola del tipo Zaire, donde el rojo más oscuro indica mayor frecuencia; las esferas representan los sitios de unión de los anticuerpos maftivimab y MBP134. El más a la izquierda muestra datos manualmente refinados; los resultados de tres búsquedas con Sonnet 4 (Ejecución 1 a 3) son distintos.

Los modos de fallo son claros: detenerse a mitad de camino al ampliar el conjunto de resultados hace que se pierdan datos; usar condiciones de filtrado incorrectas hace que se sobrepasen los límites. Los registros de virus como la gripe A y el VIH-1 son masivos, y presentan el mayor sesgo. Cuando se superan tres o cuatro condiciones de filtrado en paralelo, el rendimiento se colapsa directamente.

Estar equivocado con convicción es el tipo de error más aterrador en la investigación científica.

Excavar un túnel dedicado para máquinas en la ciudad antigua

¿Entonces, cómo se arregla?

Los investigadores de Anthropic y el NCBI colaboraron para crear algo llamado gget virus.

No es otro plugin de IA elegante, sino una capa de recuperación determinista. En esencia, traduce el sistema de filtrado de la interfaz web de NCBI Virus a un sistema programático reproducible.

Técnicamente, coordina los sistemas subyacentes REST, Datasets y E-utilities, y determina automáticamente qué filtros se pueden procesar mediante la API y cuáles deben verificarse localmente. Maneja la obtención por lotes para asegurar que los conjuntos de resultados grandes se descarguen por completo, sin interrupciones.

Descarga secuencias de nucleótidos virales y metadatos asociados del sistema INSDC (NCBI, ENA, DDBJ), y genera formatos legibles tanto para humanos como para máquinas, como FASTA, CSV y JSONL, junto con registros detallados que explican cómo se calculó el resultado. Para consultas frecuentes, reduce el volumen de transmisión de datos en más del 98%.

Los efectos son inmediatos.

Tras conectar gget virus, la precisión de todos los sistemas evaluados superó el 90,0%, y GPT-5.5 alcanzó el 99,7%. Las fluctuaciones aleatorias entre ejecuciones casi desaparecieron, y la estabilidad aumentó de 0,92 a 1,00.

Lo mejor es que la brecha entre los modelos también se ha reducido significativamente.

Precisión de recuperación de los agentes en la benchmark VirBench: todos superan el 90% tras integrar gget virus (oscuro); el más a la derecha muestra gget virus ejecutándose por sí solo.

Después de agregar la capa de herramientas de certeza, no importa tanto qué modelo uses.

This is the real point to note.

La construcción de conjuntos de datos confiables no debería depender de si puedes permitirte el modelo más reciente y caro, ni de que conozcas casualmente qué modelo es el más adecuado para cada base de datos. Un modelo económico, combinado con las herramientas correctas, sigue siendo estable.

También hay un detalle interesante: en 360 ejecuciones, GPT-5.5 encontró y utilizó por sí mismo el gget virus sin ninguna indicación, y fue la única vez que respondió correctamente esa pregunta.

El valor de la herramienta lo ha votado el propio modelo con sus acciones.

El verdadero factor decisivo pasa del modelo a la base

Amplía tu perspectiva; esto va mucho más allá del virus.

El mismo roce ocurre en cada entorno diseñado «para humanos, no para agentes».

Hace varios meses, Karpathy habló sobre el software en la era de la IA, quejándose de que al hacer una pequeña aplicación web con su método de "vibe coding", realmente dedicó toda una semana a hacer clics en el navegador para implementarla (iniciar sesión, pagos, despliegue). Su conclusión fue: «Escribir código es la parte más sencilla.»

Diapositivas de la charla de Karpathy «Docs for people»: La documentación de configuración de servicios como Vercel y Clerk está completamente diseñada para humanos, con instrucciones del tipo «haz clic aquí, completa allí», y no se pueden invocar directamente por LLM.

Después de escuchar las quejas de Karpathy, los biólogos probablemente puedan identificarse mucho: este dolor, ellos podrían haber soportado durante muchos años.

gget virus no es un caso aislado; otros agentes biomédicos, como ToolUniverse, Robin y Biomni, también están construyendo este tipo de "motor de contexto".

El desafío consiste en determinar en qué capa colocar la certeza y cómo estructurarla.

Por supuesto, algunos también se preguntarán: si los modelos avanzan tan rápido, ¿qué pasa si algún día los agentes se vuelven lo suficientemente poderosos como para atravesar automáticamente puertas caóticas, alinearse con IDs, navegar correctamente entre páginas y autocorregirse? ¿No se volverán instantáneamente obsoletos herramientas como «gget virus»?

Posible. Pero la respuesta de Anthropic es: incluso si el agente puede hacerlo, no significa que siempre deba volver a inventarlo desde cero.

Un modelo que pueda navegar por este caótico proceso de obtención de datos por sí solo podría ser demasiado caro, demasiado lento, demasiado difícil de auditar y demasiado difícil de confiar, y no podría sostener la investigación diaria.

Además, incluso si el andamiaje eventualmente se volverá obsoleto, la lección para las bases de datos biológicas sigue siendo válida: desde ahora, hay que tratar a los agentes como usuarios a escala y diseñarlos desde el principio para llamadas masivas.

En la superficie, esta competencia es sobre qué modelo es más inteligente. Bajo esa capa, se trata de cuál tiene una base más adecuada para que la máquina corra.

Queremos que el modelo sea creativo y audaz al generar hipótesis y diseñar experimentos. Pero la capa inferior: identificadores genéticos, esquema de datos, lógica de recuperación, sistema de coordenadas, convenciones de metadatos, debe ser absolutamente fiable y aburrida.

La curva del modelo sigue subiendo.

Pero el verdadero factor decisivo de esta ronda quizás no esté en los grandes modelos en la nube, sino en la capa inferior de infraestructura de datos, que nadie quiere reparar, pero que determina el éxito o el fracaso.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.