OpenAI lanza LifeSciBench para evaluar sistemas de IA en investigación científica real

iconTechFlow
Compartir
AI summary iconResumen

OpenAI lanza LifeSciBench, un nuevo benchmark de evaluación diseñado para medir la capacidad de los sistemas de IA en escenarios de investigación real. LifeSciBench se basa en 750 tareas redactadas por expertos, que cubren 7 flujos de trabajo de investigación y 7 áreas biológicas, y las tareas provienen de 173 investigadores con doctorado y experiencia en biotecnología o la industria farmacéutica. Este benchmark enfatiza la evaluación de habilidades científicas complejas, como la integración de evidencia, diseño experimental, análisis de datos, razonamiento científico y comunicación científica, en lugar de preguntas factuales aisladas. Más del 79% de las tareas incluyen razonamiento multietapa, con un promedio de aproximadamente 4 pasos de razonamiento por pregunta, y contienen 1.062 archivos de datos reales relacionados con la investigación (como artículos, gráficos, datos de secuencias y archivos estructurales, entre otros).

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.