OpenAI meluncurkan benchmark evaluasi baru, LifeSciBench, yang dirancang untuk mengukur kemampuan sistem AI dalam skenario penelitian nyata. LifeSciBench didasarkan pada 750 tugas yang disusun oleh para ahli, mencakup 7 alur kerja penelitian dan 7 bidang biologi, dengan tugas-tugas tersebut berasal dari 173 peneliti yang memiliki latar belakang doktor dan pengalaman di industri bioteknologi atau farmasi. Benchmark ini menekankan penilaian kemampuan penelitian kompleks, termasuk integrasi bukti, desain eksperimen, analisis data, penalaran ilmiah, dan komunikasi ilmiah, bukan hanya pertanyaan fakta tunggal. Lebih dari 79% tugas mencakup penalaran multi-langkah, dengan rata-rata setiap soal memerlukan sekitar 4 langkah penalaran, serta menyertakan 1.062 lampiran data terkait penelitian nyata (seperti makalah, grafik, data sekuens, dan file struktur).
OpenAI Meluncurkan LifeSciBench untuk Mengevaluasi Sistem AI dalam Riset Ilmiah Nyata
TechFlowBagikan
OpenAI telah meluncurkan LifeSciBench, benchmark baru untuk mengevaluasi sistem AI dalam penelitian ilmiah nyata. Alat ini mencakup 750 tugas yang dirancang oleh para ahli di tujuh bidang biologi, dengan kontribusi dari 173 peneliti berlevel PhD. Alat ini berfokus pada keterampilan kompleks seperti desain eksperimen dan analisis data, dengan 79% tugas memerlukan penalaran multi-langkah. Berita tentang aset dunia nyata (RWA) menyoroti penyertaan 1.062 file data ilmiah. Pengamat berita AI + crypto mungkin memperhatikan semakin meningkatnya persilangan antara AI dan alat penelitian spesialis.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.