Grok 4.20 Beta Mencapai Akurasi 97% pada τ²-Bench, Berperingkat Kedua

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Grok 4.20 Beta mencapai akurasi 97% di τ²-Bench, menempati posisi kedua. Uji coba ini, berbasis τ-bench Sierra, menilai keterampilan menjawab pertanyaan dan navigasi. Aset risk-on melihat minat baru di tengah kemajuan AI. Regulasi CFT tetap menjadi fokus utama seiring kemajuan teknologi. (Sumber: InFoQ)

Berita ME, 5 April (UTC+8), baru-baru ini, versi beta Grok 4.20 mencapai akurasi 97% dalam evaluasi τ²-Bench, menempati peringkat kedua. τ²-Bench adalah evaluasi yang dibangun berdasarkan kerangka kerja τ-bench asli Sierra, yang dikenal ketat. Evaluasi ini tidak hanya menguji apakah AI dapat menjawab pertanyaan, tetapi juga apakah agen dapat berhasil menyelesaikan tugas navigasi. (Sumber: InFoQ)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.