PinchBench Benchmark: Gemini 3 Flash Memimpin Model AI dengan Tingkat Keberhasilan 95,1% dalam Tugas OpenClaw

KuCoinFlash

Waktu Rilis:

Ringkasan

Liquidity dan pasar kripto menyaksikan tolok ukur baru saat Gemini 3 Flash memuncaki tes PinchBench dengan tingkat keberhasilan 95,1% dalam tugas OpenClaw. Minimax-m2.1 dan Kimi-k2.5 menyusul masing-masing dengan 93,6% dan 93,4%. Claude Sonnet 4.5 dan GPT-4o mendapatkan skor 92,7% dan 85,2%. Tes ini berfokus pada kinerja agen di dunia nyata. Regulator yang memantau kepatuhan CFT mungkin melacak metrik semacam ini untuk transparansi.

Odaily Planet Daily melaporkan, CISO SlowMist, 23pads, menulis di platform X bahwa pengujian benchmark PinchBench mengevaluasi kinerja model bahasa besar AI dalam tugas agen OpenClaw, dengan hasil menunjukkan bahwa Gemini 3 Flash memimpin dengan tingkat keberhasilan 95,1% dalam menyelesaikan tugas OpenClaw, sedangkan minimax-m2.1 dan kimi-k2.5 masing-masing berada di posisi kedua dan ketiga dengan 93,6% dan 93,4%. Claude Sonnet 4.5 berada di 92,7%, sedangkan GPT-4o berada di 85,2%.

Sumber:Tampilkan versi asli

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.