PinchBench Benchmark: Gemini 3 Flash memimpin model AI dengan kadar kejayaan 95.1% dalam tugas OpenClaw

KuCoinFlash

Masa Siaran:

Kongsi

Ringkasan

Liquidity dan pasaran kripto melihat tolok ukur baharu apabila Gemini 3 Flash memecahkan rekod ujian PinchBench dengan kadar kejayaan 95.1% dalam tugas OpenClaw. Minimax-m2.1 dan Kimi-k2.5 mengikuti pada 93.6% dan 93.4%. Claude Sonnet 4.5 dan GPT-4o mendapat skor 92.7% dan 85.2%. Ujian ini berfokus pada prestasi agen dunia nyata. Pengawal yang memantau kepatuhan CFT mungkin memantau metrik seperti ini untuk transparansi.

Odaily Planet Daily melaporkan, CISO SlowMist, 23pads, menulis di platform X bahawa ujian piawai PinchBench menilai prestasi model bahasa besar AI dalam tugas agen OpenClaw, dan menunjukkan bahawa Gemini 3 Flash mencapai kejayaan 95,1% dalam tugas OpenClaw, memimpin, manakala minimax-m2.1 dan kimi-k2.5 masing-masing berada di tempat kedua dan ketiga dengan 93,6% dan 93,4%. Claude Sonnet 4.5 berada pada 92,7%, manakala GPT-4o berada pada 85,2%.

Sumber:Tunjukkan artikel asal

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.