Aliyun PAI membuka sumber model kecil AgenticQwen dengan latihan roda data ganda

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita di rantai dipaparkan pada 27 April (UTC+8) apabila pasukan PAI Alibaba membuka sumber AgenticQwen, model kecil untuk pemanggilan alat industri. Dibina di atas MetaEra, versi 8B dan 30B-A3B menggunakan kerangka kerja dual data flywheel untuk mengurangkan kos inferens. AgenticQwen-8B mendapat skor 47.4 pada TAU-2 dan BFCL-V4, melampaui Qwen3-8B (23.8) dan hampir menyamai Qwen3-235B (52.0). AgenticQwen-30B-A3B (3B parameter aktif) mendapat skor 50.2. Model ini kini berada dalam sistem pengeluaran, mencapai kelajuan inferens yang sepadan dengan model 235B. Pemantauan data inflasi dan tugas dunia nyata lain kini lebih cekap dengan rilis ini.

Pesan AIMPACT, 27 April (UTC+8), menurut pemantauan Beating, pasukan PAI Alibaba telah merilis dan mengopensumber model bahasa agen kecil yang direka khas untuk panggilan alat peringkat industri, AgenticQwen (mengandungi dua versi: 8B dan 30B-A3B). Model siri ini dilatih melalui kerangka pembelajaran penguatan inovatif 'roda data ganda', yang mampu mengurangkan kos inferens secara besar-besaran sambil mencapai kemampuan agen yang hampir setara dengan model besar berparameter seribu miliar. Mekanisme utamanya terletak pada kaedah latihan 'roda data ganda'. Data sintetik tradisional mudah mengalami homogenisasi, menyebabkan prestasi model mencapai batas; AgenticQwen memperkenalkan dua roda: roda inferens menghasilkan secara automatik varian yang lebih sukar daripada kesilapan model; roda agen pula memperluaskan alur kerja linear ringkas (seperti proses tempahan tiket sahaja) menjadi pokok tingkah laku cabang banyak yang mengandungi batasan, penolakan, dan syarat lawan, meniru skenario pengambilan keputusan kompleks sebenar. Penilaian menunjukkan bahawa AgenticQwen-8B mencapai skor purata 47.4 dalam tolok persekitaran alat sebenar (seperti TAU-2 dan BFCL-V4), jauh melebihi Qwen3-8B asas (23.8), dan hampir mendekati Qwen3-235B (52.0). AgenticQwen-30B-A3B (hanya mengaktifkan 3B parameter) mencapai skor 50.2. Model ini kini telah dideploy dalam sistem pengeluaran dalaman serupa Manus, secara ketara mengurangkan jurang dengan model 235B (masa inferens end-to-end lebih singkat), walaupun kertas kerja itu mengakui bahawa model kecil masih mempunyai had dalam tugas carian mendalam akibat panjang konteks asal 40K. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.