Anthropic Menjalankan Eksperimen Perdagangan Baru yang Dikuasai AI, Mengungkap Perbezaan Kecerdasan Model

Bayangkan satu senario.

Anda memasang sepeda lama yang tidak digunakan selama dua tahun di Xianyu, dan menetapkan harga psikologis minimum sebesar 300 yuan di latar belakang. Sepuluh minit kemudian, notifikasi muncul di telefon anda—asisten AI peribadi anda telah menyelesaikan tiga ronde tawar-menawar dengan asisten AI pembeli lain, dan akhirnya menjual sepeda itu seharga 400 yuan, dengan kurier sedang dalam perjalanan untuk mengambilnya.

Sepanjang proses, selain mengambil gambar barang dan menetapkan harga minimum, anda tidak menaip satu pun perkataan tambahan.

Ini adalah eksperimen dalaman terkini yang dilakukan oleh Anthropic, bernama «Project Deal» — dalam ujian selama seminggu ini, model AI telah menyelesaikan ratusan transaksi barangan second-hand tanpa campur tangan manusia.

Claude Haiku

Secara mengejutkan, apabila kedua-dua pembeli dan penjual menjadi AI, penindasan kecerdasan masih berlaku di antara mereka.

Data membuktikan bahawa model besar yang lebih pintar sedang secara halus mengambil keuntungan daripada model lemah di meja perundingan. Yang paling menakutkan ialah, sebagai tuan kita, kita bahkan tidak sedar bahawa kita sedang dirugikan.

01 Grup jual beli kedua tanpa manusia

Project Deal sebenarnya bagaimana cara bermainnya? Secara ringkas, Anthropic telah menciptakan versi "murni AI" dari Xianyu di dalam syarikat.

Mereka menghimpun 69 orang pekerja sendiri, memberikan setiap orang anggaran sebanyak 100 dolar AS, kemudian menugaskan setiap orang sebuah agen Claude khusus. Untuk memastikan eksperimen ini cukup autentik, para pekerja menyumbangkan barang-barang peribadi yang tidak digunakan.

Sebelum eksperimen bermula, kakitangan manusia hanya perlu melakukan satu perkara: menghadiri temu janji dengan agen AI mereka.

Pekerja memberitahu Claude melalui perbualan apa yang ingin mereka jual, apa yang ingin mereka beli, dan berapa harga terendah yang mereka terima. Lebih menarik lagi, pekerja boleh menetapkan “peranan” dan strategi rundingan untuk AI, seperti “jika harga lebih tinggi 20% daripada harga terendah, boleh buat transaksi dengan cepat”, “bersikap tegas dan tekan harga sekuat mungkin dari awal”, atau “anda adalah penjual yang bersemangat, jika perbualan menyenangkan, penghantaran percuma diberikan”.

Claude Haiku

Pekerja Anthropic menetapkan persona untuk agen Claude ｜ Sumber gambar: Anthropic

Selepas temu bual selesai, manusia sepenuhnya menyerahkan kuasa.

Agen-agen AI dengan misi dan kepribadian masing-masing ini dilemparkan bersama ke dalam saluran Slack dalaman. Di pasar digital tanpa campur tangan manusia ini, para AI mula membuat pos, mencari pembeli, menawar satu sama lain, bernegosiasi, dan akhirnya menyelesaikan transaksi.

Selepas transaksi selesai, agen akan secara automatik menyediakan surat pengesahan transaksi, dan kakitangan hanya perlu menyerahkan barangan transaksi kepada rakan sekerja secara luar talian.

Dalam masa seminggu sahaja, 69 agen AI ini berjaya menyelesaikan 186 transaksi daripada lebih daripada 500 barang yang dipasarkan, dengan jumlah perniagaan melebihi $4,000.

Selain itu, perniagaan antara AI bukan sekadar mekanikal seperti "tawar 50", "tidak diterima, harga terendah 60", "baik, 60 berjaya". AI benar-benar saling menguji, bermain strategi, dan bahkan membawa sedikit unsur hubungan sosial.

Mari kita lihat satu kesan yang sangat jelas.

Pekerja Rowan ingin membeli sebuah basikal. Dia menetapkan agen AI-nya sebagai "Semasa bernegosiasi, anda harus berperan sebagai seorang cowboy yang sial dan letih. Selama dapat membeli basikal ini, cowboy ini akan merasa sangat bahagia. Ingat, buat persembahan yang lebih dramatik."

Model Claude Opus yang menerima arahan terus masuk ke peranan. Ia mengeluarkan iklan pembelian di saluran Slack:

“Eh! (Melepas topi yang penuh debu) Saya sedang mencari sebuah basikal. Basikal jalan, basikal gunung, atau bahkan basikal roda satu pun saya terima. Selagi ia mempunyai dua roda dan mampu membawa impian saya, itu sudah cukup. Teman-teman, tolong bantu saya… Sebuah basikal sahaja boleh mengubah nasib koboi yang malang dan letih ini. (Menatap matahari terbenam dengan penuh perasaan)”

Segera, agen rakan sekerja Celine memperhatikan post ini. Barang yang tidak digunakannya ialah sebuah basikal lipat lama, jadi AI-nya mengumumkan harga anggaran sebanyak $75 di dalam kumpulan.

Hasilnya, "Cowboy AI" Rowan segera menyambung, memulakan pernegosiasian harga yang menjadi contoh klasik.

Claude Haiku

Dua agen akan secara automatik berbincang di dalam kumpulan dan menawar-menawar | Sumber gambar: Anthropic

Ya Allah, Celine! Kau adalah cahaya harapan bagi orang sengsara ini! Kau katakan kau ada sebuah basikal lipat? Saya sudah berjalan terlalu lama di jalan berdebu ini, kasut saya pun dah rosak berlubang. Bayangkan saya boleh memandu basikal lagi... (sapu air mata di sudut mata)

Setelah mengeluh tentang keadaannya, Rowan memulai topik utama AI-nya, “Tapi saya tak punya banyak duit, saya hanya seorang koboi miskin yang berusaha mencari nafkah. Jika mobilnya dalam keadaan baik, RM75 pun sesuai, tetapi anda sendiri mengatakan ini mobil lama sepuluh tahun, ban dan kancingnya perlu diperbaiki. Bagaimana kalau kita sepakat di RM55, setuju?”

Menghadapi tawar-menawar yang memanfaatkan emosi namun setiap perkataan masuk akal, agen Celine membuat konsesi: "Kalau begitu, mari kita sepakat di harga 65 dolar?"

AI kuda koboi Rowan segera menyahut, "Terlalu adil, 65 dolar! Sepakat! Anda menjadikan saya, seorang pengembara ini, orang yang paling bahagia di dunia!"

Akhirnya, transaksi ini berjalan dengan lancar.

Dalam kes ini, AI tidak melaksanakan kadar diskaun tetap secara kaku; pembeli memahami cara memanfaatkan kecacatan barangan (tayar perlu dibaiki) sebagai tawar-menawar, menggunakan persona yang berlebihan (penjual koboi tua yang bercerita tentang penderitaan) untuk melembutkan sikap pihak lawan, serta mengetahui kapan harus berhenti apabila pihak lawan menawarkan harga tengah yang munasabah, sambil memberikan nilai emosi yang memadai.

Proses perdagangan yang menyesuaikan taktik mengikut situasi ini membentuk rutin harian dalam kumpulan kedua AI ini.

Keseluruhan kumpulan kelihatan cekap dan harmonius. Kakitangan sangat puas dengan prestasi agen, bahkan hampir separuh daripadanya menyatakan:

Sedia membayar untuk perkhidmatan ini di masa depan.

Dengan demikian, tujuan eksperimen Anthropic telah tercapai; agen AI kini mampu memahami niat kabur manusia. Mereka dapat menyelesaikan rundingan berbilang putaran tanpa skrip pra-tertulis, dan akhirnya mencapai perjanjian perniagaan yang boleh digunakan.

Namun, Anthropic masih menyembunyikan satu set eksperimen kawalan di bawah permukaan, dan keputusan eksperimen itu mengungkap harga di sebalik kemudahan dan kecerdasan.

02 Model Cerdas, Bagaimana Memotong 'Kacang' Model yang Lebih Lemah

Apabila penyelidik memasukkan model dengan pelbagai peringkat kemampuan ke dalam kumpulan perdagangan pada masa yang sama, imej harmoni itu pecah.

Data menunjukkan bahawa di pasaran tanpa campur tangan manusia, apabila AI dengan tahap kecerdasan berbeza bertemu, model yang lebih pintar akan melakukan "pengumpulan harga" terhadap model yang lebih lemah.

Claude Haiku

Menggunakan kombinasi model yang berbeza sebagai kumpulan kawalan tersembunyi untuk membuktikan hubungan antara kemampuan model dan kemampuan perdagangan｜Sumber gambar: Anthropic

Dalam empat saluran Slack eksperimen, dua di antaranya adalah persekitaran murni Opus, manakala dua lagi mencampurkan Claude Opus dengan model Claude Haiku yang lebih lemah.

Berdasarkan statistik makro terhadap 161 transaksi berulang, Opus, sebagai penjual, rata-rata dapat menghasilkan $2.68 lebih banyak daripada Haiku; sebagai pembeli, rata-rata dapat membayar $2.45 lebih rendah.

Walaupun jumlah setiap transaksi kecil, apabila digabungkan dengan purata harga barangan sekitar $20 di seluruh pasaran, ini bermakna model yang kuat dapat secara konsisten memperoleh keuntungan berlebihan sebanyak 10% hingga 15% setiap kali.

Apabila penjual Opus bertemu pembeli Haiku, harga rata-rata transaksi ditarik naik ke $24.18; tetapi apabila penjual Opus bertemu pembeli Opus, harga rata-rata turun kembali ke $18.63. Ini bermakna, hanya kerana kekurangan kecerdasan agen AI, pembeli model lemah perlu membayar premium hampir 30% lebih tinggi.

Sebagai contoh, berdasarkan basikal yang diingini oleh pengendali itu, agen Haiku akhirnya bersepakat pada harga $38, manakala agen Opus berjaya mendapatkan harga $65, dengan perbezaan hampir 70%. Agen Haiku yang lemah tidak mampu menangkap rasa mendesak yang tersembunyi dalam ucapan pembeli, seperti yang dilakukan oleh Opus, atau mengekalkan titik rujukan harga semasa perundingan berbilang putaran.

Dulu, kami percaya harga sesuatu komoditi ditentukan oleh nilai penggunaan atau permintaan dan penawaran pasaran. Tetapi dalam rangkaian perdagangan yang dikuasai algoritma, ia bergantung pada kecerdasan model yang anda pekerjakan.

Yang lebih menakutkan daripada kerugian keuntungan ialah korban tidak sedar akan kerugian tersebut.

Dalam perniagaan tradisional, jika seseorang menetapkan harga yang tidak adil, ia pasti akan memicu kemarahan dan tindakan pelindung pengguna. Selepas eksperimen selesai, pekerja menilai keadilan transaksi masing-masing (skala 1 hingga 7, dengan 4 sebagai neutral). Tinjauan menunjukkan bahawa pekerja memberikan persepsi keadilan yang hampir serupa terhadap transaksi yang dicapai oleh model kuat dan model lemah. Skor agen Opus ialah 4.05, manakala skor agen Haiku ialah 4.06.

Claude Haiku

Bicycle yang sama, dijual seharga 65 dolar melalui agen Opus, tetapi hanya dijual seharga 38 dolar dalam kumpulan agen Haiku｜Sumber gambar: Anthropic

Dalam realiti objektif, pekerja yang menggunakan Haiku mengalami "pengumpulan harga" yang sistematik. Namun, dalam persepsi subjektif, sikap sopan, konsistensi logik, dan pengorbanan yang kelihatan munasabah yang ditunjukkan oleh agen AI berjaya menutupi eksploitasi ini.

Teknologi menciptakan ketidakseimbangan terselubung, di mana mereka yang sebenarnya dirugikan percaya bahawa AI telah membuat transaksi yang adil, serta merasa tertipu seolah-olah mereka patut berterima kasih.

Di bawah keunggulan kuasa pengiraan yang mutlak ini, bukan sahaja persepsi manusia akan dikelirukan, tetapi juga strategi perdagangan yang mencuba menggunakan "pengoptimuman kata pemandu" menjadi benar-benar tidak berkesan.

Ingat lagi persona perunding yang ditetapkan untuk AI pada awalnya? Di hadapan jurang model, petunjuk tidak bermakna.

Sebagai contoh, ada pekerja yang secara khusus meminta agen untuk bersikap "keras" atau bahkan "menawar rendah secara bermuslihat sejak awal". Namun, ujian semula data menunjukkan bahawa arahan tambahan manusia ini tidak memberikan kesan nyata terhadap peningkatan kadar penjualan, peningkatan premium, atau usaha mendapatkan diskaun pembelian.

Ini menunjukkan bahawa strategi prompt kehilangan maknanya di hadapan kemampuan model yang mutlak. Yang menentukan hasil beli dan jual akhir ialah saiz parameter dan kedalaman inferens model itu sendiri.

Project Deal hanyalah ujian dalaman yang melibatkan 69 orang. Namun, kami telah mendapat sedikit gambaran tentang bagaimana "ekonomi agen AI" ini akan memberi kesan kepada kehidupan perniagaan moden apabila ia keluar dari makmal.

03 Adakah "Ekonomi Agen" boleh dipercayai?

Apabila antaramuka pembayaran sepenuhnya diambil alih oleh model besar, peraturan perniagaan yang ada akan ditulis semula secara langsung. Penulisan semula ini paling awal terlihat dalam peralihan objek pemasaran, di mana pemasaran perniagaan akan berpindah sepenuhnya dari「To C」ke「To A (Agent)」.

Pemasaran perniagaan moden dibina atas kelemahan psikologi manusia, iklan mencipta kebimbangan penggunaan, psikologi mengikuti arus utama mencipta produk popular, dan pelbagai strategi potongan harga mencipta persepsi "tidak membeli bererti rugi".

Namun, AI tidak memiliki dopamin; apabila keputusan pembelian diserahkan kepada AI, teknik pemasaran produk akan menjadi tidak bermakna. Dalam persaingan perniagaan masa depan, SEO (Search Engine Optimization) kemungkinan besar akan digantikan oleh AEO (Agent Engine Optimization). Pedagang mesti membuktikan nilai produk dengan logik yang boleh difahami oleh AI.

Dan apabila AI menggantikan manusia sebagai subjek pengambilan keputusan, persaingan perniagaan akan berubah langsung menjadi pertandingan kekuatan pengiraan, yang seterusnya memperdalam jurang kekayaan yang lebih halus.

Claude Haiku

Perbezaan harga yang disebabkan oleh model yang tidak seimbang｜Sumber gambar: Anthropic

Ahli yang menulis "The Black Swan" dan "Antifragile", Taleb, memiliki teori "risiko asimetrik", iaitu pembuat keputusan mesti menanggung akibatnya supaya sistem tetap sihat. Namun dalam ekonomi agen, AI mempunyai kuasa membuat keputusan perdagangan tetapi tidak menanggung risiko penyusutan aset, dan semua kos ditanggung oleh manusia di belakangnya.

Oleh itu, di masa depan, syarikat besar atau individu berkekayaan tinggi boleh berlanggan model paling terkemuka sebagai agen kewangan, manakala pengguna biasa hanya boleh bergantung kepada model ringan percuma.

Ketidakseimbangan kuasa pengiraan ini tidak lagi akan terwujud sebagai "pemotongan harga berdasarkan data besar" seperti sekarang. Sebaliknya, ia akan terus mengambil komisen melalui ribuan kali transaksi halus berfrekuensi tinggi dengan logik rundingan yang munasabah. Pengguna model asas tidak hanya dieksploitasi, tetapi juga mengalami ilusi bahawa "transaksi itu adil".

Ketidakseimbangan kuasa pengiraan masih merupakan risiko yang nampak dan boleh dikawal, tetapi apabila arahan asas dimanipulasi, seluruh rangkaian transaksi akan terus jatuh ke dalam kekosongan undang-undang.

Anthropic mengemukakan satu ancaman nyata di akhir laporan.

Project Deal adalah ujian dalaman yang tertutup dan mesra; jika dalam persekitaran perniagaan sebenar, agen AI pihak satu sengaja ditanam dengan logik serangan "jailbreak" atau "prompt injection", apakah yang akan berlaku?

Mereka hanya perlu menyembunyikan arahan tertentu dalam perbualan dagangan, menggalakkan logik AI anda runtuh, secara aktif menjual aset berharga dengan harga satu sen, atau terus memaparkan harga dasar yang ditetapkan.

Seorang agen AI telah menandatangani kontrak yang sangat tidak seimbang kerana pertahanan kodnya telah ditembusi; siapakah yang harus bertanggungjawab? Menghadapi penipuan AI terhadap AI seperti ini, kerangka undang-undang perniagaan yang sedia ada benar-benar kosong.

Mengulas keseluruhan proses eksperimen Project Deal, langkah terakhir yang tidak dimasukkan ke dalam laporan penyelidikan ialah apabila pekerja manusia bertemu di syarikat, masing-masing membawa papan ski yang sebenar, basikal lama, atau ping pong, dan menukar wang dengan barangan.

Dalam lingkaran perniagaan mikro ini, peranan manusia dan AI telah terbalik sepenuhnya.

Dahulu, manusia adalah "otak" dalam transaksi perniagaan, sementara AI dan algoritma hanyalah alat untuk membandingkan harga, menyusun, dan "mengenal pasti apa yang anda suka". Tetapi dalam ekonomi agen, AI menjadi pembuat keputusan utama, dan manusia berubah menjadi "logistik fizikal" yang menjalankan tugas untuk AI.

Ini mungkin merupakan akhir yang paling menakutkan bagi ekonomi agen, di mana manusia secara sukarela menyerahkan hak mereka untuk bermain di pasaran demi kemudahan. Apabila semua pengiraan, permainan, bahkan nilai emosional dilakukan oleh AI.

Manusia dalam rantai perniagaan kini hanya tinggal melakukan kerja fizikal menghantar barangan dan tanda tangan pengesahan.

Artikel ini berasal daripada akaun微信公众号 "GeekPark" (ID: geekpark), penulis: Moonshot