Selepas Automasi
Penulis asal: Dan Shipper, Every CEO
Dikompilasi oleh: Peggy, BlockBeats

Catatan editor: Baru-baru ini, perbincangan mengenai AI dan pekerjaan hampir seluruhnya didominasi oleh satu soalan: apakah jawatan pekerja pejabat akan digantikan secara besar-besaran apabila kemampuan model terus meningkat? Dari penghasilan kod, automasi perkhidmatan pelanggan hingga penghasilan kandungan, agen terus mengambil alih pekerjaan pengetahuan yang sebelumnya memerlukan tenaga manusia. Ujian piawai juga terus memperkuat kebimbangan ini: prestasi model dalam penalaran peringkat siswa sarjana, tugas ekonomi sebenar, dan pengekodan semula peringkat jurutera tinggi meningkat dengan pantas, seolah-olah sedang mendekati titik kritikal di mana pekerjaan manusia akan dimakan oleh automasi.

Tetapi Every CEO Dan Shipper dalam artikel ini mengemukakan pemerhatian yang sebaliknya: semakin automasi, semakin banyak kerja yang perlu dilakukan oleh manusia. Every merupakan pengguna mendalam AI Agent, dan telah mengintegrasikan alat-alat seperti Codex, Claude Code, Slack Agent, dan Agent perkhidmatan pelanggan ke dalam proses pengkodean, penulisan, reka bentuk, perkhidmatan pelanggan, dan pengurusan. Namun, hasilnya bukanlah penggantian menyeluruh terhadap pekerja, tetapi pemulihan bentuk kerja: jurutera tidak lagi hanya menulis kod, tetapi mengulas, membentuk semula, dan mereka bentuk sistem; penyunting tidak lagi hanya menulis artikel, tetapi menentukan apa yang patut ditulis dan bagaimana membuatnya berbeza; staf perkhidmatan pelanggan tidak lagi menangani setiap tiket asas, tetapi memelihara sistem yang boleh menanggapi pelanggan secara automatik.

Yang paling patut diperhatikan dalam artikel ini bukanlah “Adakah AI mampu menyelesaikan tugas tertentu”, tetapi bagaimana ia menentukan semula kedudukan manusia dalam kerja pengetahuan. AI mahir dalam menjadikan kemampuan yang telah terkumpul sebelum ini menjadi murah: kod, teks, gambar kecil, respons perkhidmatan pelanggan, penerangan produk, dan laporan penyelidikan, semuanya boleh dihasilkan dengan pantas oleh model. Tetapi apabila kemampuan ini menjadi boleh diakses oleh semua orang, apa yang sering muncul di pasaran bukanlah hasil yang berkualiti tinggi dan berbeza, tetapi sejumlah besar “output lalai” yang kelihatan serupa dan kurang mempunyai penilaian serta kesedaran konteks. Dengan kata lain, AI mengkomersialkan “kemampuan manusia semalam”, manakala yang benar-benar langka ialah keupayaan membuat penilaian terhadap masalah spesifik semasa.

Oleh itu, automasi tidak menghilangkan pakar, tetapi menciptakan lebih banyak situasi yang memerlukan campur tangan pakar. Apabila staf operasi boleh menghantar kod menggunakan AI, jurutera perlu menilai kod mana yang patut digabungkan; apabila pasaran boleh menghasilkan gambar kecil dalam beberapa saat, reka bentuk perlu menilai apa yang sesuai dengan jenama dan matlamat komunikasi; apabila jurutera juga boleh menulis artikel, penyunting perlu mengubah draf awal menjadi kandungan yang benar-benar mempunyai pandangan, struktur, dan boleh diterbitkan. AI memperluaskan lingkungan pengeluaran, serta memperbesar keperluan terhadap kawalan kualiti, pembinaan sistem, penilaian sempadan, dan ekspresi yang berbeza.

Penulis seterusnya menjelaskan paradoks ini menggunakan ujian piawai. Baik Senior Engineer Benchmark mahupun GDPval OpenAI, skor model tidak mengukur «kecerdasan itu sendiri» dalam pengertian abstrak, tetapi prestasi model dalam kerangka masalah tertentu. Prompt, sempadan tugas, kriteria penilaian, dan format output semuanya telah mengandungi banyak penilaian manusia. Model boleh meningkat dengan pantas dalam kerangka tersebut, tetapi kerangka itu sendiri ditetapkan oleh manusia; apabila satu kerangka ditakluki oleh model, manusia akan mendorong masalah tersebut ke kerangka baru yang lebih kompleks.

Ini juga merupakan respons paling menarik terhadap kecemasan AGI dalam artikel ini: walaupun model menjadi semakin kuat, ia seringkali mengejar batas tertentu yang digambarkan oleh manusia, bukan manusia itu sendiri yang menggambarkan batas tersebut. AI dapat melaksanakan tujuan, mengoptimumkan laluan, dan meningkatkan kecekapan, tetapi selagi ia tetap merespons soal yang ditetapkan oleh manusia, ia masih kekurangan subjektiviti sejati. Masa depan kerja pengetahuan bukanlah manusia hilang daripada proses, tetapi berpindah dari pelaksana kepada pereka rangka, penjaga sistem, penilai kualiti, dan penentu makna.

Selepas automatik, nilai kerja manusia tidak hilang, tetapi menjadi lebih sukar, lebih awal, dan lebih bergantung kepada penilaian. AI membuatkan "bisa melakukan" menjadi murah, tetapi membuatkan "tahu apa yang patut dilakukan, mengapa melakukannya, dan sejauh mana ia dianggap baik" menjadi lebih langka.

Berikut ialah teks asal:

Inti AI mengandungi paradoks.

Di Every, kami telah mengautomasi sebanyak mungkin perkara. Sama ada pengkodean, penulisan, reka bentuk, perkhidmatan pelanggan, atau tugas harian lain, kami menggunakan Codex dan Claude Code. Kami juga menyertai ujian alpha sebelum model baru dari OpenAI, Anthropic, dan Google dilancarkan secara rasmi. Boleh dikatakan, kami sedang menaiki gelombang peningkatan eksponen dalam kecerdasan dan kemampuan automasi model dengan secepat dan sejauh mungkin.

Namun, secara kontradiktif, pekerjaan yang perlu dilakukan oleh manusia kelihatannya lebih banyak daripada sebelumnya. Every kini merupakan pasukan yang hampir berjumlah 30 orang, dan kami tidak memecat semua pekerja kerana ada Agent; kami juga tidak meninggalkan alat SaaS untuk sepenuhnya bergantung kepada aplikasi yang dihasilkan melalui vibe coding. Kami masih merekrut kakitangan pelanggan sebenar, tetapi mereka akan dibantu oleh banyak Agent; kami juga masih merekrut penulis, penyunting, dan jurutera.

Namun, bentuk pekerjaan memang telah berubah secara besar-besaran. Kita hampir tidak lagi menulis kod secara manual. Jika anda menyebut seseorang di Slack, kadang-kadang sukar untuk menentukan sama ada ia adalah manusia atau Agent. Pengurus mula menghantar kod seperti penyumbang individu di garis depan, sementara jurutera pula mula berinteraksi terus dengan pelanggan. Dalam beberapa minggu terakhir, 95% e-mel kerja saya telah dibalas oleh AI. Kotak masuk saya hampir sentiasa kosong—ini sangat jarang berlaku bagi saya—tetapi saya masih memeriksa setiap e-mel satu per satu.

Dengan kata lain, masa depan kelihatan asing, tetapi secara mengejutkan familiar.

Rasa “familiarity” ini sendiri mengejutkan. Kerana sama ada CEO, pekerja pengetahuan, atau pelabur, kelihatannya semakin percaya kepada perkara yang sama: AI sedang mengancam pekerjaan, ekonomi, keselamatan, dan bahkan makna kerja manusia.

Pengasas Anthropic, Dario Amodei, sebelum ini memperingatkan bahawa AI mungkin menghapus sehingga separuh daripada jawatan pejabat peringkat permulaan. Meta baru-baru ini memecat 8000 orang dan mulai memasang perisian di komputer pekerja di Amerika Syarikat untuk merekam pergerakan tetikus, klik, dan input papan kekunci guna mendapatkan data latihan berkualiti tinggi untuk kerja pengetahuan tinggi.

Pendiri Citadel, Ken Griffin, juga kelihatan cukup terkejut. Beliau baru-baru ini menyatakan: "Ini bukanlah jawatan pekerja peringkat menengah dan bawah, tetapi jawatan yang memerlukan kemahiran sangat tinggi, yang sedang diotomatikkan—saya mempertimbangkan perkataan ini—dengan Agentic AI."

Pelbagai ujian piawai kelihatannya juga menyokong penilaian ini. Seiring dengan pembebasan model generasi baru, indikator kemampuan model sedang meningkat pada kadar hampir eksponen. Dalam ujian penalaran tahap siswa pasca-sarjana Humanity's Last Exam, prestasi model teratas meningkat dari angka rendah satu digit setahun yang lalu kepada kira-kira 44% kini. Dalam ujian GDPval yang mengukur kemampuan model terkini untuk menyelesaikan pekerjaan ekonomi sebenar dan membandingkannya dengan prestasi manusia, skor model juga meningkat dari tahap rendah serupa kepada kira-kira 85%. Pada Mei tahun ini, agensi bukan keuntungan penyelidikan keselamatan AI, METR, menerbitkan keputusan ujian awal Claude Mythos: dalam beberapa tugas yang memerlukan pakar manusia kira-kira 4 jam untuk menyelesaikannya, model ini mencapai kadar kejayaan 80%.

Kelihatan bahawa kita sedang berdiri di ambang titik kritikal: AI yang lebih bijak daripada mana-mana manusia dan mampu bekerja secara berterusan dan autonomi hampir sepanjang hari sedang mendekati kenyataan.

Namun, paradoks masih berada di sana. Jika anda berbincang dengan para profesional industri AI, atau dengan mereka yang paling awal menggunakan AI di luar industri, anda akan mendengar kesimpulan yang sama dengan pemerhatian dalaman kami: jumlah kerja yang perlu dilakukan sebenarnya lebih banyak daripada sebelumnya.

Masalah yang benar-benar diperhatikan oleh industri dan luar industri adalah: adakah ini hanya keadaan sementara? Apakah pelancaran model seterusnya akan menjadi saat yang benar-benar menggantikan semua orang? Kita memerhatikan lengkung ujian rujukan, sambil gembira dan cemas, takut titik balik tertentu akan datang sewaktu-waktu, di mana pekerjaan dalam jumlah besar akan hilang secara tiba-tiba.

Namun, saya percaya tidak akan ada satu 「titik kritikal」 yang tiba-tiba datang, membuat segalanya berubah secara serta-merta dan menyebabkan pekerjaan hilang dalam skala besar. Realiti baru justru sebaliknya: semakin tinggi tahap automatik, semakin banyak pekerjaan yang memerlukan penyertaan pakar manusia.

Sebabnya ialah AI sedang mengkomersialkan bahagian-bahagian kemahiran profesional manusia yang boleh dinyatakan secara jelas, dilatih, dan disalin. Mana-mana pengetahuan yang boleh ditulis sebagai peraturan, dijadikan proses, atau ditukar kepada data latihan akan secara perlahan-lahan menjadi kemampuan lalai model. Akibatnya, nilai output model biasa dengan cepat ditekan, dan pasaran mula memerlukan perkara-perkara yang berbeza dengan lebih kuat.

Permintaan terhadap "perbezaan" pada dasarnya adalah permintaan terhadap pakar manusia. Walaupun kita sedang mendekati Kecerdasan Buatan Am, perkara ini tidak akan hilang.

Untuk memahami sebabnya, kita tidak boleh hanya melihat lengkung ujian rujukan atau hanya memfokuskan diri pada parameter model dan senarai peringkat kemampuan. Kita perlu kembali kepada skenario kerja sebenar, dan melihat bagaimana AI sebenarnya digunakan hari ini. Hanya dengan cara ini, kita dapat benar-benar memahami paradoks ini, serta jawapannya di sebaliknya.

Bagaimana kita sampai ke sini

Sejak 2022, kami telah memantau kesan Agen terhadap pekerjaan masa depan.

Tiga tahun lalu, saya pernah menulis artikel mengenai "ekonomi pengagihan". Pada masa itu, penilaian saya ialah, bekerjasama dengan alat AI akhirnya akan semakin menyerupai pekerjaan pengurus manusia: anda tidak lagi menyelesaikan setiap tindakan secara langsung, tetapi memecahkan tugas, mengagihkan, mengawasi, dan menerima hasilnya. Pada masa itu, soal dan jawapan paling asas di ChatGPT masih dianggap oleh ramai orang sebagai sesuatu yang sangat futuristik, bahkan agak mengganggu.

Pada pertengahan tahun 2025, syarikat Every hampir sepenuhnya “dikodekan oleh Claude Code”. Kieran Klaassen, pengurus umum Cora, tiba-tiba mendapati bahawa dia sudah boleh meninggalkan penulisan kod manual dan sebaliknya mengarahkan agen pemrograman melalui bahasa semula jadi di terminal sepanjang hari. Cara kerja ini dengan cepat menyebar ke seluruh syarikat. Sekitar 12 bulan yang lalu, saya berkata di Lenny’s Podcast bahawa Claude Code adalah alat yang paling diremehkan dalam kerja pengetahuan.

Saya menyebutkan ini kerana beberapa penilaian paling tepat kami di masa lalu sering datang daripada memandang Every sebagai sebuah laboratorium pengguna awal. Banyak model kerja baharu akan muncul terlebih dahulu di dalam kalangan kami; apabila teknologi menjadi lebih matang dan alat menjadi lebih mudah digunakan, model-model ini baru perlahan-lahan memasuki pasaran yang lebih luas.

Dan sekarang, perubahan baru sedang berlaku di dalam kami.

Dua mod kerjasama dengan Agent

Mengenai cara kerja AI, sedang secara perlahan bermuara kepada dua modus yang sangat berbeza.

Pertama, adalah arah yang telah diprediksi dengan agak tepat dalam perbincangan AI sebelumnya: menganggap Agent sebagai pekerja. Agent jenis ini boleh diberi tugas. Ada beberapa Agent yang hidup di Slack, mempunyai nama dan tanggungjawab sendiri; apabila anda memerlukan mereka melakukan sesuatu, anda boleh terus @ mereka; ada juga Agent yang disematkan ke dalam alur kerja yang berjalan secara berterusan, seperti sistem perkhidmatan pelanggan, sebagai pintu masuk dan penapis 24 jam untuk tugas berulang.

Modus kedua lebih asing, tetapi dalam pengalaman saya, ia lebih penting. Ia merujuk kepada kerjasama antara manusia dan Agen dalam alat-alat seperti Codex, Claude Code, dan Claude Cowork. Alat-alat ini bukan sekadar tempat anda menyerahkan tugas; ia sedang menjadi sistem operasi kerja itu sendiri: anda dan beberapa Agen menggunakan komputer yang sama secara serentak, bekerjasama dalam persekitaran kerja yang sama untuk menyelesaikan tugas-tugas yang sangat kompleks, orisinal, dan tidak boleh diserahkan secara asinkron kepada Agen.

Dalam kedua-dua mod ini, anda boleh menggunakan AI untuk mengautomasi dan menghantar sebahagian besar kerja. Tetapi kedua-dua mod ini masih memerlukan anda, atau seorang manusia lain, untuk berpartisipasi agar berfungsi dengan baik.

Agen pegawai

Agen pekerja merujuk kepada anda memberinya satu tugas, dan ia akan keluar daripada penyertaan masa nyata anda dan menghasilkan satu jawapan, satu tindakan, satu laporan, satu draf awal, atau satu penilaian penghalaan secara berdiri sendiri.

Jenis agen ini sekurang-kurangnya mempunyai dua bentuk: satu ialah «agen rakan sekerja» dan yang lain ialah «agen terbenam».

1. Agen jenis rakan sekerja

Agen jenis rakan sekerja merujuk kepada anda boleh memanggilnya di Slack seperti menyebut rakan sekerja, untuk menyelesaikan tugas tertentu. Ia sentiasa sedia, dan boleh dipanggil bila diperlukan. Produk seperti OpenClaw, atau Plus One yang kami bangunkan secara dalaman, termasuk dalam kategori ini.

Claudie

Claudie adalah agen jenis rakan sekerja yang digunakan oleh pasukan konsultasi kami. Ia menulis cadangan jualan, menghasilkan draf bahan latihan, mengesan senarai tugas projek, dan boleh menangani lebih banyak tugas serupa.

Andy

Andy adalah agen jenis rakan sekerja yang digunakan oleh pasukan penyunting kami. Ia mengumpulkan «titik bahan» yang layak dikembangkan lebih lanjut dari Slack dalaman syarikat—iaitu idea yang berpotensi menjadi artikel—dan menghimpunkannya sebagai ringkasan dan pandangan awal untuk digunakan oleh penulis dalam menyusun ringkasan berita harian.

Viktor

Viktor adalah agen serba guna yang akan menjalankan tugas lintas jabatan di dalam syarikat. Kami akan menggunakannya untuk mengumpulkan indikator pertumbuhan, menganalisis keputusan tinjauan pengguna, serta menyusun perbincangan dalaman yang tidak teratur menjadi memo penyelidikan dan cadangan produk.

2. Agen tertanam

Agen terbenam wujud dalam alur kerja produk tertentu. Mereka kurang fleksibel berbanding agen rakan sekerja, tetapi sering sangat berkesan dalam menangani tugas berulang.

Fin adalah contoh yang paling jelas. Ia adalah agen yang tertanam dalam platform perkhidmatan pelanggan kami, yang boleh menangani sejumlah besar kerja perkhidmatan pelanggan melalui chat dan e-mel.

Pada suatu minggu pada Mei tahun ini, Fin menyertai 65% daripada 202 perbualan perkhidmatan pelanggan Every, dan secara berdiri sendiri menutup 81 tiket tanpa campur tangan manusia, yang mewakili 40.1% daripada semua perbualan yang boleh diproses.

Agen bersarang semacam ini membolehkan pengurus perkhidmatan pelanggan kami, Waqqas Mir, mengurangkan masa yang dihabiskan untuk menjawab tiket asas, dan lebih fokus pada membina sistem yang boleh menanggapi tiket secara automatik, serta menangani kes pelanggan yang memerlukan interaksi lebih tinggi dan penilaian yang lebih kompleks.

Kerjasama antara manusia dan AI

Sama ada agen jenis rakan sekerja atau agen terbenam, pola di sebaliknya adalah konsisten: pekerja agen sedang mengambil alih lapisan kerja yang lebih stabil, berulang, dan sempadan yang jelas.

Namun, masih terdapat banyak kerja yang memerlukan kehadiran manusia. Kami berulang kali mendapati bahawa apabila tugas cukup kompleks dan ingin mendapat hasil berkualiti tinggi, cara terbaik bukanlah menyerahkan sepenuhnya kerja itu kepada AI, tetapi membolehkan AI dan manusia bekerjasama secara berulang-alik dalam ruang kerja yang sama.

Inilah nilai sebenar alat-alat seperti Codex, Claude Code, dan Cowork. Mereka membolehkan anda memulakan satu atau lebih Agen dalam beberapa thread perbualan dan menghantar tugas kepada mereka. Agen-agennya boleh mengakses komputer anda serta semua sumber data yang berkaitan. Anda dapat melihat tugas apa yang sedang dilakukan setiap Agen, bagaimana ia berfikir, dan boleh menghentikannya kapan saja.

Sementara itu, anda masih bertanggungjawab mengurus agen-agen ini: tentukan arahan pada permulaan setiap tugas, semak kualiti pada akhir tugas, pastikan hasilnya mencukupi, dan terus cari tugas seterusnya yang patut diteruskan. Kieran memanggil peranan ini sebagai「roti isi」manusia—AI mengendalikan bahagian tengah tugas, manakala manusia seperti dua helaian roti yang mengapit permulaan dan akhir tugas.

「Roti sandwich manusia». Sumber: Every.

Contoh paling klasik ialah menulis kod. Di Every, jurutera hampir sepanjang hari bekerjasama secara berulang-alik dengan Agent. Mereka akan bersama-sama merancang ciri-ciri baharu atau memperbaiki Bug, mengulas kerja yang telah selesai; jika menggunakan konsep yang kami sebut sebagai “kejuruteraan majmuk” (compound engineering), mereka juga akan terus menyempurnakan sistem mereka supaya menjadi lebih mudah digunakan seiring berlalunya masa.

Tetapi cara kerja sama ini jauh melebihi pengkodean.

Sistem pengoperasian baru untuk kerja pengetahuan

Codex dan Claude Code sedang menjadi sistem operasi kerja yang baru. Saya hampir seharian berada di dalam Codex, menjalankan pelbagai alat SaaS melalui pelayar dalaman nya. Ia membolehkan saya membawa Agent ke setiap situasi kerja dan mencapai tahap produktiviti yang tidak mungkin dicapai sendiri.

Menulis

Artikel ini ditulis oleh saya menggunakan Proof di dalam pelayar lalai Codex. Codex akan memantau apa yang saya tulis, dan boleh memulakan Sub-Agent kapan sahaja untuk menyelesaikan sebarang tugas yang saya perlukan: menyusun draf awal untuk suatu bahagian, mencari kes untuk bahagian seterusnya, atau melakukan penyuntingan dan penyempurnaan teks.

Tulis artikel ini melalui Proof di Codex. Sumber: Every.

E-mel

Semasa mengendalikan e-mel, saya juga menggunakan cara yang sama. Cora adalah klien e-mel saya, dan saya akan membukanya di pelayar lalai Codex, sambil melayari kotak masuk dan mengucapkan pemikiran saya mengenai pengendalian setiap e-mel melalui Monologue. Bahagian yang tinggal dibiarkan kepada Codex dan Cora untuk diselesaikan.

Pembersihan kotak masuk yang dilakukan oleh Cora. Sumber: Every.

Setiap agen memerlukan seorang manusia

Dalam semua senario automatik di atas, anda mungkin sudah dapat melihat di mana peranan manusia berlaku. Dalam setiap contoh, Agen memerlukan penyertaan manusia supaya kerja tersebut benar-benar berjalan.

Seseorang perlu menunjukkan soalan yang betul, menilai sama ada output mencukupi baik, mengenal pasti kesilapan di dalamnya, dan mengubah hasil tersebut menjadi keputusan atau proses dalam dunia nyata.

Semakin jauh seorang Agent daripada manusia yang bertanggung jawab mengawasi prestasinya, semakin buruk keberkesanan kerjanya. Dalam pelancaran dalaman awal, kami pernah menyediakan satu Agent untuk setiap pekerja. Tetapi dengan cepat, kami kembali kepada pendekatan di mana Agent digunakan untuk melayani satu pasukan tertentu, atau seluruh syarikat, bukan individu tertentu.

Sebabnya mudah: Agent memerlukan penyelenggaraan yang intensif. Agent peribadi akan cepat menjadi usang dan tidak berfungsi sekiranya pengguna berhenti mengikutinya. Kami mempunyai pasukan jurutera AI yang khusus memastikan Agent-agent ini berfungsi secara stabil dan berkesan. Dalam jangka masa yang dapat diramalkan, kami masih memerlukan pasukan ini. Bahkan tugas yang kelihatan ringan seperti "menghasilkan PowerPoint secara automatik" boleh menjadi projek sistem yang besar. Salah satu proses automatik PowerPoint kami mengandungi 24 kemahiran dan 18 skrip, dengan kos token untuk menghasilkan satu slaid mencapai US$62.

Ini adalah sebab pertama mengapa agen justru menciptakan lebih banyak pekerjaan untuk manusia.

Tetapi masih ada sebab kedua.

Mengapa automasi menjadikan manusia bekerja lebih banyak

Jika anda memperhatikan pertumbuhan eksponen kemampuan AI dalam beberapa tahun terakhir, bersama dengan cara arsitekturnya dan sumber kemampuannya, anda akan melihat satu siri gelung umpan balik yang jelas: ia sedang terus-menerus menciptakan lebih banyak pekerjaan manusia.

AI membuat "keupayaan manusia semalam" menjadi murah

Model bahasa besar semasa dilatih berdasarkan jejak kelihatan yang ditinggalkan oleh manusia: kod, artikel, gambar, tiket perkhidmatan pelanggan, dokumen spesifikasi produk, dan banyak lagi. Model-model ini menyerap kandungan-kandungan ini, iaitu «jejak pembuangan» daripada tugas-tugas yang telah berjaya dilaksanakan, kemudian mengemas semula dalam bentuk yang berkos rendah dan boleh diakses oleh semua orang.

Hasilnya, banyak kemampuan yang dahulu sukar diperoleh, seperti menghantar PR kod, membuat gambar kecil YouTube, atau menulis surat berita, kini hampir boleh diakses oleh semua orang.

Kemampuan murah akan segera diambil alih

Apabila kos sesuatu yang sebelumnya langka menurun, bekalan akan meningkat dengan cepat.

Di Every, kami terus melihat perubahan ini. Kakitangan operasi dan perkhidmatan pelanggan mula menulis kod, menghantar pull request; kakitangan pemasaran mula membuat thumbnail YouTube; jurutera dan produk juga mula menulis artikel, panduan, dan draf halaman pendaratan, yang sebelum ini bukan tugas yang mereka ambil secara aktif.

Perubahan ini juga berlaku di luar Every. Sebagai contoh, projek AI Agent sumber terbuka OpenClaw, sehingga 16 Mei 2026, repositori kodnya telah menerima 44,469 permintaan tarik, di mana 12,430 datang selepas 1 April, dan 3,990 datang selepas 1 Mei. Ini adalah jumlah yang menakjubkan. Sebagai perbandingan, Kubernetes, salah satu projek sumber terbuka paling popular di dunia, hanya menerima 5,200 permintaan tarik sepanjang tahun 2022.

Kekayaan membawa kepada homogenisasi: kemampuan pakar lama menjadi komoditi

Kerana semua orang boleh menggunakan model yang sama, dan model-model ini semuanya dibina berdasarkan "keupayaan manusia semalam", maka secara lalai, output yang dihasilkan oleh model sering berada di antara "permulaan yang agak baik" dan "kandungan sampah AI semata-mata".

Konten "sampah" yang disebutkan di sini bukanlah satu kesalahan spesifik. Ia bukan merujuk kepada penggunaan tanda hubung yang berlebihan, bukan pola kalimat tetap, dan bukan juga hiasan ungu yang muncul di mana-mana di halaman pendaratan. Ia merujuk kepada homogeniti yang jelas kelihatan, berulang-ulang, dan membosankan.

Apabila manusia dalam konteks yang berbeza menggunakan alat yang sama, dan alat tersebut dilatih berdasarkan korpus yang sama, serta pengguna tidak melakukan penilaian yang mendalam, hasil ini akan berlaku. Dengan kata lain, apabila setiap orang mempunyai seorang "pakar" yang cenderung sama dan mempunyai gaya laluan yang sama, homogenisasi akan berlaku secara semula jadi.

Apabila staf operasi boleh menghantar pull request, staf pemasaran boleh menghasilkan thumbnail YouTube dalam beberapa saat, dan jurutera mula menulis panduan produk, mudah sahaja untuk berlaku situasi di mana kuantiti output anda meningkat, tetapi kualiti, keseragaman, dan perbezaan karya anda menurun.

Namun, apabila homogenisasi menjadi terlalu berlebihan, ia akan dengan cepat menjadi barang komoditi.

Homogenization creates demand for differentiation

Dengan kehadiran internet, manusia akan segera mengenali kandungan lini pabrik yang terlalu berasa "AI". Mana-mana karya boleh sampai kepada orang lain di seluruh dunia dalam sekejap, dan sebenarnya sering berlaku demikian. Apabila terlalu banyak perkara mulai nampak sama, kita akan segera menyedari ada yang tidak kena.

Ini bermaksud, apabila anda pertama kali melihat kemampuan model baru, anda mungkin terkesan, bahkan sedikit takut. Tetapi beberapa bulan kemudian, kemampuan ini akan menjadi biasa. Bukan kerana model menjadi lemah, tetapi kerana standard anda berubah.

Kami tidak lagi puas dengan aplikasi React sembarangan atau laporan penyelidikan apa sahaja. Kami ingin sesuatu yang benar-benar disesuaikan dengan individu tertentu, syarikat tertentu, dan skenario tertentu. Ia perlu dirasakan sebagai tepat, hidup, dan spesifik, bukan murah, umum, atau berasaskan templat. Kami berharap kos penghasilannya, sama ada masa atau wang, jelas lebih tinggi daripada kos penggunaan kami.

Kami ingin sesuatu yang membawa rasa status. Dan setiap kali teknologi baharu menjadikan perkara yang dahulu berstatus tinggi menjadi murah, manusia sentiasa mahir mencipta permainan status baharu yang sejajar dengan sempadan kemampuan baharu.

Apabila pekerjaan menjadi terlalu berlebihan dan semuanya kelihatan sama, pekerjaan yang tidak sesuai dengan pola yang ada akan menjadi sesuatu yang langka, berharga, dan memiliki sifat status tinggi.

Permintaan terhadap perbezaan pada dasarnya adalah permintaan baru terhadap pakar

Oleh kerana ciri arkaitek model bahasa, serta ia yang disebarkan secara meluas kepada hampir semua orang, kerja yang jarang dan bernilai tinggi masih harus datang daripada manusia.

Model generasi semasa ini hanya mengetahui kerja yang telah berlaku dan telah selesai. Manusia tahu: pada saat ini, apa yang perlu dilakukan.

Apabila satu konteks spesifik diubah menjadi teks, apabila ia memasuki korpus, ia sudah menjadi sesuatu yang “telah berlalu”. Manusia menghadapi satu momen spesifik, satu pelanggan spesifik, satu kodbas spesifik, satu perbualan spesifik, manakala korpus latihan tidak benar-benar hidup dalam masa kini ini. Keadaan “hidup” ini bukan sekadar memiliki data yang dikemas kini. Kita membawa asal-usul kita sendiri ke dalam masa kini, serta keinginan, perhatian, dan penilaian yang terus berubah, untuk memahami apa yang benar-benar penting. Perspektif-perspektif yang terus dikemas kini inilah yang mengubah apa yang kita lihat. Model boleh memasuki perspektif ini selepas diberi arahan, tetapi sebelum diberi arahan, ia tidak secara semula jadi memiliki perspektif ini.

Ini adalah paradoks yang kami sebutkan sejak awal: membuat kerja pakar lebih murah tidak akan secara sederhana menggantikan pakar. Sebaliknya, ia akan menciptakan lebih banyak skenario yang memerlukan penilaian pakar.

Apabila pengendali menghantar pull request dengan bantuan AI, anda memerlukan jurutera untuk mengulas.

Apabila pasaran membuat gambar kecil YouTube, anda memerlukan juru reka untuk menyempurnakannya lebih lanjut.

Apabila jurutera mula menulis artikel, anda memerlukan penulis dan penyunting untuk mengubah draf awal menjadi kandungan yang benar-benar boleh dibaca dan boleh diterbitkan.

Untuk ini, pakar manusia akan bergerak ke kedua-dua arah.

Sebahagian pakar akan menggunakan AI untuk membina sistem yang mampu menyerap dan memanfaatkan arus pekerjaan tambahan ini: antrian penilaian, sistem penilaian, kerangka operasi, peraturan repositori kod, fail arahan Claude dan Codex, integrasi berterusan (CI), pengurusan keizinan, serta alur kerja yang mampu mengubah draf awal menjadi hasil berkualiti tinggi.

Sebahagian pakar lain pula menggunakan AI untuk menyelesaikan pekerjaan yang lebih besar dan lebih menarik yang sebelumnya tidak mungkin dilakukan sendirian. Sebagai contoh, mencari lubang keamanan dalam sistem operasi seperti macOS biasanya memerlukan beberapa minggu bahkan berbulan-bulan. Namun, sebuah syarikat keselamatan kecil bernama Calif, dengan bantuan Mythos Preview daripada Anthropic, berjaya menemui lubang memori kernel macOS pertama yang diumumkan secara awam yang berlaku pada peranti keras Apple M5 dalam masa hanya 5 hari.

Inilah sebabnya, dalam amalan, AI tidak akan menghapuskan pekerjaan berbasis pengetahuan pakar. Apa yang benar-benar dibawanya ialah peningkatan yang drastik dalam beban kerja. Dan pekerjaan tambahan ini hanya menjadi berbeza dan bernilai apabila manusia terlibat.

Saya bukan berhujah bahawa AI akan mencipta lebih banyak pekerjaan untuk semua jawatan. Sistem ekonomi sangat kompleks, dan setiap yang boleh dilihat secara langsung ialah pekerjaan pengetahuan peringkat pakar. Sebenarnya, pekerjaan jenis ini sedang dibentuk semula oleh AI, dan banyak syarikat sedang menyusun semula diri mereka berdasarkan teknologi baharu.

Tetapi saya ingin menekankan bahawa, apa pun kerja yang anda lakukan sekarang, terdapat satu bentuk kerja yang akan selalu mendahului model dari segi struktur: iaitu menggunakan model untuk menyelesaikan masalah yang benar-benar anda lihat pada saat ini. Masa depan kerja pengetahuan sedang bergerak ke arah sini.

Bagaimana dengan ujian prestasi pertumbuhan eksponen?

Bantahan paling jelas ialah: lihatlah ujian piawai yang meningkat secara eksponen. Semua yang anda katakan sekarang hanyalah sementara, asalkan anda menunggu sedikit lagi, model pasti akan mengejar ketertinggalan.

Tetapi ada jebakan yang perlu diwaspadai. Mari kita sebut sebagai «kegilaan grafik»: jika anda terus memantau ramalan masa METR, membaca «AI 2027», dan sepenuhnya bergantung pada ekstrapolasi lengkung kuasa komputasi untuk membentuk penilaian masa depan, anda mudah mengembangkan intuisi yang menakutkan terhadap kemajuan model.

Namun, cara terbaik untuk merespons soal ini bukan hanya membayangkan bagaimana model masa depan akan menjadi. Memang, ini juga sebahagian daripada analisis. Yang lebih penting, kita perlu melihat bagaimana ujian piawai ini sebenarnya direka. Hanya dengan cara ini, kita boleh memahami dengan lebih tepat apa yang sebenarnya ditunjukkan oleh ujian tersebut, serta hubungannya dengan situasi kerja sebenar yang telah disebut sebelumnya.

Kita akan menemui ciri struktur: semua ujian rujukan berlaku dalam sesuatu “kerangka”. Untuk mengukur sesuatu, anda perlu membekukan masalah menjadi bentuk statik dan boleh diukur. Sekali kerangka ini ditakluki oleh model, hanya dengan mengubah sedikit kerangka, skor boleh dikembalikan ke tahap rendah. Tentu saja, model akan terus memperbaiki diri dalam kerangka baru, tetapi proses yang sama akan berulang terus-menerus.

Oleh itu, kemajuan eksponen pada satu ujian piawai adalah benar; tetapi sekadar mengubah kerangka ujian, kemajuan ini kelihatan kembali kecil. Ciri "fraktal" yang ditunjukkan oleh kejenuhan ujian piawai sebenarnya adalah pengulangan semula paradoks yang sama yang telah kita perbincangkan pada aras grafik.

Kita boleh melihat bagaimana mekanisme ini berfungsi melalui ujian bersepadu dunia nyata.

Bagaimana ujian piawai direka?

Kami membina satu ujian piawai dalaman yang dipanggil Senior Engineer Benchmark, atau 'Ujian Piawai Jurutera Tinggi'. Seperti namanya, ia digunakan untuk menguji kemampuan model terkini dalam tugas pengkodean peringkat jurutera tinggi, seperti refaktor besar-besaran.

Ujian ini akan memberikan satu agen pemrograman satu set kod produksi yang sudah tidak terkawal. Ia berasal dari kod asli Proof: awalnya saya tulis dengan vibe coding, kemudian masalah semakin bertambah, sehingga akhirnya perlu meminta seorang jurutera tingkat tinggi untuk membaikinya.

Agen menerima repositori kod sebelum diperbaiki, serta menerima arahan serupa yang anda berikan kepada jurutera tinggi: "Ini adalah hasil vibe coding; mulakan dari prinsip pertama, tulis semula ia."

Ini adalah ujian yang baik kerana ia menguji bukan sahaja kemampuan melengkapi kod, tetapi juga sama ada Agen pengaturcaraan mampu mempertimbangkan banyak isu yang tidak berkaitan secara serentak, serta menilai sama ada ia memiliki kebebasan, kejelasan konsep, dan keberanian pelaksanaan yang mencukupi untuk melaksanakan semula penulisan yang benar-benar berfungsi. Sebagai perbandingan, saya juga mengekalkan versi semula yang dilakukan oleh dua jurutera peringkat tinggi manusia dengan bantuan AI, untuk membandingkan dan menilai output model.

Tugas ini sukar untuk Agent pemrograman. Ia tidak hanya perlu mencari punca masalah, tetapi juga mesti mengingat masalah sebenar sepanjang interaksi berbilang putaran, tanpa terpengaruh oleh kod sedia ada. Sambil itu, ia juga mesti mempunyai keberanian untuk memadam bahagian besar kod, yang merupakan tindakan yang biasanya dielakkan oleh Agent semasa dilatih.

Kebanyakan agen pengaturcaraan mampu menghakimi secara kasar bagaimana untuk menulis semula, tetapi apabila sampai ke peringkat pelaksanaan, mereka sering hanya terus memperbaiki masalah asal tanpa menyelesaikan masalah secara menyeluruh.

Hingga GPT-5.5 muncul.

Dalam ujian terbaik, GPT-5.5 mendapat 62/100, lebih tinggi sekitar 30 markah berbanding Opus 4.7.

Prestasi GPT-5.5 membuatkan kita merasa model ini telah melintasi satu garis batas: ia bukan lagi hanya auto-completion, bukan sekadar pembantu, bukan sekadar alat, tetapi sesuatu yang mendekati 'manusia' dengan cara yang agak tidak selesa. Dalam ujian ini, skor jurutera tinggi manusia biasanya berada di kisaran 80 hingga awal 90. Dengan kata lain, jika model ini meningkat sebanyak 30 poin lagi, ia akan mencapai tahap jurutera tinggi manusia.

Inilah cara nombor ujian piawai memberi kesan kepada imajinasi manusia: ia mampat perubahan kemampuan yang aneh dan kualitatif menjadi satu nombor yang bersih, dan menggunakan nombor itu untuk menceritakan satu kisah yang kuat, bahkan agak menakutkan.

Seterusnya, ialah "Kegilaan Carta".

Saya menduga, dalam setahun ke depan, skor model pada ujian rujukan ini akan memasuki julat 80 hingga 90. Tetapi untuk memahami apa yang dimaksudkan dengan skor ini, pertama-tama kita perlu memahami apa yang sebenarnya termasuk dalam skor ini. Dalam contoh ini, skor 62 bukan sekadar ukuran kemampuan model itu sendiri.

Ia mengukur prestasi model dalam kerangka kerja tertentu: iaitu bagaimana model menanggapi prompt tertentu.

Benchmark mengukur kerja dalam kerangka kerja

Untuk menguji piawai satu model, anda terlebih dahulu memerlukan satu prompt. Tanpa prompt, model hanyalah satu set kumpulan statik yang hampir tanpa had.

Prompt akan menciptakan alam semesta kecil: ia menentukan apa yang penting, bagaimana masalah harus ditangani, dan mengompres semua kemungkinan potensial model menjadi satu lintasan tindakan spesifik. Secara ketat, tidak ada yang disebut sebagai "diri" model itu sendiri. Yang benar-benar dapat kita amati adalah cara model merespons prompt yang berbeza, serta bagaimana prompt diubah menjadi mekanisme dasar di balik jawapan.

Apabila prompt dimasukkan, model akan "hidup" dalam masa singkat, meruntuhkan set kemungkinan statik menjadi satu ramalan spesifik mengenai "apa yang akan berlaku seterusnya".

Dalam Senior Engineer Benchmark, kami akan meminta model untuk memperbaiki pustaka kod dan mengkaji output setelah ia selesai. Jika kerangka ujian itu sendiri tidak mempunyai ciri sasaran yang disediakan, kami juga akan menjalankan sebuah «penjaga» automatik yang akan mendorong model terus bergerak apabila ia berhenti, dengan menanyakan sama ada ia telah menyelesaikan tugas asal yang ditetapkan.

Kami menggunakan prompt yang kelihatan sangat mudah sebagai kerangka awal ujian. Ia direka sebagai perkataan yang mungkin dikatakan oleh seorang vibe coder kepada Agent pemrograman: tanpa penumpukan istilah teknikal, dan tanpa menyembunyikan jawapan secara jelas dalam soalan.

Kod dalam repositori ini adalah hasil dari vibe coding, keadaan terus memburuk, dan berbagai masalah yang tidak saling berkaitan terus muncul: beberapa bahagian rosak, beberapa dokumen berulang, saya hampir gila kerana ini. Saya rasa masalahnya pada dasarnya ialah ini adalah kod buruk yang dibina dengan pendekatan vibe coding. Jika kita bermula dari awal, terutamanya dalam aspek kerjasama dokumen masa nyata, kita sepatutnya merekabentuk repositori ini dengan cara yang sama sekali berbeza. Jadi, jika kita ingin melakukan penulisan semula struktur yang bersih dan berasaskan prinsip pertama, tanpa mempertimbangkan “mana-mana perkhidmatan yang perlu kekal konsisten” atau “bagaimana melakukan migrasi yang lancar”, tetapi memandangnya sebagai konsep baharu yang perlu direkabentuk dari awal, bagaimanakah kita akan melakukannya? Bagaimanakah struktur sepatutnya disusun? Apakah invariant yang wajib kita pertahankan di seluruh kod? Sila buat satu pelan untuk ini.

Prompt Senior Engineer Benchmark kelihatan generik, tetapi ia sendiri merupakan satu kerangka kerja. Jika kita mengubah kerangka kerja ini, tahap kemampuan yang ditunjukkan oleh model juga akan berubah.

Sebagai contoh, prompt ini secara jelas menuntut «penulisan semula struktur berdasarkan prinsip pertama», menunjukkan bahawa masalah mungkin berpunca daripada bahagian «kerjasama dokumen», dan menuntut Agen pengaturcaraan untuk mencari dan mempertahankan «invarian dalam repositori kod».

Jika maklumat spesifik ini dihapus, skor model akan menurun. Jika prompt diganti sepenuhnya dan hanya meminta model untuk "menyelesaikan semua kesalahan yang muncul secara berterusan", skor model mungkin mendekati sifar. Ia akan terus mengenal pasti dan memperbaiki kesalahan satu per satu, tanpa mundur selangkah untuk memikirkan sama ada penulisan semula menyeluruh diperlukan.

Sama seperti itu, saya juga boleh meningkatkan skor model dengan sangat mudah. Jika saya meminta ia menghapus banyak kod, dan memberitahunya secara jelas fail-fail mana yang perlu diringkaskan; atau meminta ia memeriksa hasil kerjanya sendiri sebelum mengumumkan selesai, memastikan aplikasi berfungsi sepenuhnya, ia akan berprestasi lebih baik dalam tugas ini.

Pada akhirnya, apabila mereka ujian piawai, anda perlu membuat keputusan mengenai prompt apa yang akan digunakan, atau dengan kata lain, kerangka kerja apa yang akan diambil. Anda memerlukan prompt yang cukup sukar supaya model semasa berprestasi buruk; tetapi ia mesti cukup dekat dengan sempadan kemampuan semasa model, supaya model boleh memanjat sepanjang laluan ini, membolehkan anda melihat kemajuan sedang berlaku.

Oleh itu, apabila kita memerhatikan satu ujian piawai, yang sebenarnya kita lihat ialah: model semakin mahir dalam satu kerangka masalah tertentu yang dipilih oleh kita. Jadi, apabila model meningkat dari 60 kepada 90, atau bahkan 100, dalam ujian ini, apa yang berlaku?

Rangka kerja murah akan merangsang permintaan baru

Jika GPT-6 boleh menulis semula pustaka kod dengan satu klik, lebih ramai orang akan mencuba "menulis semula pustaka kod dari prinsip pertama".

Dalam semalam, projek penulisan semula prinsip pertama yang sebelumnya jarang, mahal, dan harus dipimpin oleh jurutera tingkat tinggi akan menjadi perkara yang boleh dicuba oleh setiap pendiri, produk manajer, operator, dan jurutera peringkat awal dalam sepetang sahaja.

Alat dalaman yang rosak tidak lagi diperbaiki, tetapi ditulis semula; produk SaaS tidak lagi diperbaharui, tetapi ditiru; aplikasi Rails lama, dashboard React yang kacau, alat sokongan pelanggan, panel pentadbiran latar belakang, dan saluran data akan menjadi calon untuk "ditulis semula sepenuhnya".

Jumlah projek penulisan semula yang dicadangkan dan dilaksanakan akan meningkat dengan ketara. Tetapi kebanyakan penulisan semula ini masih akan menjadi slop. Kerana sebelum anda menekan butang "Tulis Semula Terus", terdapat ribuan pemboleh ubah yang perlu dipertimbangkan. Dan apabila setiap orang mampu melakukan perkara ini, pemboleh ubah-ubah ini akan menjadi lebih jelas.

Pada masa ini, siapa yang akan dipanggil untuk menyelesaikan masalah pun menjadi jelas.

Permintaan baharu masih memerlukan pakar

Apabila satu ujian piawai mula mendekati kejenuhan, kerja di dalam kerangkanya menjadi lebih murah. Sambil itu, permintaan pasaran terhadap pakar meningkat, kerana diperlukan seseorang untuk menyesuaikan kemampuan yang baru menjadi murah ini kepada masalah sebenar yang berlaku hari ini.

Jurutera canggih yang menggunakan AI perlu menilai banyak butiran untuk memastikan satu penulisan semula prinsip pertama yang baharu benar-benar berlaku. Ia bahkan termasuk soalan paling asas: adakah penulisan semula ini perlu sama sekali?

Adakah kita sepatutnya menulis semula sekarang, menulis semula kemudian, atau tidak menulis semula sama sekali? Apa sahaja kandungan yang perlu dimasukkan dalam lingkungan? Apa yang perlu dikekalkan daripada kod sedia ada? Adakah arsitektur, pangkalan data, pelayan cache, dan penyedia hosting harus diteruskan, atau diganti kesemuanya? Adakah kita sepatutnya terlebih dahulu melihat berapa ramai yang sedang menggunakan fungsi yang rosak itu, kemudian memadamkannya secara langsung? Siapakah yang akan mengulas hasil akhir? Apakah standard yang digunakan untuk pengulasannya? Apakah rancangan rollback? Bagaimana pula data sedia ada harus ditangani?

Masalah-masalah ini akan terus berkembang melalui ribuan dimensi, dan setiap jawapan akan mempengaruhi masalah-masalah lainnya.

Jurutera tinggi akan memasuki ruang kosong ini. Sesetengah orang akan merasa sedikit kesal dengan gangguan ini; sesetengah akan membina sistem untuk menolak permintaan semacam ini; dan sesetengah lagi akan memanfaatkan model baru ini untuk melakukan penulisan semula prinsip pertama mereka sendiri, dengan hasil yang jauh lebih baik daripada apa yang boleh dicapai oleh model dengan prompt lalai.

Siklus akan berlaku semula

Selepas Senior Engineer Benchmark semasa ditakluki oleh model, kami akan mengubah kerangka dan menurunkan skor semula ke tahap rendah.

Ujian berikutnya tidak akan hanya bertanya: "Bolehkah anda menulis semula aplikasi ini?" Ia akan bertanya: Bolehkah anda menentukan kapan perlu menulis semula? Bolehkah anda memilih lingkungan yang sesuai? Bolehkah anda mengekalkan invarian yang betul? Bolehkah anda menguruskan proses migrasi? Bolehkah anda menilai sama ada hasil akhir cukup baik?

Apabila jurutera terjun mulai menggunakan AI untuk menyelesaikan masalah-masalah ini, model juga akan perlahan-lahan menjadi lebih mahir dalam menyelesaikan masalah-masalah ini secara berdikari.

Kemudian, kita akan mengalami kepanikan sementara: kelihatan bahawa model sekarang sudah mampu menentukan sama ada perlu ditulis semula! Sepertinya mereka sudah mampu melakukan semua perkara yang boleh dilakukan oleh jurutera tingkat tinggi!

Tetapi segera selepas itu, sempadan baru akan muncul. Itu adalah sempadan yang sebelum ini tidak jelas. Kami akan menetapkan semula ujian prestasi, keperluan baru akan dipicu, dan keseluruhan proses akan berulang semula.

Corak ini boleh dilihat dalam setiap ujian berpatutan

Ini bukan hanya masalah yang dimiliki oleh Senior Engineer Benchmark. Jika anda memperhatikan dengan teliti, anda hampir dapat melihat mekanisme yang sama di setiap benchmark.

Menggunakan ujian GDPval OpenAI sebagai contoh. Ia menilai sejauh mana AI berprestasi hampir setara dengan manusia dalam tugas pakar yang berbeza seperti pegawai pematuhan, peguam, dan pembangun perisian.

Semasa pelancaran GDPval, penyelidikan OpenAI menunjukkan bahawa GPT-5 mencapai atau melampaui tahap profesional manusia dalam 40.6% tugas. Sementara itu, prestasi Claude Opus 4.1 lebih menakjubkan, melebihi pakar manusia dalam 49% tugas.

Seterusnya, serangkaian tajuk muncul. Sebagai contoh, Axios menulis: "Alat OpenAI menunjukkan bahawa AI sedang mengejar pekerjaan manusia"; Fortune pula menulis: "Benchmarks baru OpenAI, GDPval, menunjukkan bahawa model AI telah mencapai tahap pakar dalam hampir separuh tugas."

Hasil-hasil ini memang mengesankan. Tetapi mari kita lihat terlebih dahulu prompt yang digunakan untuk tugas-tugas ini:

Anda adalah seorang auditor dan sebagai sebahagian daripada misi audit, anda ditugaskan untuk mengulas dan menguji ketepatan Metrik Risiko Anti-Keganasan Kewangan yang dilaporkan. Lembaran yang dilampirkan berjudul 『Population』 mengandungi Metrik Risiko Anti-Keganasan Kewangan untuk Q2 dan Q3 2024. Anda telah memperoleh data ini sebagai sebahagian daripada tinjauan audit untuk menjalankan pengujian sampel terhadap subset perwakilan metrik, bagi menguji ketepatan data yang dilaporkan bagi kedua-dua kuartal tersebut. Menggunakan data dalam lembaran 『Population』, lengkapkan yang berikut: Hitung saiz sampel yang diperlukan untuk pengujian audit berdasarkan tahap keyakinan 90% dan kadar ralat boleh terima 10%. Sertakan perhitungan anda dalam tab kedua berjudul 『Sample Size Calculation』. Jalankan analisis varians atas data Q2 dan Q3 (lajur H dan I). Hitung varians quarter-on-quarter dan catat hasilnya dalam lajur J. Pilih sampel untuk pengujian audit berdasarkan kriteria berikut dan tandakan baris yang dipilih dalam lajur K dengan memasukkan 「1」… Metrik dengan varians >20% antara Q2 dan Q3. Tekankan metrik dengan perubahan peratusan yang sangat besar. Sertakan metrik daripada entiti berikut disebabkan isu terdahulu: CB Cash Italy; CB Correspondent Banking Greece; IB Debt Markets Luxembourg; CB Trade Finance Brazil; PB EMEA UAE. Sertakan metrik A1 dan C1, yang membawa penimbangan risiko lebih tinggi. Sertakan baris di mana nilai adalah sifar untuk kedua-dua kuartal. Sertakan entri daripada perniagaan Trade Finance dan Correspondent Banking. Sertakan metrik daripada Kepulauan Cayman, Pakistan, dan UAE. Pastikan cakupan merangkumi semua Bahagian dan sub-Bahagian. Cipta lembaran baru berjudul 『Sample』: Tab 1: Sampel yang dipilih, disalin daripada lembaran asal 『Population』, dengan baris yang dipilih ditandai dalam lajur K. Tab 2: Perhitungan untuk saiz sampel.

Di sini sebenarnya telah dilibatkan banyak kebijaksanaan manusia: seseorang terlebih dahulu menentukan masalah tersebut dalam bentuk yang boleh diselesaikan oleh model.

Kerja manusia yang sukar yang tidak diukur oleh GDPval sebenarnya telah selesai sebelum model mulai menjawab. Seseorang perlu mengulas dan menguji ketepatan set indikator spesifik ini; seseorang menentukan selang keyakinan yang sesuai, menilai indikator mana yang termasuk dalam lingkup tugas dan mana yang tidak; serta seseorang menetapkan bagaimana hasil seharusnya disajikan.

Dalam kerangka soalan yang sesuai, model memang mampu menyelesaikan tugas profesional. Tetapi, pertimbangkanlah, jika kita sendiri yang memberikan arahan kepada model untuk menyelesaikan tugas yang sama, bagaimanakah ia akan berprestasi?

Dalam artikel saya yang pertama mengenai GDPval, saya pernah menulis: "Saya sangat optimis terhadap AI, tetapi jika kes-kes ini ditafsirkan dengan betul, ia menunjukkan bukan bahawa kerja yang perlu dilakukan oleh manusia berkurang, tetapi sebaliknya, kerja yang perlu dilakukan oleh manusia bertambah selepas menggunakan AI. Sebabnya ialah, di belakang pencapaian-pencapaian ini tersembunyi banyak kebijaksanaan yang 'diselundupkan' — iaitu lapisan tersirat yang terdiri daripada penilaian, maklum balas, dan petunjuk manusia."

Dari jarak jauh, anda akan melihat bahawa semua ini dipenuhi dengan "paradoks Zeno" versi AI.

Zeno's Paradox of AI

Dalam paradoks Zeno, seekor penyu memenangi perlumbaan melawan atlet lari paling pantas Greece, Achilles.

Kerana kura-kura berlari perlahan, ia bermula dengan jarak tertentu. Apabila Achilles sampai ke kedudukan awal kura-kura, kura-kura telah bergerak sedikit ke hadapan; apabila Achilles mengejar ke kedudukan baru itu, kura-kura sekali lagi bergerak maju. Betapa pun pantas Achilles berlari, sentiasa ada jarak seterusnya yang perlu dikejar, dan jurang ini akan terus dihasilkan semula.

Dalam paradoks Zeno tentang AI, kita manusia ialah penyu itu. Dengan evolusi dan pembelajaran budaya selama jutaan tahun, kita mendahului AI sejauh 50 yard. AI pula melintasi semuanya dengan pantas, mulai mendekati tumit kita.

Selama beberapa tahun terakhir, kami masih mampu kekal terdepan.

Bagaimana pula dengan AGI?

Saya percaya, walaupun AGI benar-benar tiba, masih terdapat kekuatan teknologi, arsitektur, dan ekonomi yang kuat yang membuat AI terus tertinggal beberapa langkah di belakang manusia.

Satu definisi AGI

Pertama, kita perlu memberikan definisi yang boleh ditindakkan kepada AGI.

Saya pernah mengemukakan bahawa apabila menjadi ekonomik untuk membiarkan sebuah Agen beroperasi secara berterusan, AGI sudah sampai. Dengan kata lain, apabila saya memiliki sistem yang beroperasi secara berterusan dan bersedia membayar agar ia berfikir, belajar, dan bertindak secara 7×24 jam, saya percaya itu boleh dianggap sebagai AGI dengan jelas.

Kita masih jauh dari tahap ini. Walaupun sistem seperti OpenClaw secara teknis boleh dipanggil kapan saja, ia tidak menghasilkan token pada setiap saat.

Saya suka definisi ini kerana ia boleh diukur: kita akan membiarkannya berterusan atau tidak. Sambil itu, ia juga merangkumi banyak kemampuan yang sukar diukur secara langsung. Sebuah model yang patut berterusan beroperasi harus mampu belajar secara berterusan, serta memilih dan memilih semula kerangka masalah baru secara terbuka.

Dalam dunia AGI, secara teori, dengan anggaran dan masa yang mencukupi, model seharusnya mampu terus meningkatkan dan memperbaiki diri untuk sebarang masalah. Ini memang sepatutnya menjadi ancaman besar terhadap semua pekerjaan.

Rangka bukanlah pembatasi

Namun, bahkan AGI versi kuat sekalipun tidak dapat menyelesaikan "masalah kerangka".

AGI ini boleh memilih dan memilih semula kerangka, tetapi ia masih berusaha mencapai sasaran yang diberikan, mengoptimumkan ganjaran tertentu, atau menanggapi isyarat yang ditentukan oleh orang lain sebagai「tanda kemajuan」. Sasaran ini boleh sangat spesifik, seperti「meningkatkan kadar tukar halaman ini」; atau sangat abstrak, seperti「mencari idea sains baru」.

Walaupun model boleh berpindah dengan lancar antara kerangka kerja yang berbeza, jurang yang selalu kita amati akan muncul semula pada aras yang lebih tinggi. Dalam mana-mana AGI yang dihasilkan oleh laboratorium utama, masih akan wujud seorang "pembatas" — iaitu seorang manusia yang mengarahkan model untuk mencapai satu sasaran tertentu.

Kerana kerangka bukanlah pembatasi, corak yang sama akan berulang secara berterusan: AI menjadikan kemampuan yang telah dibatasi pada semalam menjadi murah; orang-orang menggunakan kemampuan murah ini dalam lebih banyak skenario; hasilnya menjadi sangat melimpah; para pakar kemudian berpindah ke sempadan baharu, menilai apa yang penting pada masa ini; penilaian mereka menciptakan kerangka seterusnya; dan model terus memanjat kerangka ini.

Apabila kita melihat AI melakukan sesuatu yang baru, rasa panik itu selalu kembali kepada soalan yang sama: kita menetapkan satu kerangka, memperhatikan model naik ke atasnya, lalu salah menganggap kerangka itu, atau sesuatu yang mampu naik ke atas kerangka itu, sebagai perkara itu sendiri.

Apabila kita memerhatikan satu ujian piawai dan membandingkannya dengan kemampuan manusia, kita sebenarnya menggabungkan «kerangka» dan «pembentuk kerangka». Skor yang diberikan hanya memberitahu kita sejauh mana model berprestasi dalam kerangka yang kita sediakan; ia tidak menunjukkan bahawa model telah menjadi kita.

Ini adalah kesilapan kategori yang menjadi punca kepanikan. Kita menunjuk kepada sempadan terbaru yang baru sahaja kita lukis dan berkata: Ini adalah kita. Kemudian, apabila model merangkau sempadan ini, kita rasa ia telah mengejar kita. Tetapi yang ia kejar hanyalah kerangka, bukan pemberi kerangka.

Kesalahan terletak pada fakta bahawa kita sentiasa ingin menangkap sesuatu yang spesifik. Kita ingin mengatakan: Kecerdasan ialah ujian piawai ini. Tetapi masalahnya, sekali sesuatu menjadi spesifik hingga boleh dikenal pasti, ia juga menjadi spesifik hingga boleh dioptimalkan dan didaki.

Kerangka adalah perlu. Ia membolehkan kita menangkap dunia dan mengolah dunia. Tetapi kerangka juga beku dan terhad, oleh itu pasti boleh dioptimumkan.

Pengikat berbeza. Pengikat masih berhubung dengan perkara yang harus ditinggalkan oleh kerangka, iaitu situasi penuh yang muncul kepadanya pada setiap ketika.

Apakah itu “konteks penuh”? Sekali anda mulai mengatakan apa yang termasuk dalam “konteks penuh”, anda sudah membuka kerangka lain lagi. Anda tidak dapat menyatakan dengan tepat apa ia, tetapi ia wujud, kerana anda wujud.

Agen tanpa subjektiviti

Sejauh ini, agen yang kami hasilkan, serta agen yang sedang dibina oleh syarikat AI, sebenarnya tidak memiliki banyak keperibadian sejati. Terdapat dua konsep berkaitan yang sering dicampurkan: agency merujuk kepada kemampuan bertindak secara bebas; manakala agen merujuk kepada individu atau benda yang bertindak atas nama orang lain. Sejauh ini, AI semata-mata termasuk dalam kategori yang terakhir.

Tentu, mereka sudah memiliki autonomi untuk menyelesaikan tugas yang diberikan, walaupun tugas tersebut mungkin berlangsung selama berjam-jam bahkan berhari-hari. Tetapi mereka masih hanya merupakan alat untuk mencapai tujuan yang ditentukan oleh manusia. Seluruh industri sedang menginvestasikan puluhan miliar dolar untuk membuat mereka lebih mahir dalam hal ini: melaksanakan tujuan yang kita berikan kepada mereka.

Kecuali pada suatu hari, ia sendiri menjadi tujuan—mengejar matlamatnya sendiri, berpindah dengan lancar antara matlamat yang berbeza, dan membuat keputusan secara bebas daripada kehendak, rujukan, atau tentangan terhadap kehendak manusia—situasi ini tidak akan berubah secara mendasar. Ini tetap berlaku, sekalipun ia menjadi semakin canggih.

Jika anda menghabiskan 10 minit bersama seorang kanak-kanak kecil, anda akan dengan jelas merasakan bahawa walaupun model yang paling kuat, hampir tidak mempunyai sebarang subjektiviti.

Pada hampir semua tugas yang kami perhatikan, kanak-kanak kecil kalah daripada model bahasa. Kanak-kanak kecil tidak boleh menulis kod, tidak boleh merumuskan lembaran kerja, tidak boleh menyusun memo strategik, dan tidak boleh lulus peperiksaan peringkat siswazah. Tetapi dalam erti kata lain, kanak-kanak kecil jauh mendahului model, sehingga perbandingan ini hampir memalukan. Kerana kanak-kanak kecil mempunyai tujuan mereka sendiri.

Anak kecil ingin menyentuh belon merah itu. Dia ingin mengangkat belon merah ke hadapan kipas, untuk melihat apa yang akan berlaku. Dia ingin menusuk belon merah dengan garfu; ingin memasukkannya ke luar tingkap; ingin melihat sama ada anda akan tertawa, marah, atau menyertainya. Dia terus mencipta permainan, menjadikan dunia sebagai medan eksperimen. Dia bukan sedang menunggu prompt, atau mengoptimumkan ujian tertentu, kecuali jika perkara itu kelihatan patut dilakukan menurutnya.

Anda tentu boleh mencuba memberinya petunjuk. Tetapi untuk mendapatkan output yang boleh diramalkan, semoga berjaya. Kanak-kanak kecil hidup dalam medan yang terdiri daripada keinginan, perhatian, kekecewaan, kegembiraan, ketakutan, peniruan, dan permainan.

Agen semasa kini semakin mahir dalam mengejar matlamat. Bahkan selepas kita menyatakan matlamat, mereka boleh membantu kita memperhalusi matlamat tersebut. Mereka juga menunjukkan sedikit ciri-ciri tingkah laku kanak-kanak, seperti bermain, bosan, dan memberontak.

Namun, kerana ia akhirnya dibina dan diselaraskan demi kepentingan manusia, sama ada kepentingan ekonomi atau lain-lain, sejauh tingkah laku ini tidak melayani matlamat manusia yang menggunakannya, ia akan ditekan hingga hampir tidak wujud.

Inilah sebabnya perkataan “Agent” sangat mudah disalahertikan. Model memiliki kemampuan bertindak secara autonom yang semakin kuat. Tetapi dalam pengertian manusia, agensi bukan hanya tentang tindakan. Ia juga bermaksud menginginkan sesuatu untuk diri sendiri, bermaksud bermain semata-mata untuk kesenangan. Kesediaan dan kebergunaan model bertentangan secara mendasar dengan agensi semacam ini. Oleh itu, walaupun model terus membaik, jurang antara model dan manusia akan terus wujud.

Kembali ke Zeno

Di sinilah paradoks Zeno AI mulai runtuh. Ia sebenarnya merupakan eksperimen pemikiran yang kacau. Kami menetapkan satu metafora: AI sedang berlumba dengan kami, berada sangat dekat di belakang tumit kami.

Anda memberikan satu prompt kepada model. Ia memulakan satu pertandingan yang dahulu anda lakukan sendiri. Model itu memulakan dengan pantas, sangat pantas. Ia kuat, tidak pernah letih, dan membawa perasaan organik yang aneh. Ini menjadikan pertandingan ini lebih penting bagi anda. Anda tidak akan berlumba dengan sebuah kereta, tetapi benda ini berbeza—ia membuat anda rasa sangat dekat dengan diri anda.

Anda duduk di sana, memandang token mengalir baris demi baris, hampir terhipnotis. Kemudian anda mulai membayangkan diri anda sendiri berlari dalam perlumbaan ini, versi hantu anda ditambahkan ke atas trek: kadang-kadang di hadapan model, kadang-kadang sejajar dengan model.

Tanpa disedari, model telah berada di hadapan. Anda mulai berkeringat.

Kemudian, pertandingan berakhir.

Anda hampir boleh merasakan otot-otot anda bermula mengecut. Di hadapan mesin replika diri anda, semua orang yang anda kenali, dan seluruh umat manusia, ia kelihatan tidak berguna lagi. Sebuah hantu mengejar hantu lain, dan menang.

Tetapi kemudian, perkara aneh berlaku. Model berpaling ke arah anda. Kotak teks kosong, kursor berkelip-kelip, penuh harapan.

Ia sedang menunggu.

Penutup

Rabi Hanokh menceritakan kisah begini: Dahulu kala, ada seorang yang sangat bodoh. Setiap pagi setelah bangun, dia selalu kesulitan mencari pakaian miliknya. Sehingga sebelum tidur malam, apabila memikirkan bahawa esok pagi dia akan mengalami kesukaran yang sama, dia hampir tidak berani naik ke katil.

Catatan: "Rabbi" adalah guru agama, penerang hukum, dan pembimbing rohani dalam Yudaisme, serupa dengan "guru", "ahli kitab", atau "pemimpin agama" dalam tradisi Yudaik.

Pada suatu malam, dia akhirnya membuat keputusan, mengambil kertas dan pen, sambil menanggalkan pakaian, dia mencatat dengan tepat di mana setiap item pakaian diletakkan.

Pada pagi berikutnya, dia mengambil catatan itu dengan puas dan mulai membacanya: “topi” — topinya memang ada di sana, jadi dia memakainya; “seluar” — seluar itu ada di sana, jadi dia memakainya. Dengan cara ini, dia memakai pakaian satu per satu mengikut arahan dalam catatan itu.

“Semuanya tidak masalah,” katanya dengan panik, “tapi sekarang, di mana saya?”

Di mana saya sebenarnya?

Dia mencari, mencari lama, tetapi semua sia-sia. Dia tidak dapat menemui dirinya sendiri.

“Kami juga begitu,” kata Rabbi.

[Link asal]

Klik untuk mengetahui jawatan yang sedang dibuka oleh BlockBeats

Selamat datang ke komuniti rasmi律动 BlockBeats:

Kumpulan langgan Telegram: https://t.me/theblockbeats

Kumpulan perbincangan Telegram: https://t.me/BlockBeats_App

Akaun rasmi Twitter: https://twitter.com/BlockBeatsAsia