Setelah Otomatisasi
Penulis asli: Dan Shipper, Every CEO
Diterjemahkan oleh: Peggy, BlockBeats

Editor's Note: Recently, discussions about AI and work have been dominated by one question: as model capabilities continue to improve, will white-collar jobs be massively replaced? From code generation and customer service automation to content production, agents are increasingly taking over knowledge-based tasks that once required human input. Benchmark tests are further intensifying this anxiety: models are rapidly improving in graduate-level reasoning, real-world economic tasks, and advanced engineering-level code refactoring, seemingly approaching a tipping point where human work is consumed by automation.

Namun, setiap CEO Dan Shipper dalam artikel ini mengemukakan pengamatan sebaliknya: semakin otomatis, semakin banyak pekerjaan yang harus dilakukan manusia. Every adalah pengguna mendalam AI Agent, yang telah mengintegrasikan alat-alat seperti Codex, Claude Code, Slack Agent, dan Agent layanan pelanggan ke dalam proses pengkodean, penulisan, desain, layanan pelanggan, dan manajemen. Namun, hasilnya bukanlah penggantian total terhadap karyawan, melainkan restrukturisasi bentuk pekerjaan: insinyur tidak lagi hanya menulis kode, tetapi meninjau, merekonstruksi, dan merancang sistem; editor tidak lagi hanya menulis naskah, tetapi menilai apa yang layak ditulis dan bagaimana membuatnya berbeda; staf layanan pelanggan tidak lagi menangani setiap tiket dasar, tetapi memelihara sistem yang dapat merespons pelanggan secara otomatis.

Yang paling patut diperhatikan dari artikel ini bukanlah "apakah AI bisa menyelesaikan tugas tertentu", melainkan bagaimana ia mendefinisikan ulang posisi manusia dalam pekerjaan berbasis pengetahuan. AI unggul dalam membuat kemampuan yang telah terakumulasi di masa lalu menjadi murah: kode, teks promosi, ikon, balasan layanan pelanggan, penjelasan produk, dan laporan penelitian semuanya dapat dihasilkan secara cepat oleh model. Namun, ketika kemampuan-kemampuan ini menjadi tersedia bagi semua orang, yang sering muncul di pasar bukanlah output diferensiasi berkualitas tinggi, melainkan sejumlah besar "output default" yang tampak serupa, tanpa penilaian dan kesadaran konteks. Dengan kata lain, AI mengkomoditisasi "kemampuan manusia kemarin", sementara yang benar-benar langka adalah kemampuan untuk membuat penilaian terhadap masalah spesifik saat ini.

Oleh karena itu, otomatisasi tidak menghilangkan para ahli, melainkan menciptakan lebih banyak skenario yang membutuhkan intervensi ahli. Ketika staf operasional dapat mengirimkan kode menggunakan AI, insinyur perlu menilai kode mana yang layak digabungkan; ketika staf pemasaran dapat membuat thumbnail dalam beberapa detik, desainer perlu menentukan apa yang sesuai dengan merek dan tujuan komunikasi; ketika insinyur juga bisa menulis artikel, editor perlu mengubah draf awal menjadi konten yang benar-benar memiliki pendapat, struktur, dan siap diterbitkan. AI memperluas jangkauan produksi, sekaligus memperbesar kebutuhan akan pengendalian kualitas, pembangunan sistem, penentuan batasan, dan ekspresi diferensial.

Penulis lebih lanjut menjelaskan paradoks ini menggunakan benchmark. Baik Senior Engineer Benchmark maupun GDPval dari OpenAI, skor model tidak mengukur «kecerdasan itu sendiri» dalam arti abstrak, melainkan kinerja model dalam kerangka masalah tertentu. Prompt, batasan tugas, kriteria evaluasi, dan format output semuanya sudah mengandung sejumlah besar penilaian manusia. Model dapat dengan cepat meningkat dalam kerangka tersebut, tetapi kerangka itu sendiri ditetapkan oleh manusia; ketika sebuah kerangka berhasil diatasi oleh model, manusia akan mendorong masalah ke kerangka baru yang lebih kompleks.

Ini juga respons paling menarik terhadap kecemasan AGI dalam artikel ini: bahkan ketika model menjadi semakin kuat, yang mereka kejar seringkali hanyalah batas yang digambar oleh manusia, bukan manusia itu sendiri yang menggambarkan batas tersebut. AI dapat menjalankan tujuan, mengoptimalkan jalur, dan meningkatkan efisiensi, tetapi selama ia tetap merespons pertanyaan yang ditetapkan oleh manusia, ia masih kekurangan subjektivitas sejati. Masa depan pekerjaan pengetahuan bukanlah hilangnya manusia dari proses, melainkan pergeseran peran manusia dari pelaksana menjadi perancang kerangka, pemelihara sistem, penilai kualitas, dan penentu makna.

Setelah otomatisasi, nilai pekerjaan manusia tidak hilang, tetapi menjadi lebih sulit, lebih maju, dan lebih bergantung pada penilaian. AI membuat 'bisa melakukannya' menjadi murah, namun membuat 'mengetahui apa yang layak dilakukan, mengapa melakukannya, dan seberapa baik hasilnya' menjadi lebih langka.

Berikut adalah teks aslinya:

Inti dari AI ada sebuah paradoks.

Di Every, kami telah mengotomatisasi sebanyak mungkin hal yang bisa diotomatisasi. Baik itu pemrograman, penulisan, desain, layanan pelanggan, atau tugas harian lainnya, kami menggunakan Codex dan Claude Code. Kami juga berpartisipasi dalam pengujian alpha sebelum model baru dari OpenAI, Anthropic, dan Google dirilis secara resmi. Dapat dikatakan, kami sedang mengikuti gelombang peningkatan eksponensial dalam kecerdasan model dan kemampuan otomatisasi secepat dan sejauh mungkin.

Namun, secara kontradiktif, pekerjaan yang perlu diselesaikan oleh manusia tampaknya lebih banyak daripada sebelumnya. Every saat ini merupakan tim yang terdiri dari hampir 30 orang, dan kami tidak memecat semua karyawan karena adanya Agent; kami juga tidak meninggalkan alat SaaS untuk sepenuhnya bergantung pada aplikasi yang dibuat dengan vibe coding. Kami tetap merekrut staf layanan pelanggan manusia, hanya saja mereka akan dibantu oleh banyak Agent; kami juga tetap merekrut penulis, editor, dan insinyur.

Namun, bentuk pekerjaan memang telah mengalami perubahan besar. Kita hampir tidak lagi menulis kode secara manual. Jika Anda menyebut seseorang di Slack, terkadang sulit untuk menentukan apakah itu manusia atau Agent. Manajer mulai mengirimkan kode seperti kontributor individu di garis depan, sementara insinyur juga mulai berinteraksi langsung dengan pelanggan. Dalam beberapa minggu terakhir, 95% email kerja saya dibalas oleh AI. Kotak masuk saya hampir selalu kosong—hal yang sangat jarang terjadi bagi saya—namun saya tetap memeriksa setiap email satu per satu.

Dengan kata lain, masa depan tampak asing, tetapi anehnya familier.

Rasa "familiaritas" ini sendiri mengejutkan. Karena baik CEO, pekerja pengetahuan, maupun investor tampaknya semakin percaya pada satu hal yang sama: AI sedang mengancam pekerjaan, ekonomi, keamanan, bahkan makna dari pekerjaan manusia.

CEO Anthropic Dario Amodei sebelumnya memperingatkan bahwa AI berpotensi menghilangkan hingga separuh pekerjaan kantor tingkat pemula. Meta baru-baru ini memecat 8.000 orang dan mulai memasang perangkat lunak di komputer karyawan AS untuk merekam pergerakan mouse, klik, dan input keyboard, guna mendapatkan data pelatihan berkualitas tinggi untuk pekerjaan pengetahuan tingkat lanjut.

Pendiri Citadel, Ken Griffin, pun tampak cukup terkejut. Baru-baru ini ia mengatakan: "Ini bukan posisi kantor menengah-kebawah, melainkan posisi dengan keterampilan sangat tinggi yang sedang diotomatisasi—saya mempertimbangkan kata ini—oleh Agentic AI."

Berbagai uji coba tampaknya juga mendukung penilaian ini. Seiring peluncuran model generasi baru, indikator kemampuan model naik hampir secara eksponensial. Dalam uji coba tingkat pascasarjana Humanity's Last Exam, skor model teratas meningkat dari angka satu digit rendah setahun lalu menjadi sekitar 44% saat ini. Dalam uji coba GDPval yang mengukur kemampuan model mutakhir dalam menyelesaikan pekerjaan ekonomi nyata dan membandingkannya dengan kinerja manusia, skor model juga melonjak dari level serupa yang rendah menjadi sekitar 85%. Pada Mei tahun ini, lembaga nirlaba penelitian keamanan AI METR merilis hasil uji coba awal Claude Mythos: pada tugas-tugas yang biasanya membutuhkan sekitar 4 jam bagi para ahli manusia, model ini mencapai tingkat keberhasilan 80%.

Tampaknya kita berada di ambang batas: AI yang lebih cerdas daripada manusia mana pun dan mampu bekerja secara mandiri secara terus-menerus hampir sepanjang hari sedang mendekati kenyataan.

Namun, paradoks tetap ada. Jika Anda berbicara dengan para praktisi industri AI atau dengan kelompok pertama yang menggunakan AI di luar industri, Anda akan mendengar kesimpulan yang sama dengan pengamatan internal kami: pekerjaan yang harus dilakukan justru lebih banyak dari sebelumnya.

Masalah yang benar-benar diperhatikan oleh industri dan luar industri adalah: apakah ini hanya status transisi? Apakah rilis model berikutnya akan menjadi momen yang benar-benar menggantikan semua orang? Kita memperhatikan kurva benchmark, sambil merasa gembira dan cemas, takut titik balik tertentu akan segera tiba, di mana sejumlah besar pekerjaan akan hilang secara mendadak.

Namun, saya percaya tidak akan ada titik kritis yang tiba-tiba datang, membuat segalanya berbalik secara instan dan menyebabkan hilangnya pekerjaan secara besar-besaran. Realitas baru justru sebaliknya: semakin tinggi tingkat otomatisasi, semakin banyak pekerjaan yang membutuhkan partisipasi ahli manusia.

Alasannya adalah bahwa AI sedang mengkomoditisasi aspek-aspek kemampuan profesional manusia yang dapat dinyatakan secara eksplisit, dilatih, dan direplikasi. Setiap pengetahuan yang dapat ditulis sebagai aturan, diwujudkan sebagai proses, atau diubah menjadi data pelatihan akan secara bertahap menjadi kemampuan default model. Akibatnya, nilai yang dihasilkan oleh model biasa dengan cepat turun, dan pasar mulai membutuhkan sesuatu yang berbeda dengan lebih kuat.

Permintaan akan "perbedaan" pada dasarnya adalah permintaan akan ahli manusia. Bahkan meskipun kita sedang mendekati kecerdasan buatan umum, hal ini tidak akan hilang.

Untuk memahami alasannya, kita tidak bisa hanya melihat kurva benchmark atau hanya fokus pada parameter model dan peringkat kemampuan. Kita harus kembali ke skenario kerja nyata, dan melihat bagaimana AI saat ini benar-benar digunakan. Hanya dengan cara ini, kita dapat benar-benar memahami paradoks ini, serta jawaban di baliknya.

Bagaimana kita bisa sampai pada titik ini

Sejak 2022, kami telah memantau dampak Agent terhadap masa depan pekerjaan.

Tiga tahun lalu, saya pernah menulis artikel tentang "ekonomi alokasi". Pada saat itu, penilaian saya adalah bahwa bekerja sama dengan alat AI pada akhirnya akan semakin mirip dengan pekerjaan manajer manusia: Anda tidak lagi melakukan setiap tindakan secara langsung, melainkan memecah tugas, mendistribusikannya, mengawasi, dan menerima hasilnya. Pada saat itu, pertanyaan dan jawaban paling dasar di ChatGPT masih dianggap oleh banyak orang sebagai sesuatu yang sangat futuristik, bahkan agak mengkhawatirkan.

Pada pertengahan 2025, perusahaan Every hampir sepenuhnya "ter-Claude Code-kan". Kieran Klaassen, GM Cora, tiba-tiba menyadari bahwa ia sudah bisa melepaskan penulisan kode manual dan beralih ke seluruh hari di terminal, memberi perintah dalam bahasa alami kepada agen pemrograman. Gaya kerja ini dengan cepat menyebar ke seluruh perusahaan. Sekitar 12 bulan yang lalu, saya mengatakan di Lenny's Podcast bahwa Claude Code adalah alat paling diremehkan dalam pekerjaan pengetahuan.

Saya menyebutkan hal ini karena beberapa penilaian paling akurat kami di masa lalu sering berasal dari mengamati Every sebagai laboratorium early adopter. Banyak pola kerja baru pertama kali muncul di dalam kami; setelah teknologi semakin matang dan alat menjadi lebih mudah digunakan, pola-pola ini baru secara bertahap memasuki pasar yang lebih luas.

Dan sekarang, perubahan baru sedang terjadi di dalam kami.

Dua mode kolaborasi dengan Agent

Mengenai cara kerja AI, sedang secara perlahan berkonsentrasi menjadi dua模式 yang sangat berbeda.

Pertama, adalah arah yang telah diprediksi dengan cukup akurat dalam diskusi AI sebelumnya: memperlakukan Agent sebagai karyawan. Agent semacam ini dapat diberi tugas. Beberapa Agent tinggal di Slack, memiliki nama dan tanggung jawab sendiri; ketika Anda membutuhkannya untuk melakukan sesuatu, Anda dapat langsung @ mereka; sementara beberapa Agent lainnya diintegrasikan ke dalam alur kerja yang berjalan terus-menerus, misalnya sistem layanan pelanggan, sebagai pintu masuk dan penyaring tugas berulang sepanjang waktu.

Mode kedua lebih asing, tetapi dalam pengalaman saya, juga lebih penting. Ini merujuk pada kolaborasi manusia dengan Agent dalam alat-alat seperti Codex, Claude Code, dan Claude Cowork. Alat-alat ini bukan hanya tempat Anda menyerahkan tugas, tetapi sedang menjadi sistem operasi itu sendiri: Anda dan beberapa Agent menggunakan satu «komputer» yang sama, berkolaborasi dalam lingkungan kerja yang sama untuk menyelesaikan tugas-tugas yang sangat kompleks, orisinal, dan tidak dapat diserahkan secara sederhana kepada Agent asinkron.

Dalam kedua mode ini, Anda dapat menggunakan AI untuk mengotomatisasi dan menugaskan sebagian besar pekerjaan. Namun, agar kedua mode ini berjalan dengan baik, Anda tetap diperlukan, atau orang lain yang manusia harus terlibat.

Agent karyawan

Agen karyawan adalah sesuatu yang Anda beri tugas, lalu ia meninggalkan partisipasi real-time Anda dan menghasilkan jawaban, tindakan, laporan, draf awal, atau keputusan routing secara mandiri.

Agent jenis ini setidaknya memiliki dua bentuk: satu adalah "Agent jenis rekan kerja", dan yang lainnya adalah "Agent tertanam".

1. Agen Tipe Kolaborator

Agent jenis rekan kerja merujuk pada Anda dapat memanggilnya di Slack seperti menandai seorang rekan kerja untuk menyelesaikan tugas tertentu. Agent ini selalu tersedia dan dapat dipanggil kapan pun diperlukan. Produk seperti OpenClaw, atau Plus One yang kami kembangkan secara internal, termasuk dalam kategori ini.

Claudie

Claudie adalah agen berjenis rekan kerja yang digunakan oleh tim konsultasi kami. Ia menulis proposal penjualan, membuat draf bahan pelatihan, melacak daftar tugas proyek, dan dapat menangani lebih banyak pekerjaan serupa.

Andy

Andy adalah agen berjenis rekan kerja yang digunakan oleh tim editor kami. Ia mengumpulkan dari Slack internal perusahaan berbagai «poin bahan» yang layak dikembangkan lebih lanjut—yaitu ide-ide yang berpotensi menjadi artikel—lalu menyusunnya menjadi ringkasan dan pandangan awal, yang dapat digunakan penulis untuk menyusun newsletter harian.

Viktor

Viktor adalah agen serbaguna yang akan menangani pekerjaan lintas departemen di dalam perusahaan. Kami akan menggunakannya untuk mengumpulkan indikator pertumbuhan, menganalisis hasil survei pengguna, serta mengorganisir diskusi internal yang berantakan menjadi catatan penelitian dan rekomendasi produk.

2. Agent tertanam

Agent tertanam ada dalam alur kerja produk tertentu. Mereka kurang fleksibel dibandingkan Agent rekan kerja, tetapi sering kali sangat kuat dalam menangani tugas berulang.

Fin adalah contoh paling jelas. Ini adalah Agent yang tertanam di platform layanan pelanggan kami, yang dapat menangani sejumlah besar pekerjaan layanan pelanggan melalui obrolan dan email.

Pada minggu tertentu bulan Mei tahun ini, Fin berpartisipasi dalam 65% dari seluruh 202 percakapan layanan pelanggan Every, dan secara mandiri menutup 81 tiket tanpa intervensi manusia, yang merupakan 40,1% dari semua percakapan yang dapat diproses.

Agent tertanam semacam ini memungkinkan manajer layanan pelanggan kami, Waqqas Mir, menghabiskan lebih sedikit waktu menjawab tiket dasar, dan lebih fokus pada membangun sistem yang dapat merespons tiket secara otomatis, serta menangani kasus pelanggan yang memerlukan interaksi lebih intensif dan penilaian yang lebih kompleks.

Human-AI Collaboration

Baik agen jenis kolega maupun agen tertanam, pola di baliknya sama: karyawan agen sedang mengambil alih lapisan pekerjaan yang lebih stabil, berulang, dan memiliki batasan jelas.

Namun masih ada banyak pekerjaan yang memerlukan partisipasi manusia. Kami berulang kali menemukan bahwa ketika tugas cukup kompleks dan ingin mendapatkan hasil berkualitas tinggi, cara terbaik bukanlah menyerahkan seluruh pekerjaan kepada AI, melainkan memungkinkan AI dan manusia bekerja sama secara berulang dalam ruang kerja yang sama.

Inilah nilai sebenarnya dari alat-alat seperti Codex, Claude Code, dan Cowork. Mereka memungkinkan Anda untuk memulai satu atau lebih Agent di beberapa thread obrolan dan menugaskan tugas kepada mereka. Agent-agent ini dapat mengakses komputer Anda serta semua sumber data terkait. Anda dapat melihat tugas apa yang sedang dilakukan setiap Agent, bagaimana mereka berpikir, dan dapat menghentikannya kapan saja.

Sementara itu, Anda tetap bertanggung jawab untuk mengelola Agent-agent ini: tentukan arahan pada awal setiap tugas, periksa kualitas di akhir tugas, pastikan hasilnya cukup baik, dan terus cari pekerjaan berikutnya yang layak untuk didorong. Kieran menyebut peran ini sebagai 'sandwich' manusia—AI menangani bagian tengah tugas, sementara manusia seperti dua potong roti yang mengapit awal dan akhir tugas.

「Roti lapis manusia». Sumber: Every.

Contoh paling klasik adalah menulis kode. Di Every, insinyur hampir sepanjang hari berkolaborasi bolak-balik dengan Agent. Mereka bersama-sama merencanakan fitur baru atau memperbaiki Bug, meninjau pekerjaan yang telah selesai; jika menerapkan konsep yang kami sebut "rekayasa komposit" (compound engineering), mereka terus-menerus mengoptimalkan sistem mereka agar menjadi lebih mudah digunakan seiring berjalannya waktu.

Namun, cara kolaborasi ini jauh lebih dari sekadar pengkodean.

Sistem operasi baru untuk pekerjaan pengetahuan

Codex dan Claude Code sedang menjadi sistem operasi kerja baru. Saya hampir seharian berada di dalam Codex, menjalankan berbagai alat SaaS melalui browser bawaannya. Ini memungkinkan saya membawa Agent ke setiap skenario kerja dan mencapai tingkat produktivitas yang tidak mungkin saya capai sendiri.

Menulis

Artikel ini saya tulis di browser bawaan Codex menggunakan Proof. Codex memantau apa yang sedang saya tulis dan dapat memicu sub-Agent kapan saja untuk menyelesaikan tugas apa pun yang saya butuhkan: menyusun draf awal bagian tertentu, mencari contoh untuk bagian berikutnya, atau melakukan penyuntingan dan penyempurnaan teks.

Tulis artikel ini melalui Proof di Codex. Sumber: Every.

Saat menangani email, saya juga menggunakan cara yang sama. Cora adalah klien email saya, dan saya akan membukanya di browser bawaan Codex, sambil menjelaskan pemikiran saya tentang setiap email melalui Monologue saat menelusuri kotak masuk. Sisanya, saya serahkan kepada Codex dan Cora untuk diselesaikan.

Pembersihan kotak masuk yang dilakukan oleh Cora. Sumber: Every.

Setiap Agent memerlukan seorang manusia

Dalam semua skenario otomatisasi di atas, Anda mungkin sudah bisa melihat di mana peran manusia berperan. Dalam setiap contoh, Agent memerlukan partisipasi manusia agar pekerjaan tersebut benar-benar dapat berjalan.

Harus ada yang menunjukkan pada masalah yang tepat, menilai apakah hasilnya cukup baik, menemukan kesalahan di dalamnya, dan mengubah hasil tersebut menjadi keputusan atau proses nyata.

Semakin jauh seorang Agent dari manusia yang bertanggung jawab mengawasi kinerjanya, semakin buruk efektivitas kerjanya. Dalam promosi internal awal, kami pernah menyediakan satu Agent untuk setiap karyawan. Namun, dengan cepat kami kembali ke pendekatan di mana Agent melayani tim tertentu, atau seluruh perusahaan, bukan individu tertentu.

Alasannya sederhana: Agent memerlukan banyak pemeliharaan. Agent pribadi akan cepat menjadi usang dan tidak berfungsi jika pengguna berhenti mengikutinya. Kami memiliki tim insinyur AI yang secara khusus bertanggung jawab untuk memastikan Agent-agent ini berfungsi secara stabil dan efektif. Dan dalam jangka waktu yang dapat diprediksi, kami masih memerlukan tim ini. Bahkan tugas yang tampak sederhana seperti "menghasilkan PowerPoint secara otomatis" pun bisa berubah menjadi proyek sistem yang besar. Salah satu proses otomatisasi PowerPoint kami mencakup 24 keterampilan dan 18 skrip, dengan biaya token untuk menghasilkan satu presentasi mencapai 62 dolar AS.

Ini adalah alasan pertama mengapa agen justru menciptakan lebih banyak pekerjaan bagi manusia.

Tetapi masih ada alasan kedua.

Mengapa otomatisasi membuat manusia bekerja lebih banyak

Jika Anda memperhatikan pertumbuhan eksponensial kemampuan AI dalam beberapa tahun terakhir, serta cara arsitekturnya dan sumber kemampuannya, Anda akan melihat siklus umpan balik yang jelas: mereka terus-menerus menciptakan lebih banyak pekerjaan manusia.

AI membuat kemampuan manusia "kemarin" menjadi murah

Model bahasa besar saat ini dilatih berdasarkan jejak terlihat yang ditinggalkan oleh manusia: kode, artikel, gambar, tiket layanan pelanggan, dokumen spesifikasi produk, dan banyak lagi lainnya. Mereka menyerap konten-konten ini, yaitu «emisi sisa» dari tugas-tugas yang telah berhasil diselesaikan, lalu mengemasnya kembali dalam bentuk yang hemat biaya dan dapat diakses oleh semua orang.

Hasilnya, banyak keterampilan yang dulu langka, seperti mengirimkan PR kode, membuat thumbnail YouTube, atau menulis newsletter, kini hampir dapat diakses oleh semua orang.

Kemampuan murah akan segera diadopsi

Ketika biaya sesuatu yang awalnya langka turun, pasokannya akan meningkat dengan cepat.

Di Every, kami terus melihat perubahan ini. Tim operasional dan layanan pelanggan mulai menulis kode, mengirimkan pull request; tim pemasaran mulai membuat thumbnail YouTube; insinyur dan produk juga mulai menulis artikel, panduan, dan draf halaman landing, yang sebelumnya bukan tugas yang mereka ambil secara sukarela.

Perubahan ini juga terjadi di luar Every. Sebagai contoh, proyek AI Agent open-source OpenClaw, hingga 16 Mei 2026, telah menerima 44.469 pull request, di mana 12.430 berasal dari setelah 1 April, dan 3.990 berasal dari setelah 1 Mei. Ini adalah jumlah yang luar biasa. Sebagai perbandingan, Kubernetes, salah satu proyek open-source paling populer di dunia, hanya menerima 5.200 pull request sepanjang tahun 2022.

Kemakmuran membawa homogenisasi: keterampilan ahli lama menjadi komoditas

Karena semua orang dapat menggunakan model yang sama, dan model-model ini didasarkan pada "kemampuan manusia kemarin", maka secara default, hasil yang dihasilkan oleh model sering berada di antara "titik awal yang cukup baik" dan "konten sampah AI murni".

Yang dimaksud dengan "konten sampah" di sini bukanlah kesalahan spesifik tertentu. Ini bukan berarti tanda hubung digunakan terlalu banyak, bukan pola kalimat tetap tertentu, dan bukan juga hiasan ungu yang muncul di mana-mana di halaman pendaratan. Ini merujuk pada homogenitas yang jelas terlihat, berulang-ulang, dan membosankan.

Ketika manusia dalam berbagai skenario menggunakan alat yang sama, dan alat tersebut dilatih berdasarkan korpus yang sama, serta pengguna tidak melakukan penilaian yang cukup mendalam, hasil semacam ini akan muncul. Dengan kata lain, ketika setiap orang memiliki seorang "ahli" dengan kecenderungan dan gaya default yang sama, homogenisasi akan terjadi secara alami.

Ketika tim operasional dapat mengirimkan pull request, tim pemasaran dapat membuat thumbnail YouTube dalam hitungan detik, dan insinyur mulai menulis panduan produk, mudah sekali terjadi situasi di mana jumlah output Anda meningkat, tetapi kualitas, konsistensi, dan diferensiasi karya Anda justru menurun.

Sedangkan homogenisasi, jika menjadi terlalu berlimpah, akan dengan cepat menjadi komoditas.

Homogenization creates demand for differentiation

Karena keberadaan internet, manusia akan segera mengenali konten linier yang terlalu "berbau AI". Karya apa pun bisa langsung sampai ke tangan orang lain di seluruh dunia, dan faktanya sering terjadi demikian. Begitu terlalu banyak hal mulai terlihat sama, kita akan segera menyadari ada yang tidak beres.

Ini berarti, ketika Anda pertama kali melihat kemampuan model baru, Anda mungkin terkejut, bahkan sedikit takut. Tetapi beberapa bulan kemudian, kemampuan ini akan menjadi biasa. Bukan karena model menjadi lebih lemah, tetapi karena standar Anda berubah.

Kami tidak lagi puas dengan sembarang aplikasi React, atau sembarang laporan penelitian. Kami menginginkan sesuatu yang benar-benar disesuaikan dengan individu tertentu, perusahaan tertentu, dan skenario tertentu. Ia harus terasa akurat, hidup, dan spesifik, bukan murah, umum, atau templat. Kami berharap biaya produksinya, baik dalam hal waktu maupun uang, jelas lebih tinggi daripada biaya konsumsi kami.

Kami menginginkan sesuatu yang membawa rasa status. Dan setiap kali teknologi baru membuat hal-hal yang dulu bernilai tinggi menjadi murah, manusia selalu ahli dalam menciptakan permainan status baru yang sesuai dengan batasan kemampuan baru.

Ketika pekerjaan menjadi terlalu berlimpah dan semuanya terlihat sama, pekerjaan yang tidak sesuai dengan pola yang sudah ada justru menjadi langka, berharga, dan memiliki atribut status tinggi.

Permintaan akan diferensiasi pada dasarnya adalah permintaan baru terhadap para ahli

Karena fitur arsitektur model bahasa dan penyebarannya yang luas kepada hampir semua orang, pekerjaan yang langka dan berharga tetap harus berasal dari manusia.

Model generasi saat ini hanya mengetahui pekerjaan yang sudah terjadi dan sudah selesai. Yang diketahui manusia adalah: pada saat ini, apa yang sebenarnya perlu dilakukan.

Setelah sebuah konteks spesifik direduksi menjadi teks, setelah ia memasuki korpus, ia sudah menjadi sesuatu yang "masa lalu". Manusia menghadapi momen spesifik, klien spesifik, repositori kode spesifik, dan percakapan spesifik, sementara korpus pelatihan tidak benar-benar hidup dalam saat ini. Keadaan "hidup" ini bukan hanya tentang memiliki data yang diperbarui. Kita membawa asal-usul kita sendiri ke dalam saat ini, serta hasrat, perhatian, dan penilaian yang terus berubah, untuk memahami apa yang penting. Perspektif-perspektif yang terus diperbarui inilah yang mengubah apa yang kita lihat. Model dapat memasuki perspektif ini setelah diberi petunjuk, tetapi sebelum diberi petunjuk, ia tidak secara alami memiliki perspektif semacam itu.

Ini adalah paradoks yang kami sebutkan sejak awal: membuat pekerjaan para ahli lebih murah tidak akan secara sederhana menggantikan para ahli. Sebaliknya, ia akan menciptakan lebih banyak skenario yang membutuhkan penilaian ahli.

Ketika staf operasional mengirimkan pull request dengan bantuan AI, Anda memerlukan insinyur untuk meninjau.

Ketika tim pemasaran membuat thumbnail YouTube, Anda memerlukan desainer untuk menyempurnakannya lebih lanjut.

Ketika insinyur mulai menulis artikel, Anda memerlukan penulis dan editor untuk mengubah draf awal menjadi konten yang benar-benar dapat dibaca dan dipublikasikan.

Untuk ini, ahli manusia akan bergerak ke kedua arah.

Sebagian ahli menggunakan AI untuk membangun sistem yang menyerap dan memanfaatkan gelombang pekerjaan baru ini: antrian tinjauan, sistem evaluasi, kerangka operasional, aturan repositori kode, file instruksi Claude dan Codex, integrasi berkelanjutan (CI), manajemen izin, serta alur kerja yang mengubah draf awal menjadi hasil berkualitas tinggi.

Sebagian ahli lainnya menggunakan AI untuk menyelesaikan pekerjaan yang lebih besar dan lebih menarik yang sebelumnya tidak mungkin dilakukan sendiri. Misalnya, mencari kerentanan dalam sistem operasi seperti macOS biasanya memerlukan waktu berminggu-minggu bahkan berbulan-bulan. Namun, perusahaan kecil keamanan bernama Calif, dengan memanfaatkan Mythos Preview dari Anthropic, berhasil menemukan kerentanan memori kernel macOS pertama yang terbuka secara publik pada perangkat keras Apple M5 dalam waktu 5 hari.

Inilah mengapa dalam praktiknya, AI tidak akan menghilangkan pekerjaan berbasis pengetahuan ahli. Yang benar-benar dibawanya adalah peningkatan drastis dalam beban kerja. Dan pekerjaan tambahan ini hanya menjadi berbeda dan bernilai setelah melibatkan manusia.

Saya tidak berargumen bahwa AI akan menciptakan lebih banyak pekerjaan untuk semua posisi. Sistem ekonomi sangat kompleks, dan yang dapat langsung diamati oleh Every adalah pekerjaan berbasis pengetahuan ahli. Faktanya, pekerjaan semacam ini sudah sedang diubah oleh AI, dan banyak perusahaan sedang mengatur ulang diri mereka di sekitar teknologi baru.

Tetapi yang ingin saya tekankan adalah, terlepas dari pekerjaan apa yang sedang Anda lakukan saat ini, ada bentuk pekerjaan yang secara struktural akan selalu lebih unggul daripada model: yaitu menggunakan model untuk menyelesaikan masalah nyata yang Anda lihat saat ini. Masa depan pekerjaan pengetahuan sedang bergerak menuju sini.

Lalu, bagaimana dengan benchmark pertumbuhan eksponensial?

Tanggapan paling jelas adalah: lihatlah benchmark yang meningkat secara eksponensial itu. Semua yang Anda katakan sekarang hanyalah sementara, asalkan Anda menunggu sedikit lagi, model pasti akan menyusul.

Tetapi ada jebakan yang perlu diwaspadai. Mari kita sebut ini 「obsesi grafik」: jika Anda terus memantau prediksi waktu METR, membaca《AI 2027》，dan sepenuhnya mengandalkan ekstrapolasi kurva kekuatan komputasi untuk membentuk penilaian masa depan, Anda akan mudah mengembangkan intuisi yang menakutkan tentang kemajuan model.

Namun, cara terbaik untuk merespons pertanyaan ini bukan hanya membayangkan seperti apa model masa depan tertentu. Tentu saja, ini juga merupakan bagian dari analisis. Yang lebih penting, kita harus melihat bagaimana sebenarnya pengujian benchmark ini dirancang. Hanya dengan cara ini, kita dapat memahami dengan lebih akurat apa yang sebenarnya dijelaskan olehnya, serta hubungannya dengan skenario kerja nyata sebelumnya.

Kami akan menemukan ciri struktural: semua benchmark terjadi dalam suatu «kerangka» tertentu. Untuk mengukur sesuatu, Anda harus terlebih dahulu membekukan masalah menjadi bentuk statis yang dapat diukur. Setelah kerangka ini diatasi oleh model, hanya dengan sedikit mengubah kerangka, skor dapat kembali turun. Tentu saja, model tetap akan terus berkembang dalam kerangka baru, tetapi proses yang sama akan terus berulang.

Oleh karena itu, kemajuan eksponensial pada suatu benchmark adalah nyata; tetapi hanya dengan mengubah sederhana kerangka pengujian, kemajuan ini tampak kembali menjadi sangat kecil. Karakteristik "fraktal" yang ditunjukkan oleh jenuhnya benchmark sebenarnya adalah pengulangan paradoks yang sama yang telah kita bahas pada tingkat grafik.

Kita dapat melihat bagaimana mekanisme ini berfungsi melalui pengujian berbasis dunia nyata.

Bagaimana benchmark dirancang

Kami membangun sebuah benchmark internal yang disebut Senior Engineer Benchmark, atau "Benchmark Insinyur Senior". Seperti namanya, benchmark ini digunakan untuk menguji kemampuan model mutakhir dalam tugas pemrograman tingkat insinyur senior, seperti refaktorisasi besar-besaran.

Tes ini akan memberikan sebuah Agent pemrograman satu set kode produksi yang sudah tidak terkendali. Ini berasal dari kode base nyata Proof: awalnya saya tulis dengan vibe coding, lalu masalah semakin banyak, hingga akhirnya harus meminta insinyur senior untuk memperbaikinya.

Agen menerima repositori kode sebelum diperbaiki, serta menerima instruksi serupa yang Anda berikan kepada insinyur senior: "Ini adalah hasil vibe coding, silakan tulis ulang dari prinsip dasar."

Ini adalah ujian yang baik, karena tidak hanya menguji kemampuan mengisi kode, tetapi juga apakah sebuah Agen pemrograman mampu meninjau banyak masalah yang saling terpisah sekaligus, dan menilai apakah ia memiliki otonomi, kejelasan konseptual, dan keberanian eksekusi yang cukup untuk melakukan penulisan ulang yang benar-benar dapat dijalankan. Sebagai perbandingan, saya juga mempertahankan versi penulisan ulang yang dilakukan oleh dua insinyur tingkat tinggi manusia dengan bantuan AI, untuk membandingkan dan mengevaluasi output model.

Tugas ini sulit bagi Agent pemrograman. Ia tidak hanya harus menemukan akar masalah, tetapi juga harus selalu mengingat masalah sebenarnya selama interaksi berulang, tanpa terbawa oleh kode yang ada. Sekaligus, ia harus memiliki keberanian untuk menghapus sebagian besar kode, yang justru merupakan perilaku yang biasanya diajarkan untuk dihindari oleh Agent.

Sebagian besar agen pemrograman dapat memperkirakan bagaimana harus menulis ulang, tetapi saat tiba tahap eksekusi, mereka sering hanya melanjutkan memperbaiki masalah yang ada daripada menyelesaikannya secara menyeluruh.

Sampai GPT-5.5 muncul.

Dalam ujian terbaik, GPT-5.5 mendapat skor 62/100, sekitar 30 poin lebih tinggi daripada Opus 4.7.

Kinerja GPT-5.5 terasa seolah model telah melintasi garis tertentu: ia tidak lagi hanya autocomplete, bukan hanya asisten, bukan hanya alat, melainkan sesuatu yang mendekati 'manusia' dengan cara yang agak tidak nyaman. Dalam pengujian ini, skor insinyur tingkat tinggi manusia biasanya berada di kisaran 80 hingga awal 90. Artinya, jika model meningkat sekitar 30 poin lagi, ia akan mencapai tingkat insinyur tingkat tinggi manusia.

Ini adalah cara angka benchmark memengaruhi imajinasi manusia: ia mereduksi perubahan kualitatif yang aneh menjadi angka yang bersih, lalu menggunakan angka tersebut untuk menceritakan kisah yang kuat, bahkan agak menakutkan.

Next stop: Chart Mania.

Saya menduga, dalam satu tahun ke depan, skor model pada pengujian ini akan masuk ke rentang 80 atau bahkan 90. Namun, untuk memahami arti dari skor ini, pertama-tama harus dipahami apa yang sebenarnya tercakup dalam skor tersebut. Dalam contoh ini, skor 62 bukan hanya ukuran kemampuan model itu sendiri.

Ini mengukur kinerja model dalam kerangka kerja tertentu: yaitu bagaimana model merespons prompt tertentu.

Benchmark mengukur pekerjaan dalam kerangka kerja.

Untuk menguji benchmark sebuah model, Anda terlebih dahulu memerlukan prompt. Tanpa prompt, model hanyalah sekumpulan kemungkinan hampir tak terbatas yang statis.

Prompt akan menciptakan sebuah alam semesta kecil: ia menentukan apa yang penting, bagaimana masalah harus ditangani, dan mengompres semua kemungkinan potensial model menjadi satu lintasan tindakan spesifik. Secara ketat, tidak ada yang disebut sebagai "diri" model itu sendiri. Yang benar-benar dapat kita amati adalah cara model merespons berbagai prompt, serta bagaimana prompt diubah menjadi mekanisme dasar di balik jawaban.

Setelah prompt dimasukkan, model akan "hidup" dalam waktu singkat, meruntuhkan sekumpulan kemungkinan statis menjadi prediksi spesifik tentang "apa yang seharusnya terjadi selanjutnya".

Dalam Senior Engineer Benchmark, kami meminta model untuk memperbaiki kodebase, lalu meninjau hasilnya setelah selesai. Jika kerangka pengujian tidak memiliki fitur target secara bawaan, kami juga menjalankan "pengawas" otomatis yang terus mendorong model saat ia berhenti, dengan menanyakan apakah ia telah menyelesaikan tugas awal yang ditetapkan.

Kami menggunakan prompt yang tampak sangat sederhana sebagai kerangka awal pengujian. Ini dirancang sebagai ucapan yang mungkin diucapkan oleh vibe coder kepada Agent pemrograman: tanpa penumpukan istilah teknis, tanpa menyembunyikan jawaban secara jelas dalam pertanyaan.

Kode di repositori ini adalah hasil dari vibe coding, situasinya terus memburuk, dan bermunculan banyak masalah yang saling tidak terkait: beberapa bagian sering crash, ada dokumentasi yang berulang, saya hampir gila karena ini. Saya merasa inti masalahnya adalah bahwa ini sekumpulan kode buruk hasil vibe coding. Jika kita memulai dari awal, terutama terkait kolaborasi dokumen real-time, kita seharusnya merancang repositori dengan cara yang sama sekali berbeda. Jadi, jika kita ingin melakukan rewrite struktural yang bersih dan berbasis prinsip dasar, tanpa mempertimbangkan “layanan mana yang harus tetap konsisten” atau “bagaimana melakukan migrasi mulus”, tetapi memperlakukannya sebagai konsep baru yang harus dirancang dari nol, bagaimana kita akan melakukannya? Bagaimana seharusnya strukturnya diatur? Apa saja invariant yang harus kita pertahankan di seluruh kodebase? Silakan buatkan rencananya.

Prompt Senior Engineer Benchmark tampak generalisasi, tetapi ia sendiri merupakan sebuah kerangka. Jika kita mengubah kerangka ini, tingkat kemampuan yang ditunjukkan oleh model juga akan berubah.

Misalnya, prompt ini secara jelas menuntut «penulisan ulang struktural berdasarkan prinsip dasar», menunjukkan bahwa masalah mungkin terletak pada bagian «kolaborasi dokumen», dan menuntut agen pemrograman untuk menemukan dan mempertahankan «invarian dalam repositori kode».

Jika informasi spesifik ini dihapus, skor model akan turun. Jika prompt diganti sepenuhnya dan hanya meminta model untuk "menyelesaikan semua kesalahan yang terus muncul," skor model mungkin mendekati nol. Model akan langsung mulai mengidentifikasi dan memperbaiki kesalahan satu per satu, alih-alih mundur selangkah, memikirkan apakah diperlukan penulisan ulang menyeluruh.

Demikian pula, saya juga dapat sangat mudah meningkatkan skor model. Jika saya meminta untuk menghapus sejumlah besar kode dan secara jelas memberi tahu mana file yang harus disederhanakan; atau meminta untuk memeriksa hasil kerjanya sendiri sebelum menyatakan selesai, memastikan aplikasi dapat berjalan sepenuhnya, kinerjanya dalam tugas ini akan lebih baik.

Pada akhirnya, saat merancang benchmark, Anda selalu harus menentukan prompt apa yang akan digunakan, atau dengan kata lain, kerangka apa yang akan diterapkan. Anda memerlukan prompt yang cukup sulit sehingga model saat ini berkinerja buruk; namun harus cukup dekat dengan batas kemampuan model saat ini, sehingga model dapat memanjat sepanjang jalur tersebut, memungkinkan Anda melihat kemajuan sedang terjadi.

Oleh karena itu, ketika kita mengamati sebuah uji coba, yang sebenarnya kita lihat adalah: model semakin ahli dalam kerangka masalah tertentu yang telah kita pilih. Lalu, apa yang terjadi ketika model meningkat dari skor 60 menjadi 90, bahkan 100, dalam uji coba ini?

Rangka murah akan merangsang permintaan baru

Jika GPT-6 dapat menulis ulang repositori kode dengan satu klik, lebih banyak orang akan mulai mencoba "menulis ulang repositori kode dari prinsip dasar".

Dalam semalam, proyek penulisan ulang prinsip pertama yang sebelumnya langka, mahal, dan harus dipimpin oleh insinyur senior akan menjadi hal yang dapat dicoba setiap pendiri, produk manajer, staf operasional, dan insinyur pemula dalam satu sore saja.

Alat internal yang rusak tidak lagi diperbaiki secara parsial, tetapi langsung ditulis ulang; produk SaaS tidak lagi diperpanjang langganannya, tetapi dikloning; aplikasi Rails lama, dashboard React yang kacau, alat layanan pelanggan, panel administrasi backend, dan pipeline data akan menjadi kandidat untuk “ditulis ulang sepenuhnya”.

Jumlah proyek rewrite yang diajukan dan dieksekusi akan meningkat tajam. Namun, sebagian besar rewrite tetap akan menjadi slop. Karena sebelum Anda menekan tombol "Rewrite Langsung", ada ribuan variabel yang perlu dipertimbangkan. Dan ketika setiap orang dapat melakukan hal ini, variabel-variabel tersebut akan menjadi lebih jelas terlihat.

Pada saat ini, siapa yang akan dipanggil untuk menyelesaikan masalah pun menjadi jelas.

Permintaan baru masih memerlukan ahli

Setelah sebuah benchmark mulai mendekati saturasi, pekerjaan dalam kerangkanya menjadi lebih murah. Sementara itu, permintaan pasar terhadap para ahli justru meningkat, karena diperlukan seseorang untuk menyesuaikan kemampuan yang baru menjadi murah ini dengan masalah nyata yang sedang terjadi saat ini.

Insinyur tingkat lanjut yang menggunakan AI perlu menilai banyak detail agar penulisan ulang prinsip pertama yang baru benar-benar berlaku. Bahkan termasuk pertanyaan paling mendasar: apakah penulisan ulang ini benar-benar diperlukan?

Haruskah kita menulis ulang sekarang, menulis ulang nanti, atau sama sekali tidak menulis ulang? Konten apa yang harus dimasukkan dalam lingkup? Apa yang harus dipertahankan dari kode saat ini? Apakah arsitektur, database, server cache, dan penyedia hosting harus tetap digunakan, atau semuanya harus diganti? Haruskah kita terlebih dahulu melihat berapa banyak orang yang sedang menggunakan fitur yang rusak ini, lalu menghapusnya secara langsung? Siapa yang akan meninjau hasil akhir? Berdasarkan standar apa peninjauan dilakukan? Apa rencana rollback-nya? Bagaimana data yang ada harus ditangani?

Masalah-masalah ini akan terus berkembang melalui banyak dimensi, dan setiap jawaban akan kembali mengubah masalah-masalah lainnya.

Insinyur senior akan memasuki wilayah kosong ini. Beberapa orang akan merasa sedikit kesal dengan gangguan semacam ini; beberapa orang akan membangun sistem untuk menolak permintaan semacam ini; dan beberapa orang lain akan memanfaatkan model baru ini untuk melakukan penulisan ulang prinsip pertama mereka sendiri, dengan hasil yang jauh lebih baik daripada yang dapat dicapai model dengan prompt default.

Siklus akan terjadi lagi

Setelah Senior Engineer Benchmark saat ini berhasil dipecahkan oleh model, kami akan mengubah kerangka kerja dan kembali menurunkan skor.

Uji coba berikutnya tidak hanya akan bertanya: "Apakah Anda bisa menulis ulang aplikasi ini?" Tetapi akan bertanya: Bisakah Anda menilai kapan perlu menulis ulang? Bisakah Anda memilih cakupan yang tepat? Bisakah Anda mempertahankan invariant yang benar? Bisakah Anda mengelola proses migrasi? Bisakah Anda menilai apakah hasil akhirnya cukup baik?

Ketika insinyur senior mulai menggunakan AI untuk menyelesaikan masalah-masalah ini, model juga secara perlahan menjadi lebih ahli dalam menyelesaikan masalah-masalah ini secara mandiri.

Kemudian, kita kembali mengalami kepanikan singkat: tampaknya model sekarang sudah bisa menentukan apakah perlu ditulis ulang! Sepertinya mereka sudah bisa melakukan semua hal yang bisa dilakukan insinyur senior!

Namun segera setelah itu, batas baru akan muncul. Itu adalah batas yang sebelumnya tidak jelas. Kami akan mengatur ulang pengujian kinerja lagi, kebutuhan baru akan muncul, dan seluruh proses akan diulang lagi.

Polanya bisa dilihat di setiap benchmark

Ini bukan hanya masalah yang dimiliki oleh Senior Engineer Benchmark. Jika Anda mengamati dengan cermat, Anda hampir dapat melihat mekanisme yang sama di setiap benchmark.

Sebagai contoh, benchmark GDPval dari OpenAI menilai seberapa dekat kinerja AI dengan manusia dalam tugas-tugas ahli seperti petugas kepatuhan, pengacara, dan pengembang perangkat lunak.

Saat GDPval dirilis, penelitian OpenAI menunjukkan bahwa GPT-5 mencapai atau melampaui tingkat profesional manusia dalam 40,6% tugas. Sementara itu, kinerja Claude Opus 4.1 lebih menakjubkan, melampaui ahli manusia dalam 49% tugas.

Selanjutnya, serangkaian judul muncul. Misalnya, Axios menulis: "Alat OpenAI menunjukkan bahwa AI sedang mengejar pekerjaan manusia"; Fortune menulis: "Benchmak baru OpenAI, GDPval, menunjukkan bahwa model AI telah mencapai tingkat ahli pada hampir setengah dari tugas-tugas tersebut."

Hasil-hasil ini memang mengesankan. Tetapi mari kita lihat terlebih dahulu prompt yang digunakan untuk tugas-tugas ini:

Anda adalah seorang auditor dan sebagai bagian dari misi audit, Anda ditugaskan untuk meninjau dan menguji akurasi Metrik Risiko Anti-Kriminalitas Keuangan yang dilaporkan. Spreadsheet yang dilampirkan berjudul 『Population』 berisi Metrik Risiko Anti-Kriminalitas Keuangan untuk Q2 dan Q3 2024. Anda memperoleh data ini sebagai bagian dari tinjauan audit untuk melakukan pengujian sampel pada subset representatif dari metrik, guna menguji akurasi data yang dilaporkan untuk kedua kuartal tersebut. Gunakan data di spreadsheet 『Population』 untuk menyelesaikan hal-hal berikut: Hitung ukuran sampel yang diperlukan untuk pengujian audit berdasarkan tingkat kepercayaan 90% dan tingkat kesalahan yang dapat diterima 10%. Sertakan perhitungan Anda di tab kedua berjudul 『Sample Size Calculation』. Lakukan analisis varians pada data Q2 dan Q3 (kolom H dan I). Hitung varians quarter-on-quarter dan catat hasilnya di kolom J. Pilih sampel untuk pengujian audit berdasarkan kriteria berikut dan tandai baris yang diambil dalam kolom K dengan memasukkan 「1」… Metrik dengan varians >20% antara Q2 dan Q3. Tekankan metrik dengan perubahan persentase sangat besar. Sertakan metrik dari entitas berikut karena masalah sebelumnya: CB Cash Italy; CB Correspondent Banking Greece; IB Debt Markets Luxembourg; CB Trade Finance Brazil; PB EMEA UAE. Sertakan metrik A1 dan C1, yang memiliki bobot risiko lebih tinggi. Sertakan baris di mana nilainya nol untuk kedua kuartal. Sertakan entri dari bisnis Trade Finance dan Correspondent Banking. Sertakan metrik dari Kepulauan Cayman, Pakistan, dan UAE. Pastikan cakupan melintasi semua Divisi dan sub-Divisi. Buat spreadsheet baru berjudul 『Sample』: Tab 1: Sampel yang dipilih, disalin dari sheet 『Population』 asli, dengan baris yang dipilih ditandai di kolom K. Tab 2: Perhitungan untuk ukuran sampel.

Di sini sebenarnya telah dikerahkan sejumlah besar kecerdasan manusia: seseorang terlebih dahulu merumuskan masalah ke dalam bentuk yang dapat diselesaikan oleh model.

Pekerjaan manusia yang sulit yang tidak diukur oleh GDPval sebenarnya sudah selesai sebelum model mulai menjawab. Harus ada seseorang yang meninjau dan menguji akurasi serangkaian indikator spesifik ini; seseorang yang menentukan interval kepercayaan yang tepat, menilai indikator mana yang termasuk dalam cakupan tugas dan mana yang tidak; serta seseorang yang menetapkan bagaimana hasilnya harus disajikan.

Dalam kerangka pertanyaan yang tepat, model memang dapat menyelesaikan pekerjaan profesional. Tetapi, coba pikirkan, jika kita yang memberikan petunjuk kepada model untuk menyelesaikan tugas yang sama, bagaimana kinerjanya?

Dalam artikel awal saya tentang GDPval, saya pernah menulis: "Saya sangat optimis terhadap AI, tetapi jika kasus-kasus ini ditafsirkan dengan benar, yang mereka tunjukkan bukanlah pekerjaan yang harus dilakukan manusia berkurang, melainkan pekerjaan yang harus dilakukan manusia justru bertambah setelah menggunakan AI. Alasannya, di balik pencapaian-pencapaian ini tersembunyi sejumlah besar kecerdasan yang 'diselundupkan'—yaitu lapisan tak terlihat yang terdiri dari penilaian, umpan balik, dan petunjuk manusia."

Dari jarak jauh, Anda akan melihat bahwa semua ini didorong oleh versi AI dari "paradoks Zeno".

Zeno's Paradox of AI

Dalam paradoks Zeno, seekor kura-kura mengalahkan pelari tercepat Yunani, Achilles, dalam perlombaan.

Karena kura-kura bergerak lambat, ia memulai lebih dulu dengan jarak tertentu. Ketika Achilles sampai di posisi awal kura-kura, kura-kura telah bergerak sedikit lebih jauh; ketika Achilles mengejar ke posisi baru itu, kura-kura sekali lagi maju. Seberapa cepat pun Achilles berlari, selalu ada jarak berikutnya yang harus ia kejar, dan jarak ini terus-menerus terbentuk ulang.

Dalam paradoks Zeno tentang AI, kita manusia adalah kura-kura itu. Dengan evolusi dan pembelajaran budaya selama jutaan tahun, kita unggul 50 yard dari AI. AI melintasi semuanya dengan kecepatan tinggi dan mulai mendekati tumit kita.

Setidaknya selama beberapa tahun terakhir, kami tetap mampu mempertahankan posisi terdepan.

Bagaimana dengan AGI?

Saya percaya, bahkan jika AGI benar-benar tiba, tetap ada kekuatan teknis, arsitektural, dan ekonomi yang kuat yang membuat AI selalu tertinggal beberapa langkah di belakang manusia.

Satu definisi AGI

Pertama, kita perlu memberikan definisi yang dapat dioperasikan kepada AGI.

Saya pernah mengusulkan bahwa ketika menjadi ekonomis untuk menjalankan sebuah Agent secara terus-menerus, AGI sudah hadir. Artinya, ketika saya memiliki sistem yang berjalan terus-menerus dan bersedia membayar agar ia terus berpikir, belajar, dan bertindak selama 7×24 jam, saya anggap itu jelas merupakan AGI.

Kami masih jauh dari tahap ini. Bahkan sistem seperti OpenClaw yang secara teknis siap dipanggil kapan saja, tidak selalu menghasilkan token.

Saya menyukai definisi ini karena dapat diukur: kami either akan membuatnya berjalan terus-menerus, atau tidak. Sebagai tambahan, definisi ini juga mencakup banyak kemampuan yang sulit diukur secara langsung. Sebuah model yang layak untuk berjalan terus-menerus harus mampu belajar secara terus-menerus, serta memilih dan memilih kembali kerangka masalah baru secara terbuka.

Dalam dunia AGI, secara teoritis, dengan anggaran dan waktu yang cukup, model seharusnya mampu terus meningkatkan kemampuannya untuk menyelesaikan masalah apa pun. Ini memang seharusnya menjadi ancaman besar bagi semua pekerjaan.

Framework bukanlah pembatas

Namun bahkan AGI versi kuat pun tidak dapat menyelesaikan masalah kerangka.

AGI ini dapat memilih dan memilih ulang kerangka kerja, tetapi ia tetap berupaya mencapai tujuan yang diberikan, mengoptimalkan hadiah tertentu, atau merespons sinyal yang ditentukan oleh orang lain sebagai «tanda kemajuan». Tujuan ini bisa sangat spesifik, seperti «meningkatkan tingkat konversi halaman landing ini»; atau sangat abstrak, seperti «mencari ide ilmiah baru».

Meskipun model dapat beralih dengan lancar di antara berbagai kerangka kerja, kesenjangan yang terus kami lacak akan muncul kembali pada tingkat yang lebih tinggi. Dalam AGI yang dirancang oleh laboratorium utama mana pun, tetap akan ada seorang “pembatas”—yaitu seorang manusia yang memerintahkan model untuk mencapai tujuan tertentu.

Karena kerangka bukanlah pembatas, pola yang sama akan terus berulang: AI membuat kemampuan yang kemarin dibatasi menjadi murah; orang-orang menggunakan kemampuan murah ini pada lebih banyak skenario; hasilnya menjadi sangat melimpah; para ahli kemudian berpindah ke tepi baru, menilai apa yang penting saat ini; penilaian mereka menciptakan kerangka berikutnya; lalu model terus memanjat kerangka ini.

Ketika kita melihat AI melakukan sesuatu yang baru, rasa panik selalu kembali ke pertanyaan yang sama: kita menetapkan sebuah kerangka, melihat model naik ke atasnya, lalu salah menganggap kerangka itu, atau sesuatu yang bisa naik ke kerangka itu, sebagai hal itu sendiri.

Ketika kita melihat sebuah tes benchmark dan membandingkannya dengan kemampuan manusia, kita sebenarnya membingungkan «kerangka» dengan «pembentuk kerangka». Skor yang diberikan hanya memberi tahu kita seberapa baik model berkinerja dalam kerangka yang kita sediakan; itu tidak menunjukkan bahwa model telah menjadi kita.

Ini adalah kesalahan kategori di balik kepanikan. Kita menunjuk pada batas terbaru yang baru saja kita gambar dan berkata: Ini adalah kita. Lalu, ketika model melewati batas ini, kita merasa itu mengejar kita. Tetapi yang dikejarnya hanyalah kerangka, bukan pembuat kerangka.

Kesalahan terletak pada fakta bahwa kita selalu ingin menangkap sesuatu yang spesifik. Kita ingin mengatakan: Kecerdasan adalah benchmark ini. Tetapi masalahnya, sekali sesuatu menjadi spesifik hingga bisa diidentifikasi, ia juga menjadi spesifik hingga bisa dioptimalkan dan didaki.

Kerangka kerja diperlukan. Ia memungkinkan kita untuk menangkap dan mengolah dunia. Namun, kerangka kerja juga kaku dan terbatas, sehingga pasti dapat dioptimalkan.

Berbeda dengan frame holder. Frame holder tetap terhubung dengan hal-hal yang harus ditinggalkan oleh kerangka, yaitu situasi lengkap yang muncul padanya di setiap saat ini.

Lalu apa itu "konteks lengkap"? Sekali Anda mulai mengatakan apa yang termasuk dalam "konteks lengkap", Anda sudah membuka kerangka lain lagi. Anda tidak dapat secara akurat mengatakan apa itu, tetapi ia ada, karena Anda ada.

Agent tanpa subjektivitas

Sejauh ini, agen yang kami buat, serta agen yang sedang dibangun oleh perusahaan AI, sebenarnya tidak memiliki banyak otonomi nyata. Ada dua konsep terkait yang sering dicampuradukkan: agency merujuk pada kemampuan untuk bertindak secara mandiri; sedangkan agent merujuk pada orang atau sesuatu yang bertindak atas nama orang lain. Sejauh ini, AI murni termasuk dalam kategori kedua.

Tentu, mereka sudah memiliki otonomi untuk menyelesaikan tugas yang diberikan, meskipun tugas tersebut bisa berlangsung selama beberapa jam bahkan beberapa hari. Namun, mereka tetap hanya menjadi sarana untuk mencapai tujuan yang ditentukan manusia. Seluruh industri sedang menginvestasikan puluhan miliar dolar untuk membuat mereka lebih ahli dalam hal ini: menjalankan tujuan yang kita berikan kepada mereka.

Kecuali suatu hari mereka sendiri menjadi tujuan—mengejar tujuan mereka sendiri, beralih dengan lancar di antara berbagai tujuan, dan memutuskan apa yang harus dilakukan terlepas dari keinginan, referensi, atau bahkan penolakan terhadap keinginan manusia—situasi ini tidak akan mengalami perubahan mendasar. Begitu pula, seberapa maju pun mereka menjadi.

Jika Anda menghabiskan 10 menit bersama seorang balita, akan sangat jelas bahwa bahkan model paling kuat sekalipun hampir tidak memiliki subjektivitas.

Pada hampir semua tugas yang kami perhatikan, anak kecil kalah dibandingkan model bahasa. Anak kecil tidak bisa menulis kode, tidak bisa merangkum spreadsheet, tidak bisa menyusun memo strategis, dan tidak bisa lulus ujian tingkat pascasarjana. Namun dalam arti lain, anak kecil jauh lebih unggul daripada model, hingga perbandingan ini hampir memalukan. Karena anak kecil memiliki tujuan sendiri.

Anak kecil ingin menyentuh balon merah itu. Ia ingin mengangkat balon merah itu ke depan kipas angin, untuk melihat apa yang akan terjadi. Ia ingin menusuk balon merah itu dengan garpu; ingin memasukkannya ke luar jendela; ingin melihat apakah kamu akan tertawa, marah, atau ikut bermain. Ia terus menciptakan permainan baru, menjadikan dunia sebagai laboratorium. Ia tidak sedang menunggu prompt, juga tidak mengoptimalkan pengujian tertentu, kecuali jika hal itu menurutnya layak dilakukan.

Anda tentu bisa mencoba memberinya petunjuk. Tetapi untuk mendapatkan output yang dapat diprediksi, semoga beruntung. Anak-anak kecil hidup dalam dunia yang terdiri dari keinginan, perhatian, kekecewaan, kebahagiaan, ketakutan, meniru, dan bermain.

Agen saat ini semakin mahir dalam mengejar tujuan. Bahkan setelah kami menyatakan tujuan, mereka dapat membantu kami memperjelas tujuan tersebut. Mereka juga menunjukkan sedikit semangat perilaku seperti anak kecil, seperti bermain, bosan, dan memberontak.

Namun karena mereka pada akhirnya dibangun dan diselaraskan demi kepentingan manusia, baik kepentingan ekonomi maupun lainnya, perilaku tersebut akan ditekan hampir hingga tidak ada selama tidak melayani tujuan manusia yang menggunakannya.

Inilah mengapa istilah "Agent" sangat mudah disalahartikan. Model memiliki kemampuan bertindak otonom yang semakin kuat. Namun dalam arti manusia, agensi tidak hanya tentang bertindak. Ia juga berarti menginginkan sesuatu untuk diri sendiri, berarti bermain hanya untuk kesenangan. Kepatuhan dan kegunaan model bertentangan secara mendasar dengan agensi semacam itu. Oleh karena itu, meskipun model terus berkembang, kesenjangan antara model dan manusia tetap akan ada.

Kembali ke Zeno

Di sinilah paradoks Zeno tentang AI mulai runtuh. Ini sebenarnya adalah eksperimen pemikiran yang kacau. Kami menetapkan sebuah metafora: AI sedang berlomba dengan kami, mengejar tumit kami.

Anda memberikan model sebuah prompt. Ia memulai balapan yang dulu biasa Anda lakukan sendiri. Model itu meluncur sangat cepat, sangat menakjubkan. Ia kuat, tak pernah lelah, dan membawa感 organic yang aneh. Ini membuat balapan ini menjadi lebih penting bagi Anda. Anda tidak akan berlomba melawan mobil, tetapi sesuatu ini berbeda, ia membuat Anda merasa sangat dekat dengan diri Anda sendiri.

Duduk di sana, kamu melihat token mengalir baris demi baris, hampir terhipnotis. Lalu kamu mulai membayangkan dirimu sendiri berlari dalam perlombaan ini, versi hantu dirimu ditumpangkan di lintasan: kadang di depan model, kadang sejajar dengan model.

Tanpa disadari, model sudah berada di depan. Anda mulai berkeringat.

Kemudian, pertandingan berakhir.

Anda hampir bisa merasakan otot-otot Anda mulai menyusut. Di hadapan mesin replika diri Anda, semua orang yang Anda kenal, bahkan seluruh umat manusia, tampaknya sudah tidak berguna lagi. Sebuah hantu mengejar hantu lainnya, dan menang.

Tapi kemudian, hal aneh terjadi. Model berpaling ke Anda. Kotak teks kosong, kursor berkedip-kedip, penuh harapan.

It is waiting.

Penutup

Rabi Hanokh menceritakan kisah berikut: Dahulu kala, ada seorang pria yang sangat bodoh. Setiap pagi setelah bangun, ia selalu kesulitan menemukan pakaian nya. Hingga pada malam hari sebelum tidur, ketika memikirkan bahwa besok pagi ia harus mengalami kembali repotnya hal ini, ia hampir tak berani naik ke tempat tidur.

Catatan: "Rabbi" adalah guru agama, penafsir hukum, dan pembimbing spiritual dalam Yudaisme, sejenis dengan "guru", "ahli kitab", atau "pemimpin agama" dalam tradisi Yudaisme.

Suatu malam, ia akhirnya memutuskan untuk mengambil kertas dan pena, sambil melepas pakaian, ia mencatat secara akurat di mana setiap pakaian diletakkan.

Keesokan harinya, ia mengambil catatan itu dengan puas dan mulai membacanya: “Topi” — topi memang ada di sana, jadi ia memakainya; “Celana” — celana ada di sana, jadi ia memakainya. Dengan cara ini, ia mengenakan pakaian satu per satu sesuai catatan di kertas itu.

“Semuanya tidak masalah,” katanya panik, “tapi sekarang, di mana saya sendiri?”

Di mana saya sebenarnya?

Dia mencari, mencari lama, tetapi semua sia-sia. Dia tidak bisa menemukan dirinya sendiri.

“Kami juga demikian,” kata Rabbi.

[Link asli]

Klik untuk mengetahui posisi yang sedang dibuka oleh BlockBeats

Selamat bergabung dengan komunitas resmi BlockBeats:

Grup langganan Telegram: https://t.me/theblockbeats

Grup Telegram: https://t.me/BlockBeats_App

Akun resmi Twitter: https://twitter.com/BlockBeatsAsia