Command line mungkin antarmuka interaksi paling ramah untuk AI Agent

Penulis artikel, sumber: Shaoshuopai

Antara tahun 2025 dan 2026, perusahaan AI teratas secara berturut-turut meluncurkan sejenis alat Agent dalam bentuk CLI.

Anthropic meluncurkan Claude Code, asisten pemrograman AI yang berjalan di terminal. OpenAI meluncurkan Codex CLI, Google meluncurkan Gemini CLI. Dalam gelombang ini, hampir semua perusahaan AI yang patut diperhatikan mempertaruhkan fokusnya pada command line.

Ini sangat tidak intuitif. Baris perintah adalah produk dari dekade 1970-an, kemunculan GUI membawa komputer ke kalangan umum, dan sekarang internet seluler menjadikan operasi layar sentuh sebagai standar. Menurut logika biasa, arah teknologi seharusnya semakin "visual" dan semakin "mudah digunakan". Mengapa di era AI, bentuk interaksi paling kuno justru kembali muncul?

The answer is not sentiment, it's engineering logic.

GUI tidak ramah terhadap AI

GUI dirancang untuk navigasi visual manusia. Tombol, jendela pop-up, drag and drop, efek hover—pola interaksi ini didasarkan pada intuisi visual manusia. Manusia melihat sekilas antarmuka, memindai posisi tombol, dan secara intuitif menentukan tindakan selanjutnya. Mekanisme ini sangat alami bagi manusia, hampir tidak memerlukan biaya pembelajaran.

Namun, cara kerja LLM sama sekali bukan seperti itu. Input LLM adalah token, dan outputnya juga token. "Pemikiran"nya terjadi di ruang bahasa, bukan di ruang piksel.

Mengizinkan AI mengendalikan GUI berarti harus melintasi jurang besar:

Biaya pemahaman sangat tinggi. AI perlu mengandalkan computer vision atau Accessibility Tree untuk "memahami" antarmuka—tombol mana yang bisa diklik, kotak input di mana, dan arti dari jendela pop-up saat ini. Ini bukan kekuatan AI, melainkan beban tambahan.

Status bersifat implisit dan tidak dapat diprediksi. Tombol yang sama, hari ini bisa diklik, besok mungkin menjadi abu-abu karena suatu kondisi. Status implisit ini bagi manusia adalah "konteks", bagi AI adalah ketidakpastian—AI tidak dapat secara andal menyimpulkan "dalam kondisi apa operasi ini tersedia".

Operasi tidak dapat digabungkan. Tidak ada cara untuk menghubungkan dua operasi GUI dengan pipa. "Hasil pencarian → Filter → Ekspor" dalam GUI adalah tiga kali klik, dan tidak dapat ditransmisikan, digunakan ulang, atau diotomatisasi sebagai satu kesatuan.

Sulit diuji dan diverifikasi. AI telah menjalankan operasi GUI, bagaimana cara memastikan keberhasilannya? Perlu screenshot, perlu menganalisis status antarmuka, seluruh siklus umpan balik menjadi lambat dan rapuh.

Sebaliknya, setiap fitur CLI seolah dirancang khusus untuk AI.

Tiga keunggulan CLI untuk AI Agent: komposabilitas

Inti filosofi Unix adalah: "Setiap program hanya melakukan satu hal, dan lakukan itu dengan baik; biarkan program-program bekerja sama."

Prinsip desain puluhan tahun lalu ini mendapatkan makna baru di era AI.

Alat CLI menghubungkan melalui input dan output standar. linkly search "Optimasi kinerja React" | head -5 dapat mengirimkan hasil pencarian ke perintah berikutnya. linkly search "Desain arsitektur" --json | jq '.results[].doc_id' dapat mengekstrak semua ID dokumen untuk pemrosesan selanjutnya.

Bagi AI Agent, komposabilitas berarti dapat menghubungkan beberapa perintah menjadi alur kerja multi-langkah yang kompleks, di mana output setiap langkah adalah teks terstruktur yang dapat dikonsumsi oleh langkah berikutnya. Tidak ada siklus 'klik → tunggu → tangkap layar → analisis' antarmuka grafis, hanya input dan output yang bersih.

Predictability

Perilaku setiap perintah sepenuhnya ditentukan oleh parameter. Jika Anda menjalankan linkly search "database" --limit 10 hari ini, hasilnya akan seperti ini; besok menjalankannya (dengan asumsi database tidak berubah) akan menghasilkan hasil yang sama. Tidak ada status implisit, tidak ada kebingungan seperti "Mengapa fitur ini dulu berfungsi, sekarang tidak?"

Ini sangat penting bagi AI. Saat AI mempertimbangkan sebuah alat, ia perlu membangun model mental: apa input alat tersebut, apa outputnya, dan apa efek sampingnya. Keadaan implisit GUI membuat model mental ini penuh ketidakpastian. Parameter eksplisit CLI membuat model mental ini andal dan tepat.

linkly read 42 --offset 80 --limit 100——arti perintah ini sepenuhnya ditentukan oleh parameter. AI dapat menalar perilakunya secara tepat tanpa perlu menebak konteks implisit apa pun.

Auditabilitas

Semua operasi CLI adalah urutan teks yang dapat direkam. Perintah apa yang dijalankan AI dan output apa yang diterima semuanya merupakan teks yang dapat dibaca manusia.

Keterbukaan ini memiliki dua manfaat.

Untuk diri sendiri AI: Dapat melakukan pemeriksaan mandiri. "Langkah sebelumnya, linkly mencari 'templat kontrak' mengembalikan 0 hasil, menunjukkan kata kunci salah, coba ganti dengan contoh kontrak." Koreksi mandiri berbasis teks semacam ini adalah dasar bagi AI Agent untuk bekerja secara andal.

Untuk manusia: dapat dilakukan tinjauan pasca-kejadian. Anda dapat melihat perintah apa yang dijalankan AI, input dan output setiap langkahnya, seluruh rantai penalaran terlihat jelas. Operasi GUI sulit dilacak untuk "apa yang diklik", sedangkan log operasi CLI secara alami merupakan catatan audit.

Praktik Desain Linkly AI CLI

LinklyAI adalah perangkat lunak mesin pencari lokal dan pembuat basis pengetahuan yang kami kembangkan sendiri. Dalam merancang alat CLI Linkly AI, kami mempertimbangkan AI Agent sebagai salah satu pengguna utama sejak awal.

4 perintah inti yang dirancang dengan cermat

Perintah inti dari Linkly AI CLI hanya ada empat:

Keempat perintah ini sepenuhnya sesuai dengan filosofi Unix: masing-masing hanya melakukan satu hal, dengan契约 input-output yang jelas. Agen AI dapat menggabungkannya secara fleksibel untuk membentuk alur pencarian yang kompleks.

Alur kerja agen tipikal sebagai berikut:

Setiap langkah menghasilkan teks terstruktur yang dapat langsung dikonsumsi dan diolah oleh AI. Tidak ada operasi GUI, tidak ada beban analisis visual.

Gabungkan dengan pipa dll.

Keunggulan lain dari CLI adalah kemampuannya untuk digabungkan secara bebas dengan perintah lain di sistem, menciptakan kemampuan baru yang melampaui batas kemampuan alat tunggal.

Filter dan ekstrak: --json output dapat langsung digunakan dengan jq untuk mengekstrak bidang, lalu hasilnya dikirim ke alat berikutnya:

Cari dokumen, ambil hanya daftar doc_id, lalu ambil ringkasan secara massal
linkly cari "desain database" --json | jq -r '.results[].doc_id' | xargs -I{} linkly outline {}

Gabungkan dengan grep untuk penyaringan sekunder: pertama gunakan pencarian semantik untuk mempersempit cakupan, lalu gunakan kata kunci tepat untuk menyaring:

linkly cari "架构设计" | grep -i "微服务|分布式"

Statistik dan analisis: Gunakan bersama wc, sort, uniq untuk statistik dokumen:

Hitung berapa banyak file PDF di dalam basis pengetahuan
linkly cari "" --json | jq '.results[].type' | sort | uniq -c

Dikombinasikan dengan skrip: Gunakan dalam skrip shell untuk memproses massal dan mengotomatisasi tugas berulang:

Alat GUI tidak dapat berpartisipasi dalam kombinasi ini. Output alat CLI adalah aliran teks, yang secara alami dapat dikonsumsi oleh alat lain mana pun, membuat kemampuan keseluruhan sistem jauh lebih besar daripada jumlah sederhana dari masing-masing alat.

CLI juga merupakan cara paling sederhana untuk menjembatani MCP

CLI dan MCP bukanlah saling bertentangan. Dengan satu perintah linkly mcp, CLI dapat diubah menjadi server MCP stdio, yang dapat digunakan oleh klien AI apa pun yang mendukung MCP:

Json:

Ini jauh lebih sederhana daripada mengonfigurasi HTTP MCP Server secara langsung—pengguna tidak perlu mengetahui nomor port, tidak perlu menulis URL secara manual ke dalam JSON, cukup beri tahu klien AI untuk "jalankan perintah ini".

CLI menjadi karcis masuk ke ekosistem MCP, dengan hampir tidak ada gesekan konfigurasi bagi pengguna.

Tren yang lebih makro

Claude Code memilih untuk merilis versi CLI daripada plugin IDE, keputusan ini didasarkan pada logika teknis yang jelas: plugin IDE terbatas pada lingkungan tuan rumah, sedangkan alat CLI dapat berjalan di mana saja yang memiliki terminal, dapat dipanggil oleh agen apa pun, dan dapat digabungkan dengan alat lain apa pun.

Ini mengungkapkan pola yang lebih mendasar: esensi dari AI Agent memanggil alat adalah menjalankan perintah. Pemanggilan alat (function call / tool use) secara semantik adalah CLI—memberikan nama dan parameter, lalu mengembalikan hasil. Alat CLI secara alami merupakan fungsi yang dapat dipanggil oleh Agent, tanpa memerlukan lapisan konversi apa pun.

Pernyataan "Terminal sebagai IDE baru" sudah pernah diajukan sebelum munculnya AI, tetapi di era AI ia memperoleh makna baru. Bukan hanya "menulis kode di terminal", tetapi "Agent berinteraksi dengan dunia melalui terminal".

Di masa lalu, CLI adalah alat eksklusif bagi teknisi. Di masa depan, CLI mungkin menjadi bahasa umum untuk Agent—manusia berkomunikasi dengan Agent melalui bahasa alami, sementara Agent berinteraksi dengan sistem melalui CLI.

Ringkasan

GUI tidak akan terlalu terpengaruh, tetap menjadi antarmuka terbaik bagi manusia untuk mengoperasikan komputer secara langsung. Namun, ketika alat AI Anda perlu memanggil alat lain, CLI adalah jembatan paling alami, dan akan ada lebih banyak perangkat lunak yang merilis lebih banyak alat CLI untuk menyesuaikan diri dengan kebiasaan Agent.

Ingin mencoba mencari dokumen Anda di terminal? Lihat dua artikel ini: Cari dokumen Anda tanpa meninggalkan terminal dan satu perintah untuk membuat 30+ alat AI membaca file lokal.