Dòng lệnh có thể là giao diện tương tác thân thiện nhất với AI Agent

Tác giả bài viết, nguồn: Số Ít

Trong giai đoạn từ năm 2025 đến năm 2026, các công ty AI hàng đầu lần lượt ra mắt một loại sản phẩm: công cụ Agent dưới dạng CLI.

Anthropic đã ra mắt Claude Code, một trợ lý lập trình AI chạy trên terminal. OpenAI đã ra mắt Codex CLI, Google đã ra mắt Gemini CLI. Trong làn sóng này, gần như mọi công ty AI đáng chú ý đều đầu tư vào dòng lệnh.

Điều này rất phản trực giác. Dòng lệnh là sản phẩm của những năm 1970, sự ra đời của giao diện đồ họa đã đưa máy tính đến với đại chúng, và hiện nay, internet di động đã biến thao tác cảm ứng thành chuẩn mực. Theo logic thông thường, xu hướng công nghệ nên ngày càng “trực quan hóa” và ngày càng “dễ sử dụng”. Vậy tại sao trong thời đại AI, hình thức tương tác cổ xưa nhất lại quay trở lại?

Câu trả lời không phải là cảm xúc, mà là logic kỹ thuật.

GUI không thân thiện với AI

GUI được thiết kế để hỗ trợ việc điều hướng bằng thị giác của con người. Các nút bấm, cửa sổ pop-up, thao tác kéo thả, hiệu ứng khi di chuột—những mô hình tương tác này dựa trên trực giác thị giác của con người. Con người chỉ cần nhìn một cái là có thể quét vị trí các nút bấm và phán đoán hành động tiếp theo một cách trực giác. Cơ chế này cực kỳ tự nhiên với con người và gần như không đòi hỏi chi phí học tập.

Nhưng cách LLM hoạt động hoàn toàn không phải như vậy. Đầu vào của LLM là các token, đầu ra cũng là các token. Quá trình “suy nghĩ” của nó diễn ra trong không gian ngôn ngữ, chứ không phải trong không gian pixel.

Việc để AI điều khiển GUI có nghĩa là phải vượt qua một khoảng cách lớn:

Chi phí hiểu biết rất cao. AI cần sử dụng thị giác máy tính hoặc Cây Khả năng truy cập để “hiểu” giao diện—nút nào có thể nhấp, ô nhập liệu nằm ở đâu, cửa sổ bật lên hiện tại có nghĩa gì. Đây không phải là điểm mạnh của AI, mà ngược lại, là gánh nặng bổ sung.

Trạng thái được ẩn và không thể dự đoán được. Cùng một nút, hôm nay có thể nhấn được, nhưng ngày mai có thể trở nên mờ đi do một điều kiện nào đó. Trạng thái ẩn này đối với con người là “bối cảnh”, nhưng đối với AI là sự không chắc chắn—nó không thể suy luận một cách đáng tin cậy “phép thao tác này có sẵn trong điều kiện nào”.

Các thao tác không thể kết hợp. Không có cách nào để nối hai thao tác GUI bằng đường ống. “Kết quả tìm kiếm → Lọc → Xuất” trong GUI là ba lần nhấp chuột, không thể truyền, tái sử dụng hoặc tự động hóa như một đơn vị duy nhất.

Khó để kiểm thử và xác minh. AI đã thực hiện một thao tác GUI, làm thế nào để xác nhận nó thành công? Cần chụp ảnh màn hình, phân tích trạng thái giao diện, toàn bộ vòng lặp phản hồi lại chậm và dễ hỏng.

In contrast, every feature of the CLI seems specifically designed for AI.

Ba lợi thế của CLI đối với AI Agent: khả năng kết hợp

Triết lý Unix cốt lõi là: “Mỗi chương trình chỉ làm một việc duy nhất và làm nó thật tốt; cho phép các chương trình hoạt động phối hợp với nhau.”

Nguyên tắc thiết kế cách đây vài thập kỷ đã mang ý nghĩa mới trong thời đại AI.

Công cụ CLI nối kết thông qua đầu vào và đầu ra chuẩn. linkly search "Tối ưu hiệu suất React" | head -5 có thể truyền kết quả tìm kiếm sang lệnh tiếp theo. linkly search "Thiết kế kiến trúc" --json | jq '.results[].doc_id' có thể trích xuất tất cả ID tài liệu để xử lý tiếp theo.

Đối với AI Agent, khả năng kết hợp có nghĩa là có thể nối nhiều lệnh lại thành các luồng công việc đa bước phức tạp, trong đó đầu ra của từng bước là văn bản có cấu trúc và có thể được bước tiếp theo tiêu thụ. Không còn vòng lặp “nhấp → chờ → chụp màn hình → phân tích” như giao diện người dùng, chỉ còn đầu vào và đầu ra sạch sẽ.

Tính dự đoán được

Hành vi của mỗi lệnh hoàn toàn được xác định bởi các tham số. Việc thực hiện lệnh "linkly search "数据库" --limit 10" hôm nay sẽ cho kết quả này, và ngày mai thực hiện (giả sử cơ sở dữ liệu không thay đổi) vẫn sẽ cho kết quả như vậy. Không có trạng thái ngầm, không có sự bối rối kiểu "Tại sao tính năng này hôm trước hoạt động tốt, giờ lại không?"

Điều này cực kỳ quan trọng đối với AI. Khi AI suy luận về một công cụ, nó cần xây dựng một mô hình tâm trí: đầu vào của công cụ là gì, đầu ra là gì, và có những tác dụng phụ nào. Trạng thái ẩn của GUI khiến mô hình tâm trí này đầy rẫy sự không chắc chắn. Các tham số rõ ràng của CLI giúp mô hình tâm trí trở nên đáng tin cậy và chính xác.

linkly read 42 --offset 80 --limit 100—— lệnh này hoàn toàn được xác định bởi các tham số. AI có thể suy luận chính xác hành vi của nó mà không cần phỏng đoán bất kỳ ngữ cảnh ngầm nào.

Tính khả năng kiểm toán

Tất cả các thao tác CLI đều là các chuỗi văn bản có thể ghi lại. Các lệnh mà AI đã thực hiện và đầu ra nhận được đều là văn bản có thể đọc được bởi con người.

Sự minh bạch này mang lại hai lợi ích.

Đối với chính AI: Có thể tự kiểm tra. “Bước trước đó, linkly tìm kiếm ‘mẫu hợp đồng’ trả về 0 kết quả, cho thấy từ khóa không chính xác, hãy thử thay bằng ‘mẫu hợp đồng tham khảo’.” Việc tự sửa lỗi dựa trên văn bản này là nền tảng để AI Agent hoạt động đáng tin cậy.

Đối với con người: Có thể thực hiện kiểm tra sau hành động. Bạn có thể xem AI đã thực hiện những lệnh nào, đầu vào và đầu ra của từng bước là gì, toàn bộ chuỗi suy luận rõ ràng ngay lập tức. Các thao tác GUI thì khó truy vết được “đã nhấn gì”, trong khi nhật ký thao tác CLI tự nhiên trở thành bản ghi kiểm toán.

Thực hành thiết kế Linkly AI CLI

LinklyAI là phần mềm tìm kiếm cục bộ và tạo cơ sở tri thức do chúng tôi tự phát triển. Khi thiết kế công cụ CLI của Linkly AI, chúng tôi đã xem AI Agent là một trong những người dùng chính ngay từ đầu.

4 lệnh cốt lõi được thiết kế tinh tế

Các lệnh chính của Linkly AI CLI chỉ có bốn lệnh:

Bốn lệnh này hoàn toàn tuân theo triết lý Unix: mỗi lệnh chỉ thực hiện một việc duy nhất, có hợp đồng đầu vào/đầu ra rõ ràng. AI Agent có thể kết hợp chúng linh hoạt để tạo thành các quy trình tìm kiếm phức tạp.

Một quy trình làm việc của Agent điển hình như sau:

Mỗi bước đầu ra đều là văn bản có cấu trúc, có thể được AI tiêu thụ và suy luận trực tiếp. Không có bất kỳ thao tác GUI nào, không có gánh nặng phân tích trực quan.

Kết hợp với các đường ống v.v.

Một lợi thế khác của CLI là nó có thể kết hợp tự do với các lệnh khác trong hệ thống, mang lại những khả năng mới vượt ra ngoài giới hạn của từng công cụ đơn lẻ.

Lọc và trích xuất: --json đầu ra có thể trực tiếp nối với jq để trích xuất trường, kết quả sau đó được truyền cho công cụ tiếp theo:

Tìm tài liệu, chỉ lấy danh sách doc_id, sau đó lấy danh sách sơ lược hàng loạt
linkly tìm kiếm "thiết kế cơ sở dữ liệu" --json | jq -r '.results[].doc_id' | xargs -I{} linkly outline {}

Kết hợp với grep để lọc lần hai: trước tiên dùng tìm kiếm ngữ nghĩa để thu hẹp phạm vi, sau đó dùng từ khóa chính xác để lọc:

linkly tìm kiếm "架构设计" | grep -i "微服务|分布式"

Thống kê và phân tích: Kết hợp với wc, sort, uniq để thống kê tài liệu:

Đếm xem trong kho tri thức có bao nhiêu tài liệu PDF
linkly tìm kiếm "" --json | jq '.results[].type' | sort | uniq -c

Kết hợp với script: Xử lý hàng loạt trong script shell, tự động hóa các tác vụ lặp lại:

Công cụ GUI không thể tham gia vào các tổ hợp này. Đầu ra của công cụ CLI là luồng văn bản, tự nhiên có thể được bất kỳ công cụ nào khác tiêu thụ, giúp khả năng của toàn bộ hệ thống vượt xa tổng đơn giản của các công cụ riêng lẻ.

CLI cũng là cách kết nối MCP đơn giản nhất

CLI và MCP không đối lập nhau. Một lệnh của linkly mcp có thể biến CLI thành một máy chủ MCP stdio, sẵn sàng cho mọi client AI hỗ trợ MCP:

Json:

Điều này đơn giản hơn nhiều so với việc cấu hình trực tiếp HTTP MCP Server—người dùng không cần biết số cổng, không cần tự viết URL trong JSON, chỉ cần nói với máy khách AI: “Chạy lệnh này”.

CLI trở thành vé vào hệ sinh thái MCP, với mức độ ma sát cấu hình gần như bằng không đối với người dùng.

Xu hướng tổng thể hơn

Claude Code lựa chọn ưu tiên phát hành dạng CLI thay vì plugin IDE, quyết định này dựa trên logic kỹ thuật rõ ràng: plugin IDE bị giới hạn bởi môi trường chủ, trong khi công cụ CLI có thể chạy ở bất kỳ đâu có terminal, có thể được bất kỳ Agent nào gọi và có thể kết hợp với bất kỳ công cụ nào khác.

Điều này tiết lộ một quy luật cơ bản hơn: bản chất của việc AI Agent gọi công cụ chính là thực thi lệnh. Việc gọi công cụ (function call/tool use) về mặt ngữ nghĩa chính là CLI—cung cấp tên và tham số, sau đó trả về kết quả. Các công cụ CLI tự nhiên là các hàm mà Agent có thể gọi, không cần bất kỳ lớp chuyển đổi nào.

Câu nói “Terminal như một IDE mới” đã được đề cập từ trước khi AI nổi lên, nhưng trong thời đại AI, nó đã mang một ý nghĩa hoàn toàn mới: không chỉ là “viết mã trong terminal”, mà còn là “Agent tương tác với thế giới thông qua terminal”.

Trước đây, CLI là công cụ độc quyền của các kỹ thuật viên. Tương lai, CLI có thể trở thành ngôn ngữ phổ biến của Agent—con người giao tiếp với Agent thông qua ngôn ngữ tự nhiên, trong khi Agent tương tác với hệ thống thông qua CLI.

Tóm tắt

Giao diện GUI sẽ không bị ảnh hưởng quá nhiều, nó vẫn là giao diện tốt nhất để con người thao tác trực tiếp với máy tính. Tuy nhiên, khi công cụ AI của bạn cần gọi một công cụ khác, CLI là cầu nối tự nhiên nhất, và ngày càng nhiều phần mềm sẽ phát triển thêm các công cụ CLI để phù hợp với thói quen của Agent.

Muốn thử tìm tài liệu của bạn trong terminal? Hãy xem hai bài viết này: Tìm tài liệu của bạn trong terminal mà không cần rời khỏi terminal và một lệnh duy nhất để hơn 30 công cụ AI đọc tệp cục bộ.