Командная строка может быть самым дружелюбным интерфейсом взаимодействия для AI-агента

Автор статьи, источник: Minority Report

В период с 2025 по 2026 год ведущие компании в области ИИ последовательно выпустили класс продуктов: инструменты Agent в формате CLI.

Anthropic выпустила Claude Code — AI-помощника для программирования, работающего в терминале. OpenAI выпустила Codex CLI, Google выпустила Gemini CLI. В этой волне почти каждая значимая AI-компания сделала ставку на командную строку.

Это противоречит здравому смыслу. Командная строка — продукт 1970-х годов, появление графического интерфейса позволило компьютерам попасть в массы, а сейчас мобильный интернет сделал сенсорное управление стандартом. Согласно обычной логике, направление развития технологий должно быть все более «визуализированным» и все более «удобным». Почему же в эпоху ИИ старейшая форма взаимодействия вновь возвращается?

Ответ — не эмоции, а инженерная логика.

GUI не дружелюбен к ИИ

GUI разработан для визуальной навигации человека. Кнопки, всплывающие окна, перетаскивание, эффекты наведения — эти интерактивные парадигмы основаны на визуальной интуиции человека. Человек одним взглядом воспринимает интерфейс, сканирует расположение кнопок и интуитивно понимает, какие действия предпринять дальше. Этот механизм для человека чрезвычайно естественен и практически не требует затрат на обучение.

Но LLM работает совершенно иначе. Входом LLM являются токены, и выходом также являются токены. Её «мышление» происходит в языковом пространстве, а не в пространстве пикселей.

Заставить ИИ управлять графическим интерфейсом означает преодолеть огромный разрыв:

Стоимость понимания чрезвычайно высока. ИИ должен полагаться на компьютерное зрение или дерево доступности, чтобы «понять» интерфейс — какая кнопка доступна для нажатия, где находится поле ввода и что означает текущее всплывающее окно. Это не сильная сторона ИИ, а дополнительная нагрузка.

Состояние неявное и непредсказуемое. Одна и та же кнопка сегодня может быть активной, а завтра из-за какого-либо условия может стать неактивной. Такое неявное состояние для человека — это «контекст», а для ИИ — неопределенность: он не может надежно определить, «в каких условиях доступна эта операция».

Действия не могут быть объединены. Невозможно соединить два GUI-действия с помощью конвейера. «Результаты поиска → Фильтрация → Экспорт» в GUI — это три клика, и их нельзя передать, повторно использовать или автоматизировать как единое целое.

Сложно тестировать и проверять. ИИ выполнил действие в графическом интерфейсе — как убедиться, что оно успешно завершилось? Нужно делать скриншоты, анализировать состояние интерфейса — весь цикл обратной связи медленный и хрупкий.

В сравнении, каждая функция CLI кажется специально разработанной для ИИ.

Три преимущества CLI перед AI-агентом: компонуемость

Суть Unix-философии: «Каждая программа должна выполнять только одну задачу и делать это хорошо; программы должны уметь работать вместе».

Этот принцип проектирования, разработанный десятилетия назад, обретает новое значение в эпоху ИИ.

Инструмент CLI соединяется через стандартный ввод-вывод. linkly search "Оптимизация производительности React" | head -5 передает результаты поиска следующей команде. linkly search "Проектирование архитектуры" --json | jq '.results[].doc_id' извлекает все идентификаторы документов для дальнейшей обработки.

Для AI-агента компонуемость означает возможность связывать несколько команд в сложные многошаговые рабочие процессы, где вывод каждого шага представляет собой структурированный текст, доступный для потребления следующим шагом. Отсутствует цикл «нажать → подождать → сделать скриншот → распознать» без GUI, присутствуют только чистые входные и выходные данные.

Предсказуемость

Поведение каждой команды полностью определяется параметрами. При выполнении linkly search "база данных" --limit 10 сегодня результат будет таким же, как и завтра (при условии, что база данных не изменилась). Нет неявного состояния, нет путаницы вроде «почему эта функция раньше работала, а теперь нет».

Это крайне важно для ИИ. При использовании инструмента ИИ должен построить мысленную модель: какие у этого инструмента входные данные, выходные данные и какие побочные эффекты. Неявное состояние GUI делает эту мысленную модель неопределенной. Явные параметры CLI делают эту мысленную модель надежной и точной.

linkly read 42 --offset 80 --limit 100——значение этой команды полностью определяется параметрами. ИИ может точно вывести её поведение, не предполагая никакого неявного контекста.

Аудитируемость

Все операции CLI представляют собой текстовые последовательности, которые можно записать. То, какие команды выполнил ИИ и какие выводы он получил, — это текст, понятный человеку.

Эта прозрачность имеет два преимущества.

Для самого ИИ: можно провести самопроверку. «На предыдущем шаге linkly search по запросу „шаблон договора“ вернул 0 результатов, что означает неверные ключевые слова — попробуйте заменить на образец договора.» Такая текстовая самокоррекция является основой для надежной работы AI-агента.

Для человека: можно провести постфактум аудит. Вы можете просмотреть, какие команды выполнил ИИ, какие были входные и выходные данные на каждом этапе — вся цепочка рассуждений видна наглядно. В GUI сложно отследить, что именно было нажато, тогда как логи CLI по своей природе являются аудиторскими записями.

Практики проектирования Linkly AI CLI

LinklyAI — это собственное программное обеспечение для создания локального поискового движка и базы знаний. При разработке CLI-инструмента Linkly AI мы изначально рассматривали AI-агент как одного из основных пользователей.

4 тщательно разработанных основных команды

У Linkly AI CLI всего четыре основные команды:

Эти четыре команды полностью соответствуют философии Unix: каждая выполняет только одну задачу и имеет четкий контракт ввода-вывода. AI-агент может произвольно комбинировать их для создания сложных процессов поиска.

Типичный рабочий процесс агента выглядит следующим образом:

Вывод каждого шага — это структурированный текст, который можно напрямую потреблять и анализировать ИИ. Нет никаких операций с графическим интерфейсом, нет нагрузки на визуальный анализ.

Сочетание с трубопроводами и т.п.

Еще одно преимущество CLI — это возможность свободно комбинировать его с другими командами в системе, что открывает новые возможности, выходящие за рамки возможностей отдельного инструмента.

Фильтрация и извлечение: вывод в формате --json можно напрямую передать в jq для извлечения полей, после чего результат передается в следующий инструмент:

Поиск документов, извлечь только список doc_id, затем пакетная загрузка оглавлений
linkly search "数据库设计" --json | jq -r '.results[].doc_id' | xargs -I{} linkly outline {}

Сочетание с grep для вторичной фильтрации: сначала используйте семантический поиск для сужения диапазона, затем примените точные ключевые слова для фильтрации:

linkly search "架构设计" | grep -i "微服务|分布式"

Статистика и анализ: совместно с wc, sort, uniq для статистики документов:

Сколько статей в базе знаний в формате PDF?
linkly search "" --json | jq '.results[].type' | sort | uniq -c

В сочетании со скриптом: пакетная обработка и автоматизация повторяющихся задач в shell-скрипте:

GUI-инструменты не могут участвовать в этих комбинациях. Вывод CLI-инструментов представляет собой текстовый поток, который естественным образом может быть использован любыми другими инструментами, что делает возможности всей системы значительно больше, чем простая сумма возможностей отдельных инструментов.

CLI также является самым простым способом моста MCP

CLI и MCP не являются взаимоисключающими. Команда linkly mcp может превратить CLI в сервер MCP stdio, доступный для любого AI-клиента, поддерживающего MCP:

Json:

Это намного проще, чем настраивать HTTP MCP Server вручную — пользователю не нужно знать порт или вручную писать URL в JSON, достаточно просто сказать клиенту ИИ: «выполни эту команду».

CLI стал билетом в экосистему MCP с практически нулевым порогом настройки для пользователей.

Более макро тренд

Claude Code выбрал приоритетную публикацию в виде CLI, а не плагина для IDE, поскольку это решение основано на четкой инженерной логике: плагины для IDE ограничены средой запуска, тогда как CLI-инструменты могут работать в любом месте с терминалом, вызываться любыми агентами и комбинироваться с любыми другими инструментами.

Это раскрывает более фундаментальный закон: суть вызова инструментов AI Agent — выполнение команд. Вызов инструмента (function call / tool use) по своей семантике является CLI — при задании имени и параметров возвращается результат. CLI-инструменты по своей природе являются функциями, которые может вызывать Agent, без необходимости каких-либо преобразующих слоев.

Термин «Terminal as the new IDE» использовался еще до появления ИИ, но в эпоху ИИ он приобрел совершенно новый смысл: речь идет не просто о «написании кода в терминале», а о «взаимодействии агентов с миром через терминал».

Раньше CLI был инструментом исключительно для технических специалистов. В будущем CLI может стать универсальным языком для агентов — люди будут общаться с агентами на естественном языке, а агенты будут взаимодействовать с системой через CLI.

Краткое резюме

GUI не потеряет своей значимости — он остается лучшим интерфейсом для прямого взаимодействия человека с компьютером. Однако, когда вашему инструменту ИИ необходимо вызвать другой инструмент, CLI является наиболее естественным мостом, и все больше программ будут внедрять CLI-инструменты, чтобы соответствовать привычкам агентов.

Хотите попробовать поискать ваши документы в терминале? Ознакомьтесь с этими двумя статьями: ищите ваши документы, не покидая терминал, и одной командой заставьте более 30 AI-инструментов читать локальные файлы.