Оболочка shell
Программируемая оболочка интерпретирует команду и выполняет её. Оболочка shell предназначена для манипуляции с:
- данными — строчно-ориентированная обработка;
- файлами — посредством многочисленных утилит Unix;
- программами — как инструментом «склеивания» разных программ друг с другом (конвеер, сопроцессы, асинхронный запуск и пр.)
В Unix оболочка shell — обычная программа. Она не является частью ядра. Перечислим значимые особенности и возможности оболочки:
- Оболочка раскрывает шаблоны имён файлов. Shell находит совпадающие с шаблоном имена файлов, формирует из них список и выполняет подстановку в аргументы команды. Команды Unix, используемые в оболочке, не обязаны уметь раскрывать шаблоны, так как этим занимается сама оболочка.
- Оболочка организует перенаправление ввода-вывода. Любая программа, запускаемая в оболочке, может вводить данные из файлов и выводить их в файл, а не через терминал. Программы могут быть соединены посредством программных каналов (pipes) в конвеер;
- Оболочка предоставляет настраиваемые переменные окружения (environment variables), псевдонимы команд (alias) и возможность организовывать часто выполняемые последовательности команд в функции.
Архитектура расширений языка в оболочке shell беспрецедентно проста и гибка по причине отсутствия специальной архитектуры или API. Утилиты связываются друг с другом текстовым, как правило, строково-ориентированным интерфейсом. Производительность программ, написанных на оболочке, существенно ниже, чем у специализированных программ на Си. Это обсуловлено накладными расходами на создание новых процессов. Не смотря на то, что в Unix запуск новых процессов происходит довольно быстро, ядро ОС несёт затраты на организацию системных таблиц, выделение ресурсов и т. д. Программы на оболочке эффективны тогда, когда расходы на сами операции (ввод-вывод, вычисления) существенно превышают расходы на создание новых процессов.
Содержание
Среда запуска команд
Запускаемые программы наследуют окружение оболочки, а именно:
- Открытые файлы и режим доступа (чтение, запись, чтение/запись). Средствами оболочки осуществляется перенаправление ввода-вывода, открытие и закрытие файлов (команда exec).
- Текущий каталог. Любая программа в Unix имеет свой текущий каталог. Смена текущего каталога в оболочке выполняется командой cd.
- Маску режима доступа для новых файлов. Оболочка может изменить маску на произвольную командой umask.
- Игнорируемые сигналы. Маска игнорируемых сигналов наследуется программами запускаемыми в оболочке.
- Переменные окружения. Переменные окружения унаследованные от оболочки доступны программе через функцию стандартной библиотеки Си getenv(3).
Через наследование окружения оболочка организует взаимодействие программ друг с другом. Таким образом в Unix была реализована парадигма компонентного программирования и повторного использования (в ответ на кризис программного обеспечения) задолго до того, как к ней обнаружился интерес в академической среде и появились реализации популярных ООП-языков. К сожалению, подход к решению задач в основу которого положены программы-фильтры и конвеер был проигнорирован в академической среде в угоду парадигме ООП.
Специализированные утилиты из набора инструментария Unix следует рассматривать как ортогональные компоненты, где каждая программа отвечает за свою отдельную чётко определённую задачу. Программируя в оболочке пользователь получает новые инструменты «склеивая» и комбинируя существующий компактный набор типовых компонентов-программ.
Интерактивный и неинтерактивный режимы
В интерактивном режиме оболочка сигнализирует о готовности принимать команды приглашением — символом доллара ($). Если оболочка ожидает продолжения ввода, то об этом она сигнализирует приглашением продолжения ввода — символом «больше-чем» (>).
$ echo ’hello > world’ hello world $
В приведённом выше примере оболочка ожидает продолжения ввода после ’hello
,
т. к. символ апострофа (’) обозначает начало экранируемой строки,
и строка считается незавершённой,
пока оболочка не встретит парный апостроф.
Оболочка знает,
что ввод должен продолжиться,
поэтому выводит вторичное приглашение (>)
и ждёт дальнейшего ввода.
Символ перевода строки внутри экранированной строки становится частью аргумента для echo.
В неинтерактивном режиме оболочка не показывает приглашений,
только вывод самих команд.
Запускать команды можно двумя способами.
Первый способ — это сохранить все команды в файл,
а потом запустить их:
$ cat hello echo ’hello world’ $ sh hello hello world $
Второй способ — добавить путь к интерпретатору в сам файл.
Для этого нужно первой строкой в файле поместить #!/bin/sh
и добавить разрешение на исполнение файла:
$ chmod +x hello
Теперь файл можно запускать как программу из текущего каталога:
$ ./hello hello world $
Запуск команд
Простые команды
Оболочка выполняет преобразования с командами,
разбивая каждую входную строку на последовательность символов,
называемых словами (words).
Процесс разбиения входного текста на слова называется разбиением слов
(word splitting).
Количество пробелов или символов табуляции между словами не имеет значения.
Обычно первое слово является командой (встроенной или внешней программой),
последующие слова передаются как аргументы команде.
Для трассировки изменений,
вносимых оболочкой в команды,
включают режим трассировки командой set -x
,
а выключают трассировку командой set +x
.
Несколько команд можно ввести в одну строку через разделитель (;).
$ echo hello; echo world hello world $
Вторая команда выполняется сразу после первой, приглашения не выводятся.
Асинхронный запуск
Команды в оболочке запускаются последовательно. Перед тем как запустить следующую команду оболочка дожидается завершения предыдущей. Существует способ запуска программ асинхронно, без ожидания завершения. Тогда говорят, что программа работает в фоновом режиме (background). В общем виде запуск списка асинхронных команд выглядит так:
cmd₁ & cmd₂ & … cmdₙ &
Пусть пользователь желает выполнить какое-то длительное действие, например, распаковать большой архив.
$ tar xf archive.tar & [1]+ 31408 $
Оболочка немедленно готова к запуску следующей команды. Встроенная команда оболочки jobs выводит список команд, запущенных асинхронно. Такие команды называются заданиями (jobs).
$ jobs [1]+ Running tar xf archive.tar $
Если добавить опцию -p, то вместо идентификаторов заданий печатаются идентификаторы процессов (PID).
$ jobs -p 31408 $
Знак «+» после номера задания (в выводе jobs
) обозначает задание,
на которое команды bg и fg действуют по умолчанию.
В интерактивной оболочке любую команду,
выполняющуюся интерактивно,
можно перевести в фоновый режим последовательностью Сtrl+Z с клавиатуры терминала.
Пользователь командами оболочки может перевести в фон (bg) или интерактивный режим (fg) любую команду из списка заданий.
$ jobs [1]+ Running tar xf archive.tar $ fg 1 tar xf archive.tar <Ctrl+Z> [1]+ Stopped tar xf archive.tar $
Переменные
Переменная — это именованый параметр, который хранит значение. Для раскрытия переменной в оболочке используется символ доллара ($), которым префиксируется имя переменной. Для присвоения значения переменной к её имени без пробелов ставят знак равенства (=):
$ fruit=apple $ echo $fruit apple $
Присвоить сразу нескольким переменным значения списком можно разделив их пробелами так:
$ name=Yuri surname=Gagarin $ echo $name $surname Yuri Gagarin $
Имя переменной в shell должно начинаться с буквы (строчной или прописной) или символа подчёркивания (_). После первого символа в имени переменой могут следовать любые комбинации букв, цифр и символов подчёркивания. Если переменная не была определена, то при её раскрытии вставляется пустая строка. Такое поведение оболочки может быть источником некоторых неприятностей, поэтому следует быть предусмотрительным. В оболочке все переменные — строки. Целые, единичные символы, строки не различаются. В этом смысле оболочка shell считается нетипизированным языком. Значение переменной может быть введено пользователем.
$ echo Enter your favourite fruit: ; read fruit Enter your favourite fruit: orange $ echo $fruit orange $
Подробнее о переменных
Если рядом с раскрываемой переменной слитно без пробелов расположены другие символы, то раскрывать переменную безопаснее заключив её имя в фигурные скобки ({...}). В таком случае оболочка может определить где начинается и заканчивается её имя.
$ suffix=new $ mv myfile${suffix} myfileold
Раскрываемая переменная может быть изменена ещё несколькими способами, перечислим их ниже:
${parameter꞉-word}
- Использовать значение по умолчанию. Если переменная не установлена или пустая (null), то оболочка раскрывает word и подставляет его значение вместо переменной.
${parameter꞉=word}
- Присвоить значение по умолчанию. Если переменная не установлена или пустая (null), то оболочка раскрывает word и присваивает его значение переменной. Результатом раскрытия всегда будет переменная.
${parameter꞉?[word]}
- Напечатать ошибку и завершиться если переменная не установлена или пустая. Если переменная не установлена или пустая, то оболочка раскрывает word и печатает его на стандартный вывод ошибок а затем завершается (exit) с ненулевым кодом; иначе подставляется значение переменной. Здесь пара квадратных скобок «[…]» обозначает, что word может отсутствовать. Интерактивная оболочка не завершается.
${parameter꞉+word}
- Использовать альтернативное значение. Если переменная не установлена или пустая, то подставляется пустая переменная; в противном случае оболочка раскрывает word и подставляет его.
Если в раскрытии переменной двоеточие (:) используется, то в таком случае оболочка проверяет её и на существование и на пустое значение (null); если же двоеточие опустить, то проверяется только существование.
Оболочка имеет некоторые встроенные средства для манипуляции со строками, перечислим их ниже:
${#parameter}
- Длина строки. Длина в символах значения переменной.
Следующие способы раскрытия переменной некоторым образом обрабатывают её с использованием шаблонов оболочки (shell patterns); нельзя их путать с регулярными выражениями.
${parameter%word}
- Удаляет наименьшее из совпадений с шаблоном в конце строки. Оболочка раскрывает word и интерпретирует его как шаблон. Шаблон сопоставляется со значением переменной начиная с конца; наименьшая совпавшая часть удаляется.
${parameter%%word}
- Удаляет наибольшее из совпадений с шаблоном в конце строки. Оболочка раскрывает word и интерпретирует его как шаблон. Шаблон сопоставляется со значением переменной начиная с конца; наибольшая совпавшая часть удаляется.
${parameter#word}
- Удаляет наименьшее из совпадений с шаблоном в начале строки. Оболочка раскрывает word и интерпретирует его как шаблон. Шаблон сопоставляется со значением переменной начиная с первого символа; наименьшая совпавшая часть удаляется.
${parameter##word}
- Удаляет наибольшее из совпадений с шаблоном в начале строки. Оболочка раскрывает word и интерпретирует его как шаблон. Шаблон сопоставляется со значением переменной начиная с первого символа; наибольшая совпавшая часть удаляется.
Примеры удаления суффиксов:
$ f=src.c $ echo ${f%.c}.o src.o $
$ dir=usr/src/lib $ echo ${dir%%/*} usr $
Примеры удаления префиксов:
$ dir=$TMPDIR/save/tape $ echo ${dir#$TMPDIR} /save/tape $
$ dir=/very/long/path $ echo ${dir##*/} path $
Подстановка команд
Команду заключённую в
$(command)
или
`command`
оболочка заменяет на текст полученный со стандартного вывода команды. Например, если текущая дата это
$ date +%Y%m%d 20150315 $
то команда
$ cp notes.log notes_$(date +%Y%m%d).log
то же самое, что и
$ cp notes.log notes_20150315.log
Арифметические подстановки
Выражение заключённое в
$((expression))
оболочка заменяет на значение выражения и подставляет его как текст. В выражении могут быть использованы арифметические, битовые и логические операторы, такие же как в языке Си. Внутреннее представление чисел — длинный тип со знаком (long int). Константы в выражении допускаются как десятичные так и 8- и 16-ричные.
i=0 while [ $i -lt 20 ]; do printf '%d\n' $i i=$((i+1)) done
Экранирование через "..." и '...'
Разбиение строк на слова — полезная функция оболочки. Оболочка даёт возможность предотвратить разбиение, если у пользователя есть такая нужда. Предположим, переменной нужно присвоить значение с пробелом. Для этого придётся предотвратить разбиение, заключив присваиваемое значение в апострофы (’), иначе слово после пробела будет интерпретировано оболочкой как команда:
$ city=Saint Petersburg Petersburg: command not found $ city=’Saint Petersburg’ $ echo $city Saint Petersburg $
В Unix имя файла может содержать любые символы, кроме слэша (/) и нулевого байта (NUL в ASCII). Если пользователь создал файл с именем my file, то для его удаления тоже нужно предотвратить разбиение на слова:
$ rm my file rm: cannot remove ‘my’: No such file or directory rm: cannot remove ‘file’: No such file or directory $ rm ’my file’ $
Переменная может содержать команду:
$ command=’echo Nice day!’ $ $command Nice day! $
После раскрытия переменной оболочка разбивает её на слова, но повторно уже не раскрывает слова как переменные. Иногда нужно предотвратить разбиение на слова, но при этом выполнить раскрытия переменных. Для этого переменную заключают в двойные кавычки ("):
$ fruit=’red apple’ $ echo $fruit red apple $ echo ’$fruit’ $fruit $ echo "$fruit" red apple $
Весьма распространено заблуждение, что кавычки отделяют слова в оболочке. Это не так, потому что кавычки «склеивают» в одно слово строки, заключённые в них, если между ними нет пробелов.
$ echo ’It’"’"’s not my fault!’ It’s not my fault! $
Перенаправление ввода-вывода
Оболочка организует для каждой запускаемой программы три открытых файла с каждым из которых связан свой номер дескриптора:
- 0
- стандартный ввод;
- 1
- стандартный вывод;
- 2
- стандартный вывод ошибок.
Если операторы перенаправления не использовались и оболочка запущена интерактивно, то все три дескриптора связываются с терминалом пользователя, который в свою очередь является файлом устройства. Путь к файлу устройства текущего терминала всегда можно узнать командой tty.
$ tty /dev/pts/1 $
Операторам перенаправления ввода-вывода номера дескрипторов могут быть указаны явно, но по умолчанию оболочка считает, что для операторов связанных с выводом используется дескриптор 1, а для операторов связанных с перенаправлением ввода используется дескриптор 0. Для перенаправления стандартного вывода ошибок номер приходится указывать явно.
Большинство команд печатают на стандартный вывод и читают стандартный ввод с терминала. В ОС Unix и устройства (терминал, последовательный порт, программные каналы) и файлы (обычные файлы, именованные каналы) с точки зрения операций чтения-записи практически не отличаются.
Оболочка может перенаправить вывод оператором перенаправления вывода (>) в любой файл по желанию пользователя. Если файл не существует, то он будет создан оболочкой.
$ echo "hello, world" >hello $ cat hello hello, world $
При перенаправлении shell удаляет старое содержимое из файла. Если нужно добавить вывод в конец к существующему содержимому, тогда используют оператор «>>», как в следующем примере:
$ echo "goodby, world" >>hello $ cat hello hello, world goodby, world $
Ввод тоже можно перенаправить из файла. Для этого используют оператор перенаправления ввода (<). Для примера, предположим, мы вычисляем число π в калькуляторе bc интерактивно вводом с терминала.
$ bc -lq scale=7; 4*a(1)⏎ 3.1415924 quit⏎ $
Мы можем поместить всё, что вводили с клавиатуры, в файл picalc.bc и перенаправить ввод из него.
$ echo 'scale=7; 4*a(1)' >picalc.bc $ bc -lq <picalc.bc 3.1415924 $
Конечно, bc может читать свои инструкции прямо из файлов, но нас интересовала возможность подмены клавиатурного ввода перенаправлением. Любая программа, которая читает со стандартного ввода, может получить его из файла через перенаправление, организованное средствами оболочки.
Довольно часто встречается надобность (особенно в сценариях) в подавлении вывода чрезмерно болтливой команды. Для этого перенаправляют вывод в специальное устройство /dev/null; любой байт записанный в него исчезает навсегда.
$ grep '^root:' /etc/passwd >/dev/null
Дублирование дескрипторов ввода-вывода
Дескрипторы открытых файлов могут дублироваться или закрываться средствами оболочки. Команда дублирования дескриптора файла ввода в общем виде выглядит так:
[n]<&word
где n — номер дескриптора (может отсутствовать, тогда подразумевается 0) куда будет дублирован дескриптор для ввода, указанный в word явно или как выражение, раскрываемое оболочкой (может быть переменной или подстановкой). Символ амперсанда (&) позволяет отличить номер дескриптора от файла с таким же именем. Если вместо номера дескриптора при раскрытии word получен «-», то тогда открытый файл, связанный с дескриптором n, закрывается.
Точно так работает дублирование дескриптора для ввода.
[n]<&word
Идиоматическим приёмом в оболочке является полное подавление вывода команды путём перенаправления стандартного вывода (дескриптор 1) в /dev/null с последующим дублированием в дескриптор стандартного вывода ошибок (дескриптор 2).
$ grep '^root:' /etc/passwd >/dev/null 2>&1
Перенаправление оболочка организует в том же порядке (слева направо) как это пользователь указал в команде, поэтому порядок операторов перенаправления важен.
Пользователь может закрыть, предположим, дескриптор 2 и запустить команду так:
$ cat /tmp/xxx 2<&-
Естественно, что никакого вывода об ошибках, даже если файл '/tmp/xxx' отсутствует, напечатано не будет, так как у запущенного cat дескриптор 2 будет закрыт и любая попытка записи в него приведёт к ошибке. Любопытным пользователям можно попробовать запустить эту команду через strace или любой другой трассировщик системных вызовов:
$ strace sh -c 'exec cat /tmp/xxx 2<&-'
Очевидно, что закрывать любые из трёх стандартных дескрипторов не следует за исключением редких случаев, когда пользователь действительно понимает зачем он это делает.
Программные каналы
Одно из главных достижений Unix — программные каналы. Они позволяют подать вывод одной программы на вход другой без временных файлов. Несколько программ, соединённых таким способом, называют конвеером (pipeline). Например, вывод программа может перенаправить в файл и получить через перенаправление из файла:
$ ls -1 >files $ wc -l <files 42 $
В предыдущем примере файл files использовался для временного хранения ввода-вывода. Оболочка позволяет обойтись без временного файла, соединив программы конвеером:
$ ls -1 | wc -l 42 $
Конвеер может состоять из множества программ. Символ «|» фактически означает, что оболочка должна соединить стандартный вывод команды слева и стандартный ввод команды справа программным каналом (pipe). Команда расположенная справа в таком случае фильтрует вывод предыдущей команды, а потому её часто называют фильтром. Многие программы в Unix являются фильтрами, например, sed, grep, awk, tr — фильтры.
По сути конвеер — способ организовать перенаправление ввода-вывода и его можно рассматривать как своеобразный оператор перенаправления, который действует на окружение команды до прочих операторов перенаправления, поэтому дублирование дескриптора программного канала делают так:
$ ls -1 2>&1 | wc -l
Здесь в дескриптор стандартного вывода ошибок дублируется дескриптор программного канала, соединённый с wc -l
. Таким образом и стандартный вывод и стандартный вывод ошибок из ls -1
попадёт в конвеер и будет передан следующей команде.
Группировка команд
Команды в оболочке могут быть сгруппированы двумя способами:
{ cmd₁; cmd₂; ..., cmdₙ; }
или
( cmd₁; cmd₂; ..., cmdₙ )
В первом случае группировка предназначена для перенаправления вывода группы команд так как будто это одна команда.
$ { echo 'Header'; echo 'Body'; echo 'Footer'; } >output.txt
Наличие знака «;» в конце списка команд обязательно, так как без него оболочка затрудняется определить где он заканчивается.
Во втором случае запуск команд происходит в подоболочке (subshell). Не смотря на то, что подоболочка является отдельным процессом, значение встроенной переменной $ хранящей идентификатор процесса (PID) будет совпадать с родительской.
$ echo $$ 1025 $ ( echo $$ ) 1025 $
Так как список команд в этом случае запускается в отдельном процессе, его окружение можно модифицировать как угодно без влияния на родительскую оболочку. Например, копирование иерархии каталогов из /home/user в /tmp/dump можно осуществить следующим образом:
$ ( cd /home/user; tar cf - . ) | ( cd /tmp/dump; tar xf - )
Так как смена текущего каталога происходит в подоболочке, то она не затрагивает окружения основной оболочки, иначе пришлось бы сохранять текущий каталог до запуска копирования и восстанавливать его после.
Шаблоны имён файлов
Символы «?», «*» и «\[» имеют специальное назначение. Когда оболочка встречает такие символы в аргументе команды (вне кавычек), то аргумент интерпретируются как шаблон имён файлов. Оболочка пытается найти подходящие под шаблон имена файлов (выполняет раскрытие шаблона), а затем подставляет список имён (через пробел) вместо него. Для отмены действия символа перед ним ставят обратный слэш (\).
ls /etc/*.conf
: Вывести имена файлов из /etc, заканчивающиеся на «.conf».ls *.[ch]
: Вывести имена файлов, заканчивающиеся на «.c» и «.h».ls j?nk
: Вывести имена файлов с любым символом вместо ?.cat j\?nk
: Вывести на терминал файл с именем j?nk.ls /var/run/[!abc]*.pid
: Вывести имена файлов из /var/run, начинающиеся на любой символ, исключая символы abc, и заканчивающиеся на «.pid».
Если файлы с именами, подходящими под шаблон, не существуют, то оболочка подставляет сам шаблон буквально.
Замечания по раскрытию шаблонов
Символ слэш (/) не может быть частью шаблона при раскрытии путей, потому что является разделителем пути (path separator). Если слэш присутствует в шаблоне, то он разделяет шаблон на части, где каждая часть задаёт шаблон для совпадения в дереве каталогов. Поиск файлов производится оболочкой только на явно указанной глубине дерева файловой системы. Если ни одного слэша в шаблоне нет, то оболочка ищет имена файлов только в текущем каталоге.
Метасимвол «*» при раскрытии путей никогда не даёт совпадений с именами файлов, начинающихся с точки. Это связано с тем, что в Unix традиционно файлы, имя которых начиналось с точки, считались скрытыми. По этой причине они и не попадают в шаблон «*». Если такие файлы должны давать совпадение с шаблоном, тогда точку нужно указывать явно. В шаблон «.*» при раскрытии путей всегда попадут текущий и родительский каталоги.
Литература
- Kernighan, B. W. Software tools in Pascal / B. W. Kernighan, P. J. Plauger. — Addison-Wesley Longman Publishing Co., Inc., 1981.
- Bourne, S. R. An Introduction to the UNIX Shell / S. R. Bourne. — Bell Laboratories. Computing Science, 1978.
- Peek, J. Unix Power Tools / Jerry Peek, Shelley Powers, Tim O'Reilly, Mike Loukides. — 3rd ed. — O'Reilly Media, October 2002.
- Seebach, P. Beginning Portable Shell Scripting: From Novice to Professional / Peter Seebach. — Apress, 2008.
- The Open Group Base Specifications Issue 7 [Электронный ресурс] : Shell Command Language / The IEEE and The Open Group. — IEEE Std 1003.1, 2013 Edition. — 2013. — Режим доступа: http://pubs.opengroup.org/onlinepubs/9699919799/utilities/V3_chap02.html, свободный.
КатегорияЯзыкиПрограммирования | КатегорияОболочки