Содержание
Оболочка shell
Кратко о программируемой оболочке
Программируемая оболочка интерпретирует команду и выполняет её. Оболочка shell предназначена для манипуляции с:
- данными — строчно-ориентированная обработка;
- файлами — посредством многочисленных утилит Unix;
- программами — как инструментом «склеивания» разных программ друг с другом (конвеер, сопроцессы, асинхронный запуск и пр.)
В Unix оболочка shell — обычная программа. Она не является частью ядра. Перечислим значимые особенности и возможности оболочки:
- Оболочка раскрывает шаблоны имён файлов. Shell находит совпадающие с шаблоном имена файлов, формирует из них список и выполняет подстановку в аргументы команды. Команды Unix, используемые в оболочке, не обязаны уметь раскрывать шаблоны, так как этим занимается сама оболочка.
- Перенаправление ввода-вывода. Любая программа, запускаемая в оболочке, может вводить данные из файлов и выводить их в файл, а не через терминал. Программы могут быть соединены посредством программных каналов (pipes) в конвеер;
- Оболочка предоставляет настраиваемые переменные окружения (environment variables), псевдонимы команд (alias) и возможность организовывать часто выполняемые последовательности команд в функции.
Архитектура расширений языка в оболочке shell беспрецедентно проста и гибка по причине отсутствия специальной архитектуры или API. Утилиты связываются друг с другом текстовым, как правило, строково-ориентированным интерфейсом. Производительность программ, написанных на оболочке, существенно ниже, чем у специализированных программ на Си. Это обсуловлено накладными расходами на создание новых процессов. Не смотря на то, что в Unix запуск новых процессов происходит довольно быстро, ядро ОС несёт затраты на организацию системных таблиц, выделение ресурсов и т. д. Программы на оболочке эффективны тогда, когда расходы на сами операции (ввод-вывод, вычисления) существенно превышают расходы на создание новых процессов.
Интерактивный и неинтерактивный режимы
В интерактивном режиме оболочка сигнализирует о готовности принимать команды приглашением — символом доллара ($). Если оболочка ожидает продолжения ввода, то об этом она сигнализирует приглашением продолжения ввода — символом «больше-чем» (>).
$ echo ’hello > world’ hello world $
В приведённом выше примере оболочка ожидает продолжения ввода после `’hello`, т. к. символ апострофа (’) обозначает начало экранируемой строки, и строка считается незавершённой, пока оболочка не встретит парный апостроф. Оболочка знает, что ввод должен продолжиться, поэтому выводит вторичное приглашение (>) и ждёт дальнейшего ввода. Символ перевода строки внутри экранированной строки становится частью аргумента для echo. В неинтерактивном режиме оболочка не показывает приглашений, только вывод самих команд. Запускать команды можно двумя способами. Первый способ — это сохранить все команды в файл, а потом запустить их:
$ cat hello echo ’hello world’ $ sh hello hello world $
Второй способ — добавить путь к интерпретатору в сам файл. Для этого нужно первой строкой в файле поместить `#!/bin/sh` и добавить разрешение на исполнение файла:
$ chmod +x hello
Теперь файл можно запускать как программу из текущего каталога:
$ ./hello hello world $
Простые команды
Оболочка выполняет преобразования с командами, разбивая каждую входную строку на последовательность символов, называемых словами (words). Процесс разбиения входного текста на слова называется разбиением слов (word splitting). Количество пробелов или символов табуляции между словами не имеет значения. Обычно первое слово является командой (встроенной или внешней программой), последующие слова передаются как аргументы команде. Для трассировки изменений, вносимых оболочкой в команды, включают режим трассировки командой `set -x`, а выключают трассировку командой `set +x`. Несколько команд можно ввести в одну строку через разделитель (;).
$ echo hello; echo world hello world $
Вторая команда выполняется сразу после первой, приглашения не выводятся.
Переменные
Переменная — это именованый параметр, который хранит значение. Для раскрытия переменной в оболочке используется символ доллара ($), которым префиксируется имя переменной. Для присвоения значения переменной к её имени без пробелов ставят знак равенства (=):
$ fruit=apple $ echo $fruit apple $
Имя переменной в shell должно начинаться с буквы (строчной или прописной) или символа подчёркивания (_). После первого символа в имени переменой могут следовать любые комбинации букв, цифр и символов подчёркивания. Если переменная не была определена, то при её раскрытии вставляется пустая строка. Такое поведение оболочки может быть источником некоторых неприятностей, поэтому следует быть предусмотрительным. В оболочке все переменные — строки. Целые, единичные символы, строки не различаются. В этом смысле оболочка shell считается нетипизированным языком. Значение переменной может быть введено пользователем.
$ echo Enter your favourite fruit: ; read fruit Enter your favourite fruit: orange $ echo $fruit orange $
Экранирование через "..." и '...'
Разбиение строк на слова — полезная функция оболочки. Оболочка даёт возможность предотвратить разбиение, если у пользователя есть такая нужда. Предположим, переменной нужно присвоить значение с пробелом. Для этого придётся предотвратить разбиение, заключив присваиваемое значение в апострофы (’), иначе слово после пробела будет интерпретировано оболочкой как команда:
$ city=Saint Petersburg Petersburg: command not found $ city=’Saint Petersburg’ $ echo $city Saint Petersburg $
В Unix имя файла может содержать любые символы, кроме слэша (/) и нулевого байта (NUL в ASCII). Если пользователь создал файл с именем my file, то для его удаления тоже нужно предотвратить разбиение на слова:
$ rm my file rm: cannot remove ‘my’: No such file or directory rm: cannot remove ‘file’: No such file or directory $ rm ’my file’ $
Переменная может содержать команду:
$ command=’echo Nice day!’ $ $command Nice day! $
После раскрытия переменной оболочка разбивает её на слова, но повторно уже не раскрывает слова как переменные. Иногда нужно предотвратить разбиение на слова, но при этом выполнить раскрытия переменных. Для этого переменную заключают в двойные кавычки ("):
$ fruit=’red apple’ $ echo $fruit red apple $ echo ’$fruit’ $fruit $ echo "$fruit" red apple $
Весьма распространено заблуждение, что кавычки отделяют слова в оболочке. Это не так, потому что кавычки «склеивают» в одно слово строки, заключённые в них, если между ними нет пробелов.
$ echo ’It’"’"’s not my fault!’ It’s not my fault! $
Перенаправление ввода-вывода
Оболочка организует для каждой запускаемой программы три открытых файла с каждым из которых связан свой номер дескриптора:
- 0
- стандартный ввод;
- 1
- стандартный вывод;
- 2
- стандартный вывод ошибок.
Если операторы перенаправления не использовались и оболочка запущена интерактивно, то все три дескриптора связываются с терминалом пользователя, который в свою очередь является файлом устройства. Путь к файлу устройства текущего терминала всегда можно узнать командой tty.
$ tty /dev/pts/1 $
Операторам перенаправления ввода-вывода номера дескрипторов могут быть указаны явно, но по умолчанию оболочка считает, что для операторов связанных с выводом используется дескриптор 1, а для операторов связанных с перенаправлением ввода используется дескриптор 0. Для перенаправления стандартного вывода ошибок номер приходится указывать явно.
Большинство команд печатают на стандартный вывод и читают стандартный ввод с терминала. В ОС Unix и устройства (терминал, последовательный порт, программные каналы) и файлы (обычные файлы, именованные каналы) с точки зрения операций чтения-записи практически не отличаются.
Оболочка может перенаправить вывод оператором перенаправления вывода (>) в любой файл по желанию пользователя. Если файл не существует, то он будет создан оболочкой.
$ echo "hello, world" >hello $ cat hello hello, world $
При перенаправлении shell удаляет старое содержимое из файла. Если нужно добавить вывод в конец к существующему содержимому, тогда используют оператор «>>», как в следующем примере:
$ echo "goodby, world" >>hello $ cat hello hello, world goodby, world $
Ввод тоже можно перенаправить из файла. Для этого используют оператор перенаправления ввода (<). Для примера, предположим, мы вычисляем число π в калькуляторе bc интерактивно вводом с терминала.
$ bc -lq scale=7; 4*a(1)⏎ 3.1415924 quit⏎ $
Мы можем поместить всё, что вводили с клавиатуры, в файл picalc.bc и перенаправить ввод из него.
$ echo 'scale=7; 4*a(1)' >picalc.bc $ bc -lq <picalc.bc 3.1415924 $
Конечно, bc может читать свои инструкции прямо из файлов, но нас интересовала возможность подмены клавиатурного ввода перенаправлением. Любая программа, которая читает со стандартного ввода, может получить его из файла через перенаправление, организованное средствами оболочки.
Довольно часто встречается надобность (особенно в сценариях) в подавлении вывода чрезмерно болтливой команды. Для этого перенаправляют вывод в специальное устройство /dev/null; любой байт записанный в него исчезает навсегда.
$ grep '^root:' /etc/passwd >/dev/null
Дублирование дескрипторов ввода-вывода
Дескрипторы открытых файлов могут дублироваться или закрываться средствами оболочки. Команда дублирования дескриптора файла ввода в общем виде выглядит так:
[n]<&word
где n — номер дескриптора (может отсутствовать, тогда подразумевается 0) куда будет дублирован дескриптор для ввода, указанный в word явно или как выражение, раскрываемое оболочкой (может быть переменной или подстановкой). Символ амперсанда (&) позволяет отличить номер дескриптора от файла с таким же именем. Если вместо номера дескриптора при раскрытии word получен «-», то тогда открытый файл, связанный с дескриптором n, закрывается.
Точно так работает дублирование дескриптора для ввода.
[n]<&word
Идиоматическим приёмом в оболочке является полное подавление вывода команды путём перенаправления стандартного вывода (дескриптор 1) в /dev/null с последующим дублированием в дескриптор стандартного вывода ошибок (дескриптор 2).
$ grep '^root:' /etc/passwd >/dev/null 2>&1
Перенаправление оболочка организует в том же порядке (слева направо) как это пользователь указал в команде, поэтому порядок операторов перенаправления важен.
Пользователь может закрыть, предположим, дескриптор 2 и запустить команду так:
$ cat /tmp/xxx 2<&-
Естественно, что никакого вывода об ошибках, даже если файл '/tmp/xxx' отсутствует, напечатано не будет, так как у запущенного cat дескриптор 2 будет закрыт и любая попытка записи в него приведёт к ошибке. Любопытным пользователям можно попробовать запустить эту команду через strace или любой другой трассировщик системных вызовов:
$ strace sh -c 'exec cat /tmp/xxx 2<&-'
Очевидно, что закрывать любые из трёх стандартных дескрипторов не следует за исключением редких случаев, когда пользователь действительно понимает зачем он это делает.
Программные каналы
Одно из главных достижений Unix — программные каналы. Они позволяют подать вывод одной программы на вход другой без временных файлов. Несколько программ, соединённых таким способом, называют конвеером (pipeline). Например, вывод программа может перенаправить в файл и получить через перенаправление из файла:
$ ls -1 > files $ wc -l < files 42 $
В предыдущем примере файл files использовался для временного хранения ввода-вывода. Оболочка позволяет обойтись без временного файла, соединив программы конвеером:
$ ls -1 | wc -l 42 $
Конвеер может состоять из множества программ. Символ «|» фактически означает, что оболочка должна соединить стандартный вывод команды слева и стандартный ввод команды справа программным каналом (pipe). Команда расположенная справа в таком случае фильтрует вывод предыдущей команды, а потому её часто называют фильтром. Многие программы в Unix являются фильтрами, например, sed, grep, awk, tr — фильтры.
По сути конвеер — способ организовать перенаправление ввода-вывода и его можно рассматривать как своеобразный оператор перенаправления, который действует на окружение команды до прочих операторов перенаправления, поэтому дублирование дескриптора программного канала делают так:
$ ls -1 2>&1 | wc -l
Здесь в дескриптор стандартного вывода ошибок дублируется дескриптор программного канала, соединённый с `wc -l`. Таким образом и стандартный вывод и стандартный вывод ошибок из `ls -1` попадёт в конвеер и будет передан следующей команде.
Группировка команд
Команды в оболочке могут быть сгруппированы двумя способами:
{ cmd₁; cmd₂; ..., cmdₙ; }
или
( cmd₁; cmd₂; ..., cmdₙ )
В первом случае группировка предназначена для перенаправления вывода группы команд так как будто это одна команда.
$ { echo 'Header'; echo 'Body'; echo 'Footer'; } >output.txt
Наличие знака «;» в конце списка команд обязательно, так как без него оболочка затрудняется определить где он заканчивается.
Во втором случае запуск команд происходит в подоболочке (subshell). Не смотря на то, что подоболочка является отдельным процессом, значение встроенной переменной $ хранящей идентификатор процесса (PID) будет совпадать с родительской.
$ echo $$ 1025 $ ( echo $$ ) 1025 $
Так как список команд в этом случае запускается в отдельном процессе, его окружение можно модифицировать как угодно без влияния на родительскую оболочку. Например, копирование иерархии каталогов из /home/user в /tmp/dump можно осуществить следующим образом:
$ ( cd /home/user; tar cf - . ) | ( cd /tmp/dump; tar xf - )
Так как смена текущего каталога происходит в подоболочке, то она не затрагивает окружения основной оболочки, иначе пришлось бы сохранять текущий каталог до запуска копирования и восстанавливать его после.
Шаблоны имён файлов
Символы «?», «*» и «[» имеют специальное назначение. Когда оболочка встречает такие символы в аргументе команды (вне кавычек), то аргумент интерпретируются как шаблон имён файлов. Оболочка пытается найти подходящие под шаблон имена файлов (выполняет раскрытие шаблона), а затем подставляет список имён (через пробел) вместо него. Для отмены действия символа перед ним ставят обратный слэш (\).
`$ ls /etc/*.conf`: Вывести имена файлов из /etc, заканчивающиеся на «.conf». `$ ls *.[ch]`: Вывести имена файлов, заканчивающиеся на «.c» и «.h». `$ ls j?nk`: Вывести имена файлов с любым символом вместо ?. `$ cat j\?nk`: Вывести на терминал файл с именем j?nk. `$ ls /var/run/[!abc]*.pid`: Вывести имена файлов из /var/run, начинающиеся на любой символ, исключая символы abc, и заканчивающиеся на «.pid».
Если файлы с именами, подходящими под шаблон, не существуют, то оболочка подставляет сам шаблон буквально.
Замечания по раскрытию шаблонов
Символ слэш (/) не может быть частью шаблона при раскрытии путей, потому что является разделителем пути (path separator). Если слэш присутствует в шаблоне, то он разделяет шаблон на части, где каждая часть задаёт шаблон для совпадения в дереве каталогов. Поиск файлов производится оболочкой только на явно указанной глубине дерева файловой системы. Если ни одного слэша в шаблоне нет, то оболочка ищет имена файлов только в текущем каталоге.
Метасимвол «*» при раскрытии путей никогда не даёт совпадений с именами файлов, начинающихся с точки. Это связано с тем, что в Unix традиционно файлы, имя которых начиналось с точки, считались скрытыми. По этой причине они и не попадают в шаблон «*». Если такие файлы должны давать совпадение с шаблоном, тогда точку нужно указывать явно. В шаблон «.*» при раскрытии путей всегда попадут текущий и родительский каталоги.
На этой странице будут собраны и разбиты на разделы практические приёмы использования оболочки (shell). Так как сама по себе оболочка является всего лишь тонким «клеем» для объединения программ и файлов в новые инструменты (через конвеер и перенаправление ввода-вывода), в этот раздел будут помещены ссылки на другие вики-страницы, где описаны приёмы работы с прочими классическими утилитами Unix.
Конвеер для работы с файлами
$ find /etc -maxdepth 1 -type f | sort | ( echo cat ; cat ) | paste -s -d ' ' | sh >/tmp/all
Я бы отдал предпочтение tr вместо paste, вот так:
$ find /etc -maxdepth 1 -type f | sort | { echo cat; cat; } | tr '\n' ' ' | sh >/tmp/all
Здесь запуск подоболочки (subshell) заменён на блок (в фигурных скобках), так как преследовалась цель объединить последовательно вывод утилит echo и cat на стандартный вывод. Для этой цели подоболочку запускать расточительно.
Здесь есть ещё одна потенциальная проблема, она связана с тем, что в именаx файлов могут встречаться любые символы, кроме нулевого байта (NUL) и слеша (/). В имени файла может присутствовать символ новой строки (NL), в то же время find печатает список файлов, отделяя этим символом имена друг от друга. Если в имени файла содержится символ новой строки, тогда вывод find не отличим от двух файлов, следующих подряд.
Если используются утилиты GNU, то следует воспользоваться расширением, которое заменяет символ разделителя в списке файлов, выводимом find:
$ find /etc -maxdepth 1 -type f -print0 | sort -z | xargs -0 cat >/tmp/all
Здесь find выводит имена файлов разделяя их не символом новой строки, а нулевым байтом (NUL). В этом случае все утилиты конвеера должны понимать это соглашение, например, GNU sort и GNU xargs умеют обрабатывать списки файлов с таким разделителем. -- СиткаревГригорий
Фильтр sed
$ echo "abcabc" | sed 's/\(.*\)\(\1\)/\1#\2/' abc#abc
В данном примере в регулярном выражении используется backreference. Регулярное выражение состоит из двух групп выделенных круглыми скобками. Первой группе соотвествует любой набор символов .*, во второй группе используется backreference \1 (отсыл на первое выражение), при чем эта группа выделит выражение идентичное первому. В выводе мы адресуем группы как \1 и \2 и разделяем их символом #.
sed как язык программирования
На сегодняшний день sed в основном испозуется для замены или выделения выражений из входных данных. Но этот инструмент намного мощнее. sed это небольшой язык программирования со своей средой исполнения.
Далее текст можно рассматривать как небольшое введение по программированию на sed.
sed имеет два буфера, первый -- pattern буфер -- это входной буфер, он заполняется автоматически при обработке входных данных (или принудительно смотри команды n, N), второй -- hold буфер -- буфер хранения, данные в этот буфер могут попасть только по вызову специальной команды (смотри команды h, H). Пользователь может копировать, добавлять данные из одного буфера в другой, обменивать их содержимым друг с другом.
Команды могут объединяться в группы фигурными скобками:
{ action1; action2... }а так же выполняться с условием, подобно ЯзыкAWK:
condition { action }
где условие (condition) может быть регулярным выражением, номером строки или диапазоном строк.
Напечатать на экран строки с 5-ой по 8-ую:
$ sed -n '5,8p' < /etc/passwd
p -- печатает содержимое pattern буфера.
Напечатать на экран лог ошибки сервера Apache за определенный период:
$ sed -n '/^\[.*Feb 08/,/^\[.*Feb 10/p' < /var/log/apache2/error.log
/regexp1/,/regexp2/ -- условие задается двумя регулярными выражениями -- начальной и конечной датой.
Удалить все закоментированные и пустые строки:
$ sed -e '/^ *#/d' -e '/^$/d' </etc/ssh/sshd_config
d -- удаляет pattern буфер, если условие верно, /^ *#/ строка с коментариями, /^$/ пустая строка, переходит к следующему циклу чтения, все последующие команды игнорируются.
Следующий пример будет сложнее:
$ sed -n 'H;${x;s/\n/ /g;p}' < /etc/passwd
H -- добавляет все входные строки из pattern буфер к данным в hold буфер, таким образом, мы накапливаем все входные строки в буфере хранения;
${ ... } -- $ означает последнюю строку, т.е все действия в фигурных скобках выполняться только при обработке последней строки;
x -- обменивает содержимое hold буфера с содержимым pattern буфера, т.е все накопленные данные перемещаются из hold в ptatern буфер, а из pattern в hold буфер;
s/\n/ /g -- команда замены в pattern буфере, где теперь находятся все наши строки, меняем символ переноса -- пробелом (g делаем это глобально, для всех \n);
p -- печатает pattern буфер. Все строки теперь объеденены в одну.
Слегка расширим предыдущий пример.
$ sed -n '1h;1!H;${x;s/\n/ /g;p}' < /etc/passwd
1h -- первую строку копируем в hold буфер;
1!H -- все входные строки кроме первой добавляем в hold буфер, т.е дописываем к уже имеющимся в нем данным, ! знак инвертирования условия, в нашем случаи оно выполняется для всех строк кроме первой.
В остальном скрипт повторяет предыдущий.
Стоит отметить, что накопление значительных объемов данных может привести к переполнению внутренних буферов sed. Этого не должно произойти при использовании GNU sed.
Литература
- Bourne, S. R. An Introduction to the UNIX Shell %