Содержание
Оболочка shell
Кратко о программируемой оболочке
Программируемая оболочка интерпретирует команду и выполняет её. Оболочка shell предназначена для манипуляции с:
- данными — строчно-ориентированная обработка;
- файлами — посредством многочисленных утилиты Unix;
- программами — как инструментом «склеивания» разных программ друг с другом (конвеер, сопроцессы, асинхронный запуск и пр.)
В Unix оболочка shell — обычная программа. Она не является частью ядра. Основные преимущества оболочки:
- шаблоны для имён файлов. Shell находит совпадающие с шаблоном имена файлов и выполняет подстановку;
- перенаправление ввода-вывода. Программы могут вводить данные из файлов и выводить их в файл, а не через терминал. Программы могут быть соединены посредством программных каналов в конвеер;
- настройка переменных окружения (environment variables), псевдонимы (alias) и функции.
Архитектура расширений языка в оболочке shell беспрецедентно проста и гибка по причине отсутствия специальной архитектуры или API. Утилиты связываются друг с другом текстовым, как правило, строково-ориентированным интерфейсом. Производительность программ, написанных на оболочке, существенно ниже, чем у специализированных программ на Си. Это обсуловлено накладными расходами на создание новых процессов. Не смотря на то, что в Unix запуск новых процессов происходит довольно быстро, ядро ОС несёт затраты на организацию системных таблиц, выделение ресурсов и т. д. Программы на оболочке эффективны тогда, когда расходы на сами операции (ввод-вывод, вычисления) существенно превышают расходы на создание новых процессов.
Интерактивный и неинтерактивный режимы
В интерактивном режиме оболочка сигнализирует о готовности принимать команды приглашением — символом доллара ($). Если оболочка ожидает продолжения ввода, то об этом она сигнализирует приглашением продолжения ввода — символом «больше-чем» (>).
$ echo ’hello > world’ hello world $
В приведённом выше примере оболочка ожидает продолжения ввода после `’hello`, т. к. символ апострофа (’) обозначает начало экранируемой строки, и строка считается незавершённой, пока оболочка не встретит парный апостроф. Оболочка знает, что ввод должен продолжиться, поэтому выводит вторичное приглашение (>) и ждёт дальнейшего ввода. Символ перевода строки внутри экранированной строки становится частью аргумента для echo. В неинтерактивном режиме оболочка не показывает приглашений, только вывод самих команд. Запускать команды можно двумя способами. Первый способ — это сохранить все команды в файл, а потом запустить их:
$ cat hello echo ’hello world’ $ sh hello hello world $
Второй способ — добавить путь к интерпретатору в сам файл. Для этого нужно первой строкой в файле поместить `#!/bin/sh` и добавить разрешение на исполнение файла:
$ chmod +x hello
Теперь файл можно запускать как программу из текущего каталога:
$ ./hello hello world $
Простые команды
Оболочка выполняет преобразования с командами, разбивая каждую входную строку на последовательность символов, называемых словами (words). Процесс разбиения входного текста на слова называется разбиением слов (word splitting). Количество пробелов или символов табуляции между словами не имеет значения. Обычно первое слово является командой (встроенной или внешней программой), последующие слова передаются как аргументы команде. Для трассировки изменений, вносимых оболочкой в команды, включают режим трассировки командой `set -x`, а выключают трассировку командой `set +x`. Несколько команд можно ввести в одну строку через разделитель (;).
$ echo hello; echo world hello world $
Вторая команда выполняется сразу после первой, приглашения не выводятся.
Переменные
Переменная — это именованый параметр, который хранит значение. Для раскрытия переменной в оболочке используется символ доллара ($), которым префиксируется имя переменной. Для присвоения значения переменной к её имени без пробелов ставят знак равенства (=):
$ fruit=apple $ echo $fruit apple $
Имя переменной в shell должно начинаться с буквы (строчной или прописной) или символа подчёркивания (_). После первого символа в имени переменой могут следовать любые комбинации букв, цифр и символов подчёркивания. Если переменная не была определена, то при её раскрытии вставляется пустая строка. Такое поведение оболочки может быть источником некоторых неприятностей, поэтому следует быть предусмотрительным. В оболочке все переменные — строки. Целые, единичные символы, строки не различаются. В этом смысле оболочка shell считается нетипизированным языком. Значение переменной может быть введено пользователем.
$ echo Enter your favourite fruit: ; read fruit Enter your favourite fruit: orange $ echo $fruit orange $
На этой странице будут собраны и разбиты на разделы практические приёмы использования оболочки (shell). Так как сама по себе оболочка является всего лишь тонким «клеем» для объединения программ и файлов в новые инструменты (через конвеер и перенаправление ввода-вывода), в этот раздел будут помещены ссылки на другие вики-страницы, где описаны приёмы работы с прочими классическими утилитами Unix.
Конвеер для работы с файлами
$ find /etc -maxdepth 1 -type f | sort | ( echo cat ; cat ) | paste -s -d ' ' | sh >/tmp/all
Я бы отдал предпочтение tr вместо paste, вот так:
$ find /etc -maxdepth 1 -type f | sort | { echo cat; cat; } | tr '\n' ' ' | sh >/tmp/all
Здесь запуск подоболочки (subshell) заменён на блок (в фигурных скобках), так как преследовалась цель объединить последовательно вывод утилит echo и cat на стандартный вывод. Для этой цели подоболочку запускать расточительно.
Здесь есть ещё одна потенциальная проблема, она связана с тем, что в именаx файлов могут встречаться любые символы, кроме нулевого байта (NUL) и слеша (/). В имени файла может присутствовать символ новой строки (NL), в то же время find печатает список файлов, отделяя этим символом имена друг от друга. Если в имени файла содержится символ новой строки, тогда вывод find не отличим от двух файлов, следующих подряд.
Если используются утилиты GNU, то следует воспользоваться расширением, которое заменяет символ разделителя в списке файлов, выводимом find:
$ find /etc -maxdepth 1 -type f -print0 | sort -z | xargs -0 cat >/tmp/all
Здесь find выводит имена файлов разделяя их не символом новой строки, а нулевым байтом (NUL). В этом случае все утилиты конвеера должны понимать это соглашение, например, GNU sort и GNU xargs умеют обрабатывать списки файлов с таким разделителем. -- СиткаревГригорий
Фильтр sed
$ echo "abcabc" | sed 's/\(.*\)\(\1\)/\1#\2/' abc#abc
В данном примере в регулярном выражении используется backreference. Регулярное выражение состоит из двух групп выделенных круглыми скобками. Первой группе соотвествует любой набор символов .*, во второй группе используется backreference \1 (отсыл на первое выражение), при чем эта группа выделит выражение идентичное первому. В выводе мы адресуем группы как \1 и \2 и разделяем их символом #.
sed как язык программирования
На сегодняшний день sed в основном испозуется для замены или выделения выражений из входных данных. Но этот инструмент намного мощнее. sed это небольшой язык программирования со своей средой исполнения.
Далее текст можно рассматривать как небольшое введение по программированию на sed.
sed имеет два буфера, первый -- pattern буфер -- это входной буфер, он заполняется автоматически при обработке входных данных (или принудительно смотри команды n, N), второй -- hold буфер -- буфер хранения, данные в этот буфер могут попасть только по вызову специальной команды (смотри команды h, H). Пользователь может копировать, добавлять данные из одного буфера в другой, обменивать их содержимым друг с другом.
Команды могут объединяться в группы фигурными скобками:
{ action1; action2... }а так же выполняться с условием, подобно ЯзыкAWK:
condition { action }
где условие (condition) может быть регулярным выражением, номером строки или диапазоном строк.
Напечатать на экран строки с 5-ой по 8-ую:
$ sed -n '5,8p' < /etc/passwd
p -- печатает содержимое pattern буфера.
Напечатать на экран лог ошибки сервера Apache за определенный период:
$ sed -n '/^\[.*Feb 08/,/^\[.*Feb 10/p' < /var/log/apache2/error.log
/regexp1/,/regexp2/ -- условие задается двумя регулярными выражениями -- начальной и конечной датой.
Удалить все закоментированные и пустые строки:
$ sed -e '/^ *#/d' -e '/^$/d' </etc/ssh/sshd_config
d -- удаляет pattern буфер, если условие верно, /^ *#/ строка с коментариями, /^$/ пустая строка, переходит к следующему циклу чтения, все последующие команды игнорируются.
Следующий пример будет сложнее:
$ sed -n 'H;${x;s/\n/ /g;p}' < /etc/passwd
H -- добавляет все входные строки из pattern буфер к данным в hold буфер, таким образом, мы накапливаем все входные строки в буфере хранения;
${ ... } -- $ означает последнюю строку, т.е все действия в фигурных скобках выполняться только при обработке последней строки;
x -- обменивает содержимое hold буфера с содержимым pattern буфера, т.е все накопленные данные перемещаются из hold в ptatern буфер, а из pattern в hold буфер;
s/\n/ /g -- команда замены в pattern буфере, где теперь находятся все наши строки, меняем символ переноса -- пробелом (g делаем это глобально, для всех \n);
p -- печатает pattern буфер. Все строки теперь объеденены в одну.
Слегка расширим предыдущий пример.
$ sed -n '1h;1!H;${x;s/\n/ /g;p}' < /etc/passwd
1h -- первую строку копируем в hold буфер;
1!H -- все входные строки кроме первой добавляем в hold буфер, т.е дописываем к уже имеющимся в нем данным, ! знак инвертирования условия, в нашем случаи оно выполняется для всех строк кроме первой.
В остальном скрипт повторяет предыдущий.
Стоит отметить, что накопление значительных объемов данных может привести к переполнению внутренних буферов sed. Этого не должно произойти при использовании GNU sed.
Литература
- Peek, J. Unix Power Tools / Jerry Peek, Shelley Powers, Tim O'Reilly, Mike Loukides. — 3rd ed. — O'Reilly Media, October 2002.
- The Open Group Base Specifications Issue 7 [Электронный ресурс] : Shell Command Language / The IEEE and The Open Group. — IEEE Std 1003.1, 2013 Edition. — 2013. — Режим доступа: http://pubs.opengroup.org/onlinepubs/9699919799/utilities/V3_chap02.html, свободный.
КатегорияОболочки | КатегорияЯзыкиПрограммирования