AWK

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
AWK
Класс языка:

скриптовый, процедурный, событийно-ориентированный

Появился в:

1977

Автор(ы):

Альфред Ахо, Питер Вайнбергер и Брайан Керниган

Релиз:

IEEE Std 1003.1-2004 (POSIX) / 1985

Система типов:

нет

Основные реализации:

awk, GNU Awk, mawk, nawk, MKS AWK, Thompson AWK (компилятор), Awka (компилятор)

Диалекты:

old awk oawk 1977, new awk nawk 1985, GNU Awk gawk

Испытал влияние:

C, SNOBOL4, Bourne shell

Повлиял на:

Perl, Korn Shell (ksh93, dtksh, tksh), Lua

AWK — интерпретируемый скриптовый C-подобный язык построчного разбора и обработки входного потока (например, текстового файла) по заданным шаблонам. Работает в bash (SH) скриптах.

Название AWK складывается из инициалов разработчиков языка: Alfred V. Aho, Peter J. Weinberger и Brian W. Kernighan. Первая версия AWK была написана в 1977 в AT&T Bell Laboratories.

Структура программы[править | править исходный текст]

AWK рассматривает входной поток как список записей. Каждая запись делится на поля. На основе этой информации выполняется некоторый определённый программистом алгоритм обработки. По умолчанию разделителем записей является символ новой строки (то есть записи — это то же самое, что строки), разделителем полей — символ пробела или табуляции, или последовательность таких символов. Символы-разделители можно явно определить в программе. Символ-разделитель полей можно определить и в командной строке.

AWK-программа состоит из операторов (правил), имеющих вид:

 шаблон {действие}
 шаблон {действие}
 . . .

Каждая запись поочерёдно сравнивается со всеми шаблонами, и каждый раз когда она соответствует шаблону, выполняется указанное действие. Если шаблон не указан, то действие выполняется для любой записи. Если не указано действие, то запись выводится. В AWK также существует 2 предопределённых шаблона BEGIN и END. BEGIN выполняется до начала обработки входного потока. END — после обработки последней записи входного потока.

Действие может состоять из последовательности операторов, разделяемой точкой с запятой, переводом строки или закрывающей скобкой.

Конструкции языка[править | править исходный текст]

Условия[править | править исходный текст]

if(условие)
then
  {
   Список действий 1
  }
else
  {
   Список действий 2
  }

Циклы[править | править исходный текст]

do[править | править исходный текст]

do{
    Тело цикла
}while (условие)

while[править | править исходный текст]

while(условие){
    Тело цикла
}

for (индексная форма)[править | править исходный текст]

Цикл for, в форме, ориентированной на обработку индексных массивов имеет вид:

for(секция инициализации;секция условия;секция обновления итератора){
    Тело цикла
}

for (ассоциативная форма)[править | править исходный текст]

Цикл for, в форме, ориентированной на обработку ассоциативных массивов имеет вид:

for(итератор in массив){
    Тело цикла
}


Встроенные переменные[править | править исходный текст]

Переменная Содержание Значение по умолчанию
ARGC Число аргументов командной строки -
ARGV Массив аргументов командной строки -
FILENAME Обрабатываемый входной файл -
FNR Номер записи в текущем файле -
FS Разделитель полей записи на вводе пробел(ы) и/или табуляция
NF Число полей в текущей записи -
NR Номер записи (общее число считанных записей) -
OFMT Формат распечатки чисел  %.6g
OFS Разделитель полей записи на выводе (символ) пробел(ы) и/или табуляция
ORS Разделитель записей на выводе AWK-программы (символ) \0
RS Разделитель записей на вводе (символ) \0
RSTART
RLENGTH
SUBSEP

Встроенные функции[править | править исходный текст]

Примеры[править | править исходный текст]

«Hello world!»

 BEGIN{print "Hello World!"; exit}

Печать длины самой длинной строки:

 { if (length($0) > max) max = length($0) }
 END { print max }

Печать всех строк длиннее 80 символов:

 { if (length($0) > 80) print $0 }

Печать всех строк, имеющих хотя бы одно поле:

 { if (NF > 0) print $0 }

Печать количества строк в файле:

 END { print NR }

Печать строк, номера которых кратны 3:

 { if (FNR%3==0) print $0 }

Печать остатка входной строки, следующего за первыми тремя полями:

 {
    # поиск начала 4-го поля...
    match($0,/[ \t]*[^ \t]*[ \t]*[^ \t]*[ \t]*[^ \t]*[ \t]*/)
    # ...печать остатка входной строки с найденой позиции
    print substr($0,1+RLENGTH)
 }

Ссылки[править | править исходный текст]