什麼是正則表達式？

正則表達式又稱正規表達式、常規表達式。在代碼中常簡寫爲 regex、regexp 或 RE。正則表達式是使用單個字符串來描述、匹配一系列符合某個句法規則的字符串，簡單來說，是一種匹配字符串的方法，通過一些特殊符號，實現快速查找、刪除、替換某個特定字符串。
正則表達式是由普通字符與元字符組成的文字模式。模式用於描述在搜索文本時要匹配的一個或多個字符串。正則表達式作爲一個模板，將某個字符模式與所搜索的字符串進行匹配。其中普通字符包括大小寫字母、數字、標點符號及一些其他符號，元字符則是指那些在正則表達式中具有特殊意義的專用字符，可以用來規定其前導字符（即位於元字符前面的字符）在目標對象中的出現模式。
正則表達式一般用於腳本編程與文本編輯器中。很多文本處理器與程序設計語言均支持正則表達式，如前面提到的 Perl、Linux 系統中常見的文本處理器（grep、egrep、sed、awk）。正則表達式具備很強大的文本匹配功能，能夠在文本海洋中快速高效地處理文本。

基礎正則表達式：

正則表達式的字符串表達方法根據不同的嚴謹程度與功能分爲基本正則表達式與擴展正則表達式。基礎正則表達式是常用的正則表達式的最基礎的部分。在 Linux 系統中常見的文件處理工具中 grep 與 sed 支持基礎正則表達式，而 egrep 與 awk 支持擴展正則表達式。掌握基礎正則表達式的使用方法，首先必須瞭解基本正則表達式所包含的元字符的含義，下面我們複製一份http服務的配置文件來進行演示。

[root@localhost ~]# cp /etc/httpd/conf/httpd.conf /opt/httpd.txt
[root@localhost ~]# cat /opt/httpd.txt 
#
# This is the main Apache HTTP server configuration file.  It contains the
# configuration directives that give the server its instructions.
# See <URL:http://httpd.apache.org/docs/2.4/> for detailed information.
# In particular, see 
# <URL:http://httpd.apache.org/docs/2.4/mod/directives.html>
# for a discussion of each configuration directive.
             ..................................                 //省略部分內容

grep命令

（1）查找特定字符

查找特定字符非常簡單，如執行以下命令即可從 httpd.txt 文件中查找出特定字符“do” 所在位置。其中“-n”表示顯示行號、“-i”表示不區分大小寫。命令執行後，符合匹配標準的字符，字體顏色會變爲紅色。

若反向選擇，如查找不包含“do”字符的行，則需要通過 grep 命令的“-vn”選項實現。

[root@localhost opt]# grep -vn 'do' httpd.txt 
1:#
2:# This is the main Apache HTTP server configuration file.  It contains the
3:# configuration directives that give the server its instructions.
5:# In particular, see 
7:# for a discussion of each configuration directive.
8:#                。...........................                      //省略部分內容

（2）利用中括號“[]”來查找集合字符

想要查找“shirt”與“short”這兩個字符串時，可以發現這兩個字符串均包含“sh” 與“rt”。此時執行以下命令即可同時查找到“shirt”與“short”這兩個字符串。“[]”中無論有幾個字符，都僅代表一個字符，也就是說“[io]”表示匹配“i”或者“o”。

[root@localhost opt]# tail -3 httpd.txt 
short
shirt
shart
[root@localhost opt]# grep -n 'sh[io]rt' httpd.txt 
354:short
355:shirt
[root@localhost opt]#

若要查找包含重複單個字符“oo”時，只需要執行以下命令即可。

[root@localhost opt]# head -5 httpd.txt 
wood
woood
wooood
woooood
#
[root@localhost opt]# grep -n 'oo' httpd.txt 
1:wood
2:woood
3:wooood
4:woooood

若查找“oo”前面不是“w”的字符串，只需要通過集合字符的反向選擇“[^]”來實現該目的，如執行“grep –n'[^w]oo'httpd.txt”命令表示在 httpd.txt 文本中查找“oo” 前面不是“w”的字符串。執行結果看到“woood”還是查找到了，因爲“oo”前面是“o”也不是“w”，符合條件，其它同理。

若不希望“oo”前面存在小寫字母，可以使用“grep –n'[^a-z]oo'httpd.txt”命令實現，其中“a-z”表示小寫字母，大寫字母則通過“A-Z”表示。

查找包含數字的行可以通過“grep –n'[0-9]' httpd.txt”命令來實現。

（3）查找行首“^”與行尾字符“$”

基礎正則表達式包含兩個定位元字符：“^”（行首）與“$”（行尾）。在上面的示例中，查詢“the”字符串時出現了很多包含“the”的行，如果想要查詢以“the”字符串爲行首的行，則可以通過“^”元字符來實現。

查詢以小寫字母開頭的行可以通過“^[a-z]”規則來過濾，查詢大寫字母開頭的行則使用“^[A-Z]”規則，若查詢不以字母開頭的行則使用“^[^a-zA-Z]”規則。

[root@localhost opt]# grep -n '^[a-z]' httpd.txt 
1:wood
2:woood
3:wooood
4:woooood
358:short
359:shirt
360:shart
[root@localhost opt]# grep -n '^[A-Z]' httpd.txt 
35:ServerRoot "/etc/httpd"
46:Listen 80
60:Include conf.modules.d/*.conf
70:User apache
71:Group apache

“^”符號在元字符集合“[]”符號內外的作用是不一樣的，在“[]”符號內表示反向選擇，在“[]”符號外則代表定位行首。反之，若想查找以某一特定字符結尾的行則可以使用“$”定位符。例如，執行以下命令即可實現查詢以小數點（.）結尾的行。因爲小數點（.）在正則表達式中也是一個元字符（後面會講到），所以在這裏需要用轉義字符“\”將具有特殊意義的字符轉化成普通字符。

當查詢空白行時，執行“grep –n'^$'httpd.txt”命令即可。

（4）查找任意一個字符“.”與重複字符“ * ”

前面提到，在正則表達式中小數點（.）也是一個元字符，代表任意一個字符。例如，執行以下命令就可以查找“w??d”的字符串，即共有四個字符，以 w 開頭 d 結尾。

在上述結果中，“wood”字符串“w..d”匹配規則。若想要查詢 oo、ooo、ooooo 等資料，則需要使用星號（*）元字符。但需要注意的是，“*”代表的是重複零個或多個前面的單字符。“o*”表示擁有零個（即爲空字符）或大於等於一個“o”的字符，因爲允許空字符，所以執行“grep –n‘o*’httpd.txt”命令會將文本中所有的內容都輸出打印。如果是“oo*”，則第一個 o 必須存在，第二個 o 則是零個或多個 o，所以凡是包含 o、oo、ooo、ooo，等的資料都符合標準。同理，若查詢包含至少兩個 o 以上的字符串，則執行“grep –n'ooo*' httpd.txt”命令即可。

查詢以 w 開頭 d 結尾，中間包含至少一個 o 的字符串，執行以下命令即可實現。

查詢以 w 開頭 d 結尾，中間的字符可有可無的字符串。

查詢任意數字所在行。

（5）查找連續字符範圍“{}”

在上面的示例中，我們使用“.”與“*”來設定零個到無限多個重複的字符，如果想要限制一個範圍內的重複的字符串該如何實現呢？例如，查找三到五個 o 的連續字符，這個時候就需要使用基礎正則表達式中的限定範圍的字符“{}”。因爲“{}”在 Shell 中具有特殊意義，所以在使用“{}”字符時，需要利用轉義字符“\”，將“{}”字符轉換成普通字符。 “{}”字符的使用方法如下所示。

查詢兩個 o 的字符。

查詢以 w 開頭以 d 結尾，中間包含 2～5 個 o 的字符串。

查詢以 w 開頭以 d 結尾，中間包含 2 以上 o 的字符串。

（6）元字符總結

通過上面幾個簡單的示例，我們可以瞭解到常見的基礎正則表達式的元字符主要包括以下幾個：

元字符	作用
^	匹配輸入字符串的開始位置。除非在方括號表達式中使用，表示不包含該字符集合。要匹配“^”字符本身，請使用“\^”
$	匹配輸入字符串的結尾位置。如果設置了 RegExp 對象的 Multiline 屬性，則“$”也匹配‘\n’或‘\r’。要匹配“$”字符本身，請使用“\$”
.	匹配除“\r\n”之外的任何單個字符
\\|將下一個字符標記爲特殊字符、原義字符、向後引用、八進制轉義符。例如，‘n’匹配字符“n”。 ‘\n’匹配換行符。序列‘\’匹配“\”，而‘(’則匹配“(”
*	匹配前面的子表達式零次或多次。要匹配“”字符，請使用“”
[]	字符集合。匹配所包含的任意一個字符。例如，“[abc]”可以匹配“plain”中的“a”
[^]	賦值字符集合。匹配未包含的一個任意字符。例如，“[^abc]”可以匹配“plain”中“plin”中的任何一個字母
[n1-n2]	字符範圍。匹配指定範圍內的任意一個字符。例如，“[a-z]”可以匹配“a”到“z”範圍內的任意一個小寫字母字符。注意：只有連字符（-）在字符組內部，並且出現在兩個字符之間時，才能表示字符的範圍；如果出現在字符組的開頭，則只能表示連字符本身
{n}	n 是一個非負整數，匹配確定的 n 次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的兩個 o
{n,}	n 是一個非負整數，至少匹配 n 次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有 o。“o{1,}”等價於“o+”。“o{0,}”則等價於“o*”
{n,m}	m 和n 均爲非負整數，其中 n<=m，最少匹配 n 次且最多匹配 m 次

擴展正則表達式：

通常情況下會使用基礎正則表達式就已經足夠了，但有時爲了簡化整個指令，需要使用範圍更廣的擴展正則表達式。例如，使用基礎正則表達式查詢除文件中空白行與行首爲“#” 之外的行（通常用於查看生效的配置文件），執行“grep –v‘^$’test.txt | grep –v ‘^#’”即可實現。這裏需要使用管道命令來搜索兩次。如果使用擴展正則表達式，可以簡化爲“egrep –v‘^$|^#’test.txt”，其中，單引號內的管道符號表示或者（or）。
此外，grep 命令僅支持基礎正則表達式，如果使用擴展正則表達式，需要使用 egrep 或 awk 命令。awk 命令在後面的小節進行講解，這裏我們直接使用 egrep 命令。egrep 命令與 grep 命令的用法基本相似。egrep 命令是一個搜索文件獲得模式，使用該命令可以搜索文件中的任意字符串和符號，也可以搜索一個或多個文件的字符串，一個提示符可以是單個字符、一個字符串、一個字或一個句子。與基礎正則表達式類型相同，擴展正則表達式也包含多個元字符，常見的擴展正則表達式的元字符主要包括以下幾個：

下面分別演示每個例子

示例1：執行“egrep -n 'wo+d' httpd.txt”命令，即可查詢"wood" "woood" "woooooood"等字符串

示例2：執行“egrep -n 'bes?t' httpd.txt”命令，即可查詢“bet”“best”這兩個字符串

示例3：執行“egrep -n 'of|is|on' httpd.txt”命令即可查詢"of"或者"if"或者"on"字符串

示例4：“egrep -n 't(a|e)st' test.txt”。“tast”與“test”因爲這兩個單詞的“t”與“st”是重複的，所以將“a”與“e”列於“()”符號當中，並以“|”分隔，即可查詢"tast"或者"test"字符串

示例5：“egrep -n 'A(xyz)+C' test.txt”。該命令是查詢開頭的"A"結尾是"C"，中間有一個以上的 "xyz"字符串的意思

文本處理器

在 Linux/UNIX 系統中包含很多種文本處理器或文本編輯器,其中包括我們之前學習過的VIM 編輯器與 grep 等。而 grep，sed，awk 更是 shell 編程中經常用到的文本處理工具，被稱之爲 Shell 編程三劍客。

sed 工具

sed（Stream EDitor）是一個強大而簡單的文本解析轉換工具，可以讀取文本，並根據指定的條件對文本內容進行編輯（刪除、替換、添加、移動等），最後輸出所有行或者僅輸出處理的某些行。sed 也可以在無交互的情況下實現相當複雜的文本處理操作，被廣泛應用於 Shell 腳本中，用以完成各種自動化處理任務。
sed 的工作流程主要包括讀取、執行和顯示三個過程。

讀取：sed 從輸入流（文件、管道、標準輸入）中讀取一行內容並存儲到臨時的緩衝區中（又稱模式空間，pattern space）。
執行：默認情況下，所有的 sed 命令都在模式空間中順序地執行，除非指定了行的地址，否則 sed 命令將會在所有的行上依次執行。
顯示：發送修改後的內容到輸出流。再發送數據後，模式空間將會被清空。在所有的文件內容都被處理完成之前，上述過程將重複執行，直至所有內容被處理完。
注意：默認情況下,所有的 sed 命令都是在模式空間內執行的，因此輸入的文件並不會發生任何變化，除非是用重定向存儲輸出。

（1）sed 命令常見用法

通常情況下調用 sed 命令有兩種格式，如下所示。其中，“參數”是指操作的目標文件，當存在多個操作對象時用，文件之間用逗號“，”分隔；而 scriptfile 表示腳本文件，需要用“-f”選項指定，當腳本文件出現在目標文件之前時，表示通過指定的腳本文件來處理輸入的目標文件。

sed[選項] '操作' 參數
sed [選項] -f scriptfile 參數

常見的 sed 命令選項主要包含以下幾種：

-e 或--expression=：表示用指定命令或者腳本來處理輸入的文本文件
-f 或--file=：表示用指定的腳本文件來處理輸入的文本文件
-h 或--help：顯示幫助
-n、--quiet 或 silent：表示僅顯示處理後的結果
-i：直接編輯文本文件

“操作”用於指定對文件操作的動作行爲，也就是 sed 的命令。通常情況下是採用的“[n1[,n2]]”操作參數的格式。n1、n2 是可選的，不一定會存在，代表選擇進行操作的行數，如操作需要在 5～20 行之間進行，則表示爲“5，20 動作行爲”。常見的操作包括以下幾種。

a：增加，在當前行下面增加一行指定內容。
c：替換，將選定行替換爲指定內容。
d：刪除，刪除選定的行。
i：插入，在選定行上面插入一行指定內容。
p：打印，如果同時指定行，表示打印指定行；如果不指定行，則表示打印所有內容；
      如果有非打印字符，則以ASCII 碼輸出。其通常與“-n”選項一起使用。
s：替換，替換指定字符。
y：字符轉換。

（2）用法示例

我們先自己新建一個test.txt文本文件作爲實驗對象：

[root@localhost opt]# vim test.txt
[root@localhost opt]# cat test.txt 
1
2
3
4
5
6
7
8
9
0
[root@localhost opt]#

輸出符合條件的文本（p 表示正常輸出）

[root@localhost opt]#  sed -n 'p' test.txt                    //輸出所有內容,等同於 cat test.txt
1
2
3
4
5
6
7
8
9
0
[root@localhost opt]#
[root@localhost opt]# sed -n '2,5p' test.txt                   //輸出 2~5 行
2
3
4
5
[root@localhost opt]#
[root@localhost opt]# sed -n 'p;n' test.txt  //輸出所有奇數行,n 表示讀入下一行資料
1
3
5
7
9
[root@localhost opt]# sed -n 'n;p' test.txt //輸出所有偶數行,n 表示讀入下一行資料
2
4
6
8
0
[root@localhost opt]#
[root@localhost opt]# sed -n '2,${p;n}' test.txt //輸出第 2 行至文件尾之間的奇數行
2
4
6
8
0
[root@localhost opt]#

在執行“sed –n‘2,${n;p}’test.txt”命令時，讀取的第 1 行是文件的第 2 行，讀取的第 2 行是文件的第 3 行，依此類推，所以輸出的奇數行是文件的第 2 行、4 行直至文件結尾，其中包括空行。
以上是 sed 命令的基本用法，sed 命令結合正則表達式時，格式略有不同，正則表達式以“/”包圍。例如，以下操作是 sed 命令與正則表達式結合使用的示例。

[root@localhost opt]# vim test.txt               //先對實驗文件進行修改
[root@localhost opt]# cat test.txt 
1
2
3
4
5
6
7
the this
8
this the
9
0
[root@localhost opt]#
[root@localhost opt]# sed -n '/the/p' test.txt     //輸出包含the 的行
the this
this the
[root@localhost opt]#
[root@localhost opt]# sed -n '2,/the/p' test.txt         //輸出從第 2 行至第一個包含 the 的行
2
3
4
5
6
7
the this
[root@localhost opt]#
[root@localhost opt]# sed -n '/the/=' test.txt           //輸出包含the 的行所在的行號,等號(=)用來輸出行號
8
10
[root@localhost opt]#
[root@localhost opt]# sed -n '/^the/p' test.txt         //輸出以the 開頭的行
the this
[root@localhost opt]#
[root@localhost opt]# sed -n '/^the/p' test.txt        //輸出以the開頭的行
the this
[root@localhost opt]#
[root@localhost opt]# sed -n '/[0-9]$/p' test.txt     //輸出以數字結尾的行
1
2
3
4
5
6
7
8
9
0
[root@localhost opt]#
[root@localhost opt]# vim test.txt                                 //在文本末行添加一個"then"
[root@localhost opt]# cat test.txt 
1
2
3
4
5
6
7
the this
8
this the
9
0
then
[root@localhost opt]# sed -n '/the/p' test.txt             //輸出包含the的行，注意這種輸出不會識別單詞
the this
this the
then
[root@localhost opt]# sed -n '/\<the\>/p' test.txt       //輸出包含單詞the的行,\<、\>代表單詞邊界
the this
this the
[root@localhost opt]#

刪除符合條件的文本（d）

因爲後面的示例還需要使用測試文件 test.txt，所以在執行刪除操作之前需要先將測試文件備份。以下示例分別演示了 sed 命令的幾種常用刪除用法。
下面命令中 nl 命令用於計算文件的行數，結合該命令可以更加直觀地查看到命令執行的結果。

[root@localhost opt]# nl test.txt | sed '3d'        //刪除第 3 行
     1  1
     2  2
     4  4
     5  5
     6  6
     7  7
     8  the this
     9  8
    10  this the
    11  9
    12  0
    13  then
[root@localhost opt]#
[root@localhost opt]# nl test.txt | sed '3d'        //刪除第 3~5 行
     1  1
     2  2
     6  6
     7  7
     8  the this
     9  8
    10  this the
    11  9
    12  0
    13  then
[root@localhost opt]#
[root@localhost opt]# nl test.txt | sed '/the/d'              //刪除包含cross 的行
     1  1
     2  2
     3  3
     4  4
     5  5
     6  6
     7  7
     9  8
    11  9
    12  0
[root@localhost opt]# nl test.txt | sed '/the/!d'             //刪除不包含cross 的行,用!符號表示取反操作,如'/the/!d'
     8  the this
    10  this the
    13  then
[root@localhost opt]#
[root@localhost opt]# sed '/^[a-z]/d' test.txt         //刪除以小寫字母開頭的行
1
2
3
4
5
6
7
8
9
0
THE this
[root@localhost opt]#
[root@localhost opt]# sed '/this$/d' test.txt           //刪除以this結尾的行
1
2
3
4
5
6
7
8
this the
9
0
then
[root@localhost opt]#
[root@localhost ~]# sed '/^$/d' test.txt          //刪除所有空行，與前面的差不多，不演示了

注意：若是刪除重複的空行，即連續的空行只保留一個，執行“ sed –e ‘/^$/{n;/^$/d}’test.txt”命令即可實現。其效果與“cat -s test.txt”相同，n 表示讀下一行數據。

替換符合條件的文本

在使用 sed 命令進行替換操作時需要用到 s（字符串替換）、c（整行/整塊替換）、y（字符轉換）命令選項，常見的用法如下所示。

sed 's/the/THE/' test.txt   //將每行中的第一個the 替換爲 THE
sed 's/l/L/2' test.txt  //將每行中的第 3 個l 替換爲L 
sed 's/the/THE/g' test.txt  //將文件中的所有the 替換爲THE
sed 's/o//g' test.txt   //將文件中的所有o 刪除(替換爲空串)
sed 's/^/#/' test.txt   //在每行行首插入#號
sed '/the/s/^/#/' test.txt      //在包含the 的每行行首插入#號
sed 's/$/EOF/' test.txt     //在每行行尾插入字符串EOF 
sed '3,5s/the/THE/g' test.txt   //將第 3~5 行中的所有the 替換爲 THE
sed '/the/s/o/O/g' test.txt //將包含the 的所有行中的o 都替換爲 O

遷移符合條件的文本

其中，H，複製到剪貼板；g、G，將剪貼板中的數據覆蓋/追加至指定行；w，保存爲文件；r，讀取指定文件；a，追加指定內容。

sed '/the/{H;d};$G' test.txt    //將包含the 的行遷移至文件末尾,{;}用於多個操作
sed '1,5{H;d};17G' test.txt //將第 1~5 行內容轉移至第 17 行後
sed '/the/w out.file' test.txt  //將包含the 的行另存爲文件out.file 
sed '/the/r /etc/hostname' test.txt //將文件/etc/hostname 的內容添加到包含the 的每行以後
sed '3aNew' test.txt        //在第 3 行後插入一個新行,內容爲 New 
sed '/the/aNew' test.txt    //在包含the 的每行後插入一個新行,內容爲 New 
sed '3aNew1\nNew2' test.txt //在第 3 行後插入多行內容,中間的\n 表示換行

使用腳本編輯文件

使用 sed 腳本，將多個編輯指令存放到文件中（每行一條編輯指令），通過“-f”選項來調用。例如：

sed '1,5{H;d};17G' test.txt //將第 1~5 行內容轉移至第 10 行後

以上操作可以改用腳本文件方式：

[root@localhost opt]# vim opt.list
[root@localhost opt]# cat opt.list 
1,5H
1,5d
10G
[root@localhost opt]# sed -f opt.list test.txt 
6
7
the this
8
this the

1
2
3
4
5
9
0
then
THE this
[root@localhost opt]#

sed 直接操作文件示例

編寫一個腳本，用來調整 vsftpd 服務配置：禁止匿名用戶，但允許本地用戶（也允許寫入）。

[root@localhost ~]# vim local_only_ftp.sh
#!/bin/bash
# 指定樣本文件路徑、配置文件路徑
SAMPLE="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INTERNET_SITE/vsftpd.conf "
CONFIG="/etc/vsftpd/vsftpd.conf"
# 備份原來的配置文件,檢測文件名爲/etc/vsftpd/vsftpd.conf.bak 備份文件是否存在,若不存在則使用 cp 命令進行文件備份
[ ! -e "$CONFIG.bak" ] && cp $CONFIG $CONFIG.bak
# 基於樣本配置進行調整,覆蓋現有文件
sed -e '/^anonymous_enable/s/YES/NO/g' $SAMPLE > $CONFIG
sed -i -e '/^local_enable/s/NO/YES/g' -e '/^write_enable/s/NO/YES/g' $CONFIG 
grep "listen" $CONFIG || sed -i '$alisten=YES' $CONFIG
# 啓動vsftpd 服務,並設爲開機後自動運行
systemctl restart vsftpd
systemctl enable vsftpd
[root@localhost ~]# chmod +x local_only_ftp.sh

awk 工具

在 Linux/UNIX 系統中，awk 是一個功能強大的編輯工具，逐行讀取輸入文本，並根據指定的匹配模式進行查找，對符合條件的內容進行格式化輸出或者過濾處理，可以在無交互的情況下實現相當複雜的文本操作，被廣泛應用於 Shell 腳本，完成各種自動化配置任務。

（1）awk 常見用法

通常情況下 awk 所使用的命令格式如下所示，其中，單引號加上大括號“{}”用於設置對數據進行的處理動作。awk 可以直接處理目標文件，也可以通過“-f”讀取腳本對目標文件進行處理。

awk 選項 '模式或條件 {編輯指令}' 文件 1 文件 2 „   //過濾並輸出文件符條件的內容
awk -f 腳本文件 文件 1 文件 2 „ //從腳本中調用編輯指令,過濾並輸出內容

前面提到 sed 命令常用於一整行的處理,而 awk 比較傾向於將一行分成多個“字段”然後再進行處理，且默認情況下字段的分隔符爲空格或者 tab 鍵。awk 執行結果可以通過 print 的功能將字段數據打印顯示。在使用 awk 命令的過程中,可以使用邏輯操作符“&&”，表示“與”， “||”表示“或”，“！”表示“非”；還可以進行簡單的數學運算，如+、-、*、/、%、^分別表示加、減、乘、除、取餘和乘方。
在 Linux 系統中/etc/passwd 是一個非常典型的格式化文件，各字段間使用“：”作爲分隔符隔開，Linux 系統中的大部分日誌文件也是格式化文件，從這些文件中提取相關信息是運維的日常工作內容之一。若需要查出/etc/passwd 的用戶名、用戶 ID、組 ID 等列，執行以下 awk 命令即可。

[root@localhost ~]# awk -F ':' '{print $1,$3,$4}' /etc/passwd root 0 0
bin 1 1
daemon 2 2
„„//省略部分內容

awk 從輸入文件或者標準輸入中讀入信息，與 sed 一樣，信息的讀入也是逐行讀取的。不同的是 awk 將文本文件中的一行視爲一個記錄，而將一行中的某一部分（列）作爲記錄中的一個字段（域）。爲了操作這些不同的字段，awk 借用 shell 中類似於位置變量的方法，用$1、$2、$3順序地表示行（記錄）中的不同字段。另外 awk 用$0 表示整個行（記錄）。不同的字段之間是通過指定的字符分隔。awk 默認的分隔符是空格。awk 允許在命令行中用“-F 分隔符”的形式來指定分隔符。

awk 包含幾個特殊的內建變量（可直接用）如下所示：

FS：指定每行文本的字段分隔符，默認爲空格或製表位；
NF：當前處理的行的字段個數；
NR：當前處理的行的行號（序數）；
$0：當前處理的行的整行內容；
$n：當前處理行的第 n 個字段（第 n 列）；
FILENAME：被處理的文件名；
RS：數據記錄分隔，默認爲\n，即每行爲一條記錄。

用法示例

按行輸出文本

[root@localhost opt]# awk '{print}' test.txt          //輸出所有內容,等同於 cat test.txt
1
2
3
4
5
6
7
the this
8
this the
9
0
then
THE this
[root@localhost opt]# awk '{print $0}' test.txt   //輸出所有內容,等同於 cat test.txt
1
2
3
4
5
6
7
the this
8
this the
9
0
then
THE this
[root@localhost opt]# 
[root@localhost opt]# awk 'NR==1,NR==3{print}' test.txt     //輸出第 1~3 行內容
1
2
3
[root@localhost opt]# awk '(NR>=1)&&(NR<=3){print}' test.txt    //輸出第 1~3 行內容
1
2
3
[root@localhost opt]# 
[root@localhost opt]# awk 'NR==1||NR==3{print}' test.txt    //輸出第 1 行、第 3 行內容
1
3
[root@localhost opt]#
[root@localhost opt]# nl test.txt|awk '(NR%2)==1{print}'    //輸出所有奇數行的內容，nl顯示行號
     1  1
     3  3
     5  5
     7  7
     9  8
    11  9
    13  then
[root@localhost opt]# nl test.txt|awk '(NR%2)==0{print}'    //輸出所有偶數行的內容，nl顯示行號
     2  2
     4  4
     6  6
     8  the this
    10  this the
    12  0
    14  THE this
[root@localhost opt]# 
[root@localhost opt]# awk '/^root/{print}' /etc/passwd  //輸出以root 開頭的行
root:x:0:0:root:/root:/bin/bash
[root@localhost opt]#
[root@localhost opt]# awk '/bash$/{print}' /etc/passwd  //輸出以 bash 結尾的行
root:x:0:0:root:/root:/bin/bash
jiang:x:1000:1000:jiang:/home/jiang:/bin/bash
[root@localhost opt]#
[root@localhost opt]# awk 'BEGIN{x=0};/\/bin\/bash$/{x++};END{print x}' /etc/passwd   //統計以/bin/bash 結尾的行數,等同於 grep -c "/bin/bash$" /etc/passwd 
2
[root@localhost opt]#
[root@localhost opt]# awk 'BEGIN{RS=""};END{print NR}' /etc/httpd/conf/httpd.conf //統計以空行分隔的文本段落數
38
[root@localhost opt]#

按字段輸出文本

awk '{print $3}' /etc/passwd    //輸出每行中(以空格或製表位分隔)的第 3 個字段
awk '{print $1,$3}' /etc/passwd //輸出每行中的第 1、3 個字段
awk -F ":" '$2==""{print}' /etc/shadow //輸出密碼爲空的用戶的shadow 記錄
awk 'BEGIN {FS=":"}; $2==""{print}' /etc/shadow//輸出密碼爲空的用戶的shadow 記錄
awk -F ":" '$7~"/bash"{print $1}' /etc/passwd//輸出以冒號分隔且第 7 個字段中包含/bash 的行的第 1 個字段
awk '($1~"nfs")&&(NF==8){print $1,$2}' /etc/services//輸出包含 8 個字段且第 1 個字段中包含 nfs 的行的第 1、2 個字段
awk -F ":" '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd//輸出第 7 個字段既不爲/bin/bash 也不爲/sbin/nologin 的所有行

通過管道、雙引號調用 Shell 命令

awk -F: '/bash$/{print | "wc -l"}' /etc/passwd   //調用wc -l 命令統計使用bash 的用戶個數,等同於 grep -c "bash$" /etc/passwd 
awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'    //調用w 命令,並用來統計在線用戶數
awk 'BEGIN { "hostname" | getline ; print $0}'    //調用hostname,並輸出當前的主機名

sort 工具

sort 是一個以行爲單位對文件內容進行排序的工具，也可以根據不同的數據類型來排序。例如數據和字符的排序就不一樣。sort 命令的語法爲“sort [選項] 參數”，其中常用的選項包括以下幾種。

-f：忽略大小寫；
-b：忽略每行前面的空格；
-M：按照月份進行排序；
-n：按照數字進行排序；
-r：反向排序；
-u：等同於 uniq，表示相同的數據僅顯示一行；
-t：指定分隔符，默認使用[Tab]鍵分隔；
-o <輸出文件>：將排序後的結果轉存至指定文件；
-k：指定排序區域。

示例 1：將/etc/passwd 文件中的賬號進行排序。

[root@localhost ~]# sort /etc/passwd

abrt:x:173:173::/etc/abrt:/sbin/nologin 
adm:x:3:4:adm:/var/adm:/sbin/nologin 
apache:x:48:48:Apache:/var/www:/sbin/nologin
avahi-autoipd:x:170:170:Avahi IPv4LL Stack:/var/lib/avahi-autoipd:/sbin/nologin 
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
dbus:x:81:81:System message bus:/:/sbin/nologin 
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin 
games:x:12:100:games:/usr/games:/sbin/nologin 
gdm:x:42:42::/var/lib/gdm:/sbin/nologin 
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin 
haldaemon:x:68:68:HAL daemon:/:/sbin/nologin 
halt:x:7:0:halt:/sbin:/sbin/halt lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin 
nobody:x:99:99:Nobody:/:/sbin/nologin 
ntp:x:38:38::/etc/ntp:/sbin/nologin 
operator:x:11:0:operator:/root:/sbin/nologin 
postfix:x:89:89::/var/spool/postfix:/sbin/nologin 
pulse:x:497:496:PulseAudio System Daemon:/var/run/pulse:/sbin/nologin 
root:x:0:0:root:/root:/bin/bash
rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin 
rpc:x:32:32:Rpcbind Daemon:/var/cache/rpcbind:/sbin/nologin 
rtkit:x:499:497:RealtimeKit:/proc:/sbin/nologin 
saslauth:x:498:76:"Saslauthd user":/var/empty/saslauth:/sbin/nologin 
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin 
sync:x:5:0:sync:/sbin:/bin/sync
tcpdump:x:72:72::/:/sbin/nologin 
usbmuxd:x:113:113:usbmuxd user:/:/sbin/nologin 
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
vcsa:x:69:69:virtual console memory owner:/dev:/sbin/nologin

示例 2：將/etc/passwd 文件中第三列進行反向排序。

[root@localhost ~]# sort -t ':' -rk 3 /etc/passwd
nobody:x:99:99:Nobody:/:/sbin/nologin 
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin 
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin 
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin 
tcpdump:x:72:72::/:/sbin/nologin
halt:x:7:0:halt:/sbin:/sbin/halt
vcsa:x:69:69:virtual console memory owner:/dev:/sbin/nologin 
haldaemon:x:68:68:HAL daemon:/:/sbin/nologin 
nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown 
sync:x:5:0:sync:/sbin:/bin/sync 
rtkit:x:499:497:RealtimeKit:/proc:/sbin/nologin 
saslauth:x:498:76:"Saslauthd user":/var/empty/saslauth:/sbin/nologin 
pulse:x:497:496:PulseAudio System Daemon:/var/run/pulse:/sbin/nologin
apache:x:48:48:Apache:/var/www:/sbin/nologin 
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 
gdm:x:42:42::/var/lib/gdm:/sbin/nologin 
ntp:x:38:38::/etc/ntp:/sbin/nologin 
adm:x:3:4:adm:/var/adm:/sbin/nologin
rpc:x:32:32:Rpcbind Daemon:/var/cache/rpcbind:/sbin/nologin 
rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
abrt:x:173:173::/etc/abrt:/sbin/nologin
avahi-autoipd:x:170:170:Avahi IPv4LL Stack:/var/lib/avahi-autoipd:/sbin/nologin 
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin 
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin 
games:x:12:100:games:/usr/games:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin 
usbmuxd:x:113:113:usbmuxd user:/:/sbin/nologin 
operator:x:11:0:operator:/root:/sbin/nologin 
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin 
root:x:0:0:root:/root:/bin/bash

示例3：將/etc/passwd 文件中第三列進行排序，並將輸出內容保存至user.txt 文件中。

[root@localhost ~]# sort -t ':' -k 3 /etc/passwd -o user.txt 
[root@localhost ~]# cat user.txt 
root:x:0:0:root:/root:/bin/bash 
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin 
operator:x:11:0:operator:/root:/sbin/nologin
usbmuxd:x:113:113:usbmuxd user:/:/sbin/nologin 
bin:x:1:1:bin:/bin:/sbin/nologin 
games:x:12:100:games:/usr/games:/sbin/nologin 
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin 
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
avahi-autoipd:x:170:170:Avahi IPv4LL Stack:/var/lib/avahi-autoipd:/sbin/nologin
abrt:x:173:173::/etc/abrt:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin  
rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin
rpc:x:32:32:Rpcbind Daemon:/var/cache/rpcbind:/sbin/nologin a
dm:x:3:4:adm:/var/adm:/sbin/nologin 
ntp:x:38:38::/etc/ntp:/sbin/nologin 
gdm:x:42:42::/var/lib/gdm:/sbin/nologin 
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 
apache:x:48:48:Apache:/var/www:/sbin/nologin 
pulse:x:497:496:PulseAudio System Daemon:/var/run/pulse:/sbin/nologin 
saslauth:x:498:76:"Saslauthd user":/var/empty/saslauth:/sbin/nologin
rtkit:x:499:497:RealtimeKit:/proc:/sbin/nologin 
sync:x:5:0:sync:/sbin:/bin/sync 
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown 
nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin 
haldaemon:x:68:68:HAL daemon:/:/sbin/nologin
vcsa:x:69:69:virtual console memory owner:/dev:/sbin/nologin 
halt:x:7:0:halt:/sbin:/sbin/halt tcpdump:x:72:72::/:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin 
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin 
postfix:x:89:89::/var/spool/postfix:/sbin/nologin 
nobody:x:99:99:Nobody:/:/sbin/nologin

uniq 工具

Uniq 工具在 Linux 系統中通常與 sort 命令結合使用，用於報告或者忽略文件中的重複行。具體的命令語法格式爲：uniq [選項] 參數。其中常用選項包括以下幾種。

-c：進行計數；
-d：僅顯示重複行；
-u：僅顯示出現一次的行；

示例 1：刪除 testfile 文件中的重複行。

[root@localhost ~]# cat testfile 
Linux 10
Linux 20
Linux 30
Linux 30
Linux 30
CentOS 6.5
CentOS 6.5
CentOS 6.5
CentOS 7.3
CentOS 7.3
CentOS 7.3
[root@localhost ~]# uniq testfile 
Linux 10
Linux 20
Linux 30
CentOS 6.5
CentOS 7.3

示例 2：刪除 testfile 文件中的重複行，並在行首顯示該行重複出現的次數。

[root@localhost ~]# uniq -c testfile 
1 Linux 10
1 Linux 20
3 Linux 30
3 CentOS 6.5
3 CentOS 7.3

示例 3：查找 testfile 文件中的重複行。

[root@localhost ~]# uniq -d testfile 
Linux 30
CentOS 6.5
CentOS 7.3

正則表達式之grep、egrep、sed、awk、sort、uniq工具使用方法