正則表達式(或稱爲常規表示法)是透過一些特殊字符的排列,用以 搜尋/取代/刪除 一列或多列文字字符串, 簡單的說,正則表達式就是用在字符串的處理上面的一項『表示式』。正則表達式並不是一個工具程序, 而是一個字符串處理的標準依據,如果您想要以正則表達式的方式處理字符串,就得要使用支持正則表達式的工具程序才行, 這類的工具程序很多,例如 vi, sed, awk 等等。
簡單的說,正則表達式就是處理字符串的方法,他是以行爲單位, 來進行字符串的處理行爲,他透過一些特殊符號的輔助,可以讓使用者輕易的達到 搜尋/取代 某特定字符串的處理程序!
正則表達式(或稱爲常規表示法)是透過一些特殊字符的排列,用以 搜尋/取代/刪除 一列或多列文字字符串, 簡單的說,正則表達式就是用在字符串的處理上面的一項『表示式』。正則表達式並不是一個工具程序, 而是一個字符串處理的標準依據,如果您想要以正則表達式的方式處理字符串,就得要使用支持正則表達式的工具程序才行, 這類的工具程序很多,例如 vi, sed, awk 等等。
談到這裏就得要進一步說明了,正則表達式基本上是一種『表示法』, 只要工具程序支持這種表示法,那麼該工具程序就可以用來作爲正則表達式的字符串處理之用。 也就是說,例如 vi, grep, awk ,sed 等等工具,因爲她們有支持正則表達式, 所以,這些工具就可以使用正則表達式的特殊字符來進行字符串的處理。
--------摘自《鳥哥的私房菜》
基礎正則表達式
既然正則表達式是處理字符串的一個標準表示方式,他需要支持的工具程序來輔助,所以,我們這裏就先介紹一個最簡單的字符串擷取功能的工具程序,那就是 grep 囉! 在介紹完 grep 的基本功能之後,就進入正則表達式的特殊字符的處理能力了。
既然要使用 grep 當然就得要先了解一下 grep 的語法囉~
[root@test root]# grep [-acinv] '搜尋字符串' filename 參數說明: -a :將 binary 檔案以 text 檔案的方式搜尋數據 -c :計算找到 '搜尋字符串' 的次數 -i :忽略大小寫的不同,所以大小寫視爲相同 -n :順便輸出行號 -v :反向選擇,亦即顯示出沒有 '搜尋字符串' 內容的那一行! 範例: [root@test root]# grep 'root' /var/log/secure 將 /var/log/secure 這個檔案中有 root 的那一行秀出來
[root@test root]# grep -v 'root' /var/log/secure 若該行沒有 root 纔將數據秀出來到屏幕上!
[root@test root]# last | grep root 若該行有 root 纔將數據秀出來到屏幕上! |
grep 是一個很常見也很常用的指令,他最重要的功能就是進行字符串數據的比對,然後將符合使用者需求的字符串打印出來。 需要說明的是『grep 在資料中查尋一個字符串時,是以 "整行" 爲單位來進行數據的擷取的!』也就是說,假如一個檔案內有 10 行,其中有兩行具有你所搜尋的字符串,則將那兩行顯示在屏幕上,其它的就丟棄了!
而 grep 除了可以進行檔案的資料搜尋之外,也常常被應用在input/output 的數據處理當中,例如常見的
管線命令 ( pipe ) 就可以常常見到他的蹤影!以上面表格中的例子來看,我們可以發現前兩個例子是查尋檔案的內容,有沒有加上 -v 所顯示出來的結果是『相反的!』,而第三個例子則是以 pipe 的功能進行數據的處理的喔!
好了,我們就開始以 grep 來進行正則表達式的簡易說明吧!我們先以底下這個檔案來作爲範例:
[root@test root]# vi regular_express.txt |
需要特別注意的是,上面這個檔案鳥哥是在 Windows 的環境下編輯的, 並且經過特殊處理過,因此,他雖然是純文字文件,但是內含一些 Windows 環境下的軟件常常自行加入的一些特殊字符,例如斷行字符(^M)就是一例!所以,您可以直接將上面的文字以 vi 儲存成regular_express.txt 這個檔案, 不過,比較建議直接點底下的連結下載:
/linux_base/0330regularex/regular_express.txt
此外,因爲不同的語系編碼是不一樣的,所以,您必須要將語系改成英文語系, 才能夠進行底下的測試,否則,可能會有顯示的內容與底下的輸出不符的狀況喔! 修改語系的方法爲:
[root@test root]# LANG=en [root@test root]# export LANG |
好了,現在開始我們一個案例一個案例的來介紹吧!
- 例題一、搜尋特定字符串:
搜尋特定字符串很簡單吧?假設我們要從剛剛的檔案當中取得 the 這個特定字符串, 最簡單的方式就是這樣:
[root@test root]# grep -n 'the' regular_express.txt 8:I can't finish the test. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world is the same with "glad". 18:google is the best tools for search keyword. |
那如果想要『反向選擇』呢?也就是說,當該行沒有 'the' 這個字符串時,才顯示在屏幕上,那就直接使用:
[root@test root]# grep -vn 'the' regular_express.txt |
您會發現,屏幕上出現的行列爲除了 8,12,15,16,18 五行之外的其它行列! 接下來,如果您想要取得不論大小寫的 the 這個字符串,則:
[root@test root]# grep -in 'the' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. 12:the symbol '*' is represented as start. 14:The gd software is a library for drafting programs. 15:You are the best is mean you are the no. 1. 16:The world is the same with "glad". 18:google is the best tools for search keyword. |
- 例題二、利用 [] 來搜尋集合字符
如果我想要搜尋 test 或 taste 這兩個單字時,可以發現到,其實她們有共通的 't?st' 存在~這個時候,我可以這樣來搜尋:
[root@test root]# grep -n 't[ae]st' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. |
瞭解了吧?其實 [] 裏面不論有幾個字符,他都謹代表某『一個』字符, 所以,上面的例子說明了,我需要的字符串是『tast』或『test』兩個字符串而已! 而如果想要搜尋到有 oo 的字符時,則使用:
[root@test root]# grep -n 'oo' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! |
但是,如果我不想要 oo 前面有 g 的話呢?此時,可以利用在集合字符的反向選擇 [^] 來達成
[root@test root]# grep -n '[^g]oo' regular_express.txt 2:apple is my favorite food. 3:Football game is not use feet only. 18:google is the best tools for search keyword. 19:goooooogle yes! |
意思就是說,我需要的是 oo ,但是 oo 前面不能是 g 就是了! 仔細比較上面兩個表格,妳會發現,第 1,9 行不見了,因爲 oo 前面出現了 g 所致! 第2,3 行沒有疑問,因爲 foo 與 Foo 均可被接受!但是第 18 行明明有 google 的goo 啊~ 別忘記了,因爲該行後面出現了 tool 的too 啊!所以該行也被列出來~ 也就是說, 18 行裏面雖然出現了我們所不要的項目 (goo) 但是由於有需要的項目 (too) , 因此,是符合字符串搜尋的喔!
至於第 19 行,同樣的,因爲 goooooogle 裏面的 oo 前面可能是 o ,例如:go(ooo)oogle ,所以,這一行也是符合需求的!
再來,假設我 oo 前面不想要有小寫字符,所以,我可以這樣寫[^abcd....z]oo , 但是這樣似乎不怎麼方便,由於小寫字符的 ASCII 上編碼的順序是連續的,因此,我們可以將之簡化爲底下這樣:
[root@test root]# grep -n '[^a-z]oo' regular_express.txt 3:Football game is not use feet only. |
也就是說,當我們在一組集合字符中,如果該字符組是連續的,例如大寫英文/小寫英文/數字等等, 就可以使用[a-z],[A-Z],[0-9]等方式來書寫,那麼如果我們的要求字符串是數字與英文呢?呵呵!就將他全部寫在一起,變成:[a-zA-Z0-9]
例如,我們要取得有數字的那一行,就這樣:
[root@test root]# grep -n '[0-9]' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1. |
這樣對於 [] 以及 [^] 以及 [] 當中的 - 有了解了嗎?!^_^y
- 例題三、行首與行尾字符 ^ $:
我們在例題一當中,可以查詢到一行字符串裏面有 the 的,那如果我想要讓 the 只在行首列出呢? 這個時候就得要使用定位字符了!我們可以這樣做:
[root@test root]# grep -n '^the' regular_express.txt 12:the symbol '*' is represented as start. |
此時,就只剩下第 12 行,因爲只有第 12 行的行首是 the 開頭啊~此外, 如果我想要開頭是小寫字符的那一行就列出呢?可以這樣:
[root@test root]# grep -n '^[a-z]' regular_express.txt 2:apple is my favorite food. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 12:the symbol '*' is represented as start. 18:google is the best tools for search keyword. 19:goooooogle yes! |
如果我不想要開頭是英文字母,則可以是這樣:
[root@test root]# grep -n '^[^a-zA-Z]' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 20:# I am VBird |
注意到了吧?那個 ^ 符號,在字符集合符號(括號[])之內與之外是不同的! 在 [] 內代表『反向選擇』,在 [] 之外則代表定位在行首的意義!要分清楚喔!
那如果我想要找出來,行尾結束爲小數點 (.) 的那一行,該如何處理:
[root@test root]# grep -n '\.$' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 11:This window is clear. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. |
特別注意到,因爲小數點具有其它意義(底下會介紹),所以必須要使用跳脫字符(\)來加以解除其特殊意義! 不過,您或許會覺得奇怪,但是第 5~9 行最後面也是 . 啊~怎麼無法打印出來?? 這裏就牽涉到 Windows 平臺的軟件對於斷行字符的判斷問題了!我們使用 cat -A 將第五行拿出來看, 您會發現:
[root@test root]# cat -A regular_express.txt However, this dress is about $ 3183 dollars.^M$ |
注意到了沒?最後面的斷行字符應該是 $ 纔對,但是,因爲Windows 的 nodepad 會主動加上 ^M 作爲斷行的判斷,因此,那個 . 自然就不是緊接在 $ 之前喔!這樣可以瞭解 ^ 與 $ 的意義嗎? 好了,先不要看底下的解答,自己想一想,那麼如果我想要找出來,哪一行是『空白行』,也就是說,該行並沒有輸入任何數據,該如何搜尋??
[root@test root]# grep -n '^$' regular_express.txt 21: |
因爲只有行首跟行尾( ^$ ),所以,這樣就可以找出空白行啦!再來, 假設您已經知道在一個批次腳本 (shell script) 或者是設定檔當中, 空白行與開頭爲 # 的那一行是批註,因此如果您要將數據列出給別人參考時,可以將這些數據省略掉,以節省保貴的紙張,那麼,您可以怎麼作呢? 我們以 /etc/syslog.conf 這個檔案來作範例,您可以自行參考一下輸出的結果:
[root@test root]# cat /etc/syslog.conf [root@test root]# grep -v '^$' /etc/syslog.conf | grep -v '^#' |
是否節省很多版面啊??
- 例題四、任意一個字符 . 與重複字符 *
在 bash 的章節當中,我們知道萬用字符 * 可以用來代表任意(0或多個)字符, 但是正則表達式並不是萬用字符,兩者之間是不相同的! 至於正則表達式當中的『 . 』則代表『絕對有一個任意字符』的意思!這樣講不好懂, 我們直接做個練習吧!假設我需要找出 g??d 的字符串,亦即共有四個字符, 起頭是 g 而結束是 d ,我可以這樣做:
[root@test root]# grep -n 'g..d' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 9:Oh! The soup taste good. 16:The world is the same with "glad". |
因爲強調 g 與 d 之間一定要存在兩個字符,因此,第 13 行的 god 與第 14 行的 gd 就不會被列出來啦!再來,如果我想要列出有 oo, ooo, oooo 等等的資料,也就是說,至少要有兩個 o 以上,該如何是好??是 o* 還是 oo* 還是 ooo* 呢? 雖然您可以試看看結果, 不過結果太佔版面了 @_@ ,所以,我這裏就直接說明。
因爲 * 代表的是『重複 0 個或多個前面的 RE 字符』的意義, 因此,『o*』代表的是:『擁有空字符或一個 o 以上的字符』, 特別注意,因爲允許空字符(就是有沒有字符都可以的意思),因此, grep -n 'o*' regular_express.txt 將會把所有的數據都打印出來屏幕上!
那如果是『oo*』呢?則第一個 o 肯定必須要存在,第二個 o 則是可有可無的多個 o , 所以,凡是含有 o, oo, ooo, oooo 等等,都可以被列出來~
同理,當我們需要『至少兩個 o 以上的字符串』時,就需要ooo* ,亦即是:
[root@test root]# grep -n 'ooo*' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! |
這樣理解 * 的意義了嗎?!好了,現在出個練習,如果我想要字符串開頭與結尾都是 g, 但是兩個 g 之間僅能存在至少一個 o ,亦即是 gog, goog, gooog.... 等等, 那該如何?
[root@test root]# grep -n 'goo*g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes! |
如此瞭解了嗎?好,再來一題,如果我想要找出 g 開頭與 g 結尾的字符串,當中的字符可有可無,那該如何是好?是『g*g』嗎?
[root@test root]# grep -n 'g*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 3:Football game is not use feet only. 9:Oh! The soup taste good. 13:Oh! My god! 14:The gd software is a library for drafting programs. 16:The world is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. 19:goooooogle yes! |
但測試的結果竟然出現這麼多行??太詭異了吧? 其實一點也不詭異,因爲 g*g 裏面的 g* 代表『空字符或一個以上的 g』 在加上後面的 g ,因此,整個 RE 的內容就是g, gg, ggg, gggg , 因此,只要該行當中擁有一個以上的 g 就符合所需了!
那該如何得到我們的 g....g 的需求呢?呵呵!就利用任意一個字符『.』啊! 亦即是:『g.*g』的作法,因爲 * 可以是 0 或多個重複前面的字符,而 . 是任意字符,所以: 『.* 就代表零個或多個任意字符』的意思啦!
[root@test root]# grep -n 'g.*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 14:The gd software is a library for drafting programs. 18:google is the best tools for search keyword. 19:goooooogle yes! |
因爲是代表 g 開頭與 g 結尾,中間任意字符均可接受,所以,第 1 與第 14 行是可接受的喔! 這個.* 的 RE 表示任意字符是很常見的,希望大家能夠理解並且熟悉!
再出一題,如果我想要找出『任意數字』的行列呢?因爲僅有數字,所以就成爲:
[root@test root]# grep -n '[0-9][0-9]*' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1. |
雖然使用 grep -n '[0-9]' regular_express.txt 也可以得到相同的結果,但鳥哥希望大家能夠理解上面指令當中 RE 表示法的意義纔好!
- 例題五、限定連續 RE 字符範圍 {}
在上個例題當中,我們可以利用 . 與 RE 字符及 * 來設定 0 個到無線多個重複字符, 那如果我想要限制一個範圍區間內的重複字符數呢?舉例來說,我想要找出兩個到五個 o 的連續字符串,該如何作?這時候就得要使用到限定範圍的字符 {} 了。 但因爲 { 與 } 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行。
至於 {} 的語法是這樣的,假設我要找到兩個 o 的字符串,可以是:
[root@test root]# grep -n 'o\{2\}' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes! |
這樣看似乎與 ooo* 的字符沒有什麼差異啊?因爲第 19 行有多個 o 依舊也出現了! 好,那麼換個搜尋的字符串,假設我們要找出 g 後面接 2 到 5 個 o ,然後再接一個 g 的字符串, 他會是這樣:
[root@test root]# grep -n 'go\{2,5\}g' regular_express.txt 18:google is the best tools for search keyword. |
嗯!很好!第 19 行終於沒有被取用了(因爲 19 行有 6 個 o 啊!)。 那麼,如果我想要的是 2 個 o 以上的 goooo....g 呢?除了可以是 gooo*g ,也可以是:
[root@test root]# grep -n 'go\{2,\}g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes! |
呵呵!就可以找出來啦~
經過了上面的幾個簡單的範例,我們可以將基礎的正則表達式特殊字符彙整如下:
RE 字符 |
意義與範例 |
^word |
待搜尋的字符串(word)在行首! |
範例:grep -n '^#' regular_express.txt |
|
word$ |
待搜尋的字符串(word)在行尾! |
範例:grep -n '!$' regular_express.txt |
|
. |
代表『任意一個』字符,一定是一個任意字符! |
範例:grep -n 'e.e' regular_express.txt |
|
\ |
跳脫字符,將特殊符號的特殊意義去除! |
範例:grep -n \' regular_express.txt |
|
* |
重複零個或多個的前一個 RE 字符 |
範例:grep -n 'ess*' regular_express.txt |
|
\{n,m\} |
連續 n 到 m 個的『前一個 RE 字符』 |
範例:grep -n 'go\{2,3\}g' regular_express.txt |
|
[] |
字符集合的 RE 特殊字符的符號 |
[list] |
請特別留意的是,『正則表達式的特殊字符』 與一般在指令列輸入指令的『萬用字符』並不相同, 例如,在萬用字符當中,* 代表的是 0 ~ 無限多個字符的意思,但是在正則表達式當中, * 則是重複 0 到多個的前一個 RE字符的意思~使用的意義並不相同,不要搞混了! (鳥哥我一開始摸正則表達式時就很容易搞混!因爲這裏是新手最容易搞錯的地方,特別小心啊!)