正則表達式的學習

正則表達式(或稱爲常規表示法)是透過一些特殊字符的排列，用以搜尋/取代/刪除一列或多列文字字符串，簡單的說，正則表達式就是用在字符串的處理上面的一項『表示式』。正則表達式並不是一個工具程序，而是一個字符串處理的標準依據，如果您想要以正則表達式的方式處理字符串，就得要使用支持正則表達式的工具程序才行，這類的工具程序很多，例如 vi, sed, awk 等等。

簡單的說，正則表達式就是處理字符串的方法，他是以行爲單位，來進行字符串的處理行爲，他透過一些特殊符號的輔助，可以讓使用者輕易的達到搜尋/取代某特定字符串的處理程序！

談到這裏就得要進一步說明了，正則表達式基本上是一種『表示法』，只要工具程序支持這種表示法，那麼該工具程序就可以用來作爲正則表達式的字符串處理之用。也就是說，例如 vi, grep, awk ,sed 等等工具，因爲她們有支持正則表達式，所以，這些工具就可以使用正則表達式的特殊字符來進行字符串的處理。

--------摘自《鳥哥的私房菜》

基礎正則表達式

既然正則表達式是處理字符串的一個標準表示方式，他需要支持的工具程序來輔助，所以，我們這裏就先介紹一個最簡單的字符串擷取功能的工具程序，那就是 grep 囉！在介紹完 grep 的基本功能之後，就進入正則表達式的特殊字符的處理能力了。

以 grep 擷取字符串

既然要使用 grep 當然就得要先了解一下 grep 的語法囉～

[root@test root]# grep [-acinv] '搜尋字符串' filename

參數說明：

-a ：將 binary 檔案以 text 檔案的方式搜尋數據

-c ：計算找到 '搜尋字符串' 的次數

-i ：忽略大小寫的不同，所以大小寫視爲相同

-n ：順便輸出行號

-v ：反向選擇，亦即顯示出沒有 '搜尋字符串' 內容的那一行！

範例：

[root@test root]# grep 'root' /var/log/secure

將 /var/log/secure 這個檔案中有 root 的那一行秀出來

[root@test root]# grep -v 'root' /var/log/secure

若該行沒有 root 纔將數據秀出來到屏幕上！

[root@test root]# last | grep root

若該行有 root 纔將數據秀出來到屏幕上！

grep 是一個很常見也很常用的指令，他最重要的功能就是進行字符串數據的比對，然後將符合使用者需求的字符串打印出來。需要說明的是『grep 在資料中查尋一個字符串時，是以 "整行" 爲單位來進行數據的擷取的！』也就是說，假如一個檔案內有 10 行，其中有兩行具有你所搜尋的字符串，則將那兩行顯示在屏幕上，其它的就丟棄了！

而 grep 除了可以進行檔案的資料搜尋之外，也常常被應用在input/output 的數據處理當中，例如常見的管線命令 ( pipe ) 就可以常常見到他的蹤影！以上面表格中的例子來看，我們可以發現前兩個例子是查尋檔案的內容，有沒有加上 -v 所顯示出來的結果是『相反的！』，而第三個例子則是以 pipe 的功能進行數據的處理的喔！

好了，我們就開始以 grep 來進行正則表達式的簡易說明吧！我們先以底下這個檔案來作爲範例：

[root@test root]# vi regular_express.txt
"Open Source" is a good mechanism to develop programs.
apple is my favorite food.
Football game is not use feet only.
this dress doesn't fit me.
However, this dress is about $ 3183 dollars.
GNU is free air not free beer.
Her hair is very beauty.
I can’t finish the test.
Oh! The soup taste good.
motorcycle is cheap than car.
This window is clear.
the symbol '*' is represented as start.
Oh! My god!
The gd software is a library for drafting programs.
You are the best is mean you are the no. 1.
The world is the same with "glad".
I like dog.
google is the best tools for search keyword.
goooooogle yes!
go! go! Let's go.
# I am VBird

需要特別注意的是，上面這個檔案鳥哥是在 Windows 的環境下編輯的，並且經過特殊處理過，因此，他雖然是純文字文件，但是內含一些 Windows 環境下的軟件常常自行加入的一些特殊字符，例如斷行字符(^M)就是一例！所以，您可以直接將上面的文字以 vi 儲存成regular_express.txt 這個檔案，不過，比較建議直接點底下的連結下載：

/linux_base/0330regularex/regular_express.txt

此外，因爲不同的語系編碼是不一樣的，所以，您必須要將語系改成英文語系，才能夠進行底下的測試，否則，可能會有顯示的內容與底下的輸出不符的狀況喔！修改語系的方法爲：

[root@test root]# LANG=en

[root@test root]# export LANG

好了，現在開始我們一個案例一個案例的來介紹吧！

例題一、搜尋特定字符串：
搜尋特定字符串很簡單吧？假設我們要從剛剛的檔案當中取得 the 這個特定字符串，最簡單的方式就是這樣：

[root@test root]# grep -n 'the' regular_express.txt

8:I can't finish the test.

12:the symbol '*' is represented as start.

15:You are the best is mean you are the no. 1.

16:The world is the same with "glad".

18:google is the best tools for search keyword.

那如果想要『反向選擇』呢？也就是說，當該行沒有 'the' 這個字符串時，才顯示在屏幕上，那就直接使用：

[root@test root]# grep -vn 'the' regular_express.txt

您會發現，屏幕上出現的行列爲除了 8,12,15,16,18 五行之外的其它行列！接下來，如果您想要取得不論大小寫的 the 這個字符串，則：

[root@test root]# grep -in 'the' regular_express.txt

8:I can't finish the test.

9:Oh! The soup taste good.

12:the symbol '*' is represented as start.

14:The gd software is a library for drafting programs.

15:You are the best is mean you are the no. 1.

16:The world is the same with "glad".

18:google is the best tools for search keyword.

例題二、利用 [] 來搜尋集合字符
如果我想要搜尋 test 或 taste 這兩個單字時，可以發現到，其實她們有共通的 't?st' 存在～這個時候，我可以這樣來搜尋：

[root@test root]# grep -n 't[ae]st' regular_express.txt

8:I can't finish the test.

9:Oh! The soup taste good.

瞭解了吧？其實 [] 裏面不論有幾個字符，他都謹代表某『一個』字符，所以，上面的例子說明了，我需要的字符串是『tast』或『test』兩個字符串而已！而如果想要搜尋到有 oo 的字符時，則使用：

[root@test root]# grep -n 'oo' regular_express.txt

1:"Open Source" is a good mechanism to develop programs.

2:apple is my favorite food.

3:Football game is not use feet only.

9:Oh! The soup taste good.

18:google is the best tools for search keyword.

19:goooooogle yes!

但是，如果我不想要 oo 前面有 g 的話呢？此時，可以利用在集合字符的反向選擇 [^] 來達成

[root@test root]# grep -n '[^g]oo' regular_express.txt

2:apple is my favorite food.

3:Football game is not use feet only.

18:google is the best tools for search keyword.

19:goooooogle yes!

意思就是說，我需要的是 oo ，但是 oo 前面不能是 g 就是了！仔細比較上面兩個表格，妳會發現，第 1,9 行不見了，因爲 oo 前面出現了 g 所致！第2,3 行沒有疑問，因爲 foo 與 Foo 均可被接受！但是第 18 行明明有 google 的goo 啊～別忘記了，因爲該行後面出現了 tool 的too 啊！所以該行也被列出來～也就是說， 18 行裏面雖然出現了我們所不要的項目 (goo) 但是由於有需要的項目 (too) ，因此，是符合字符串搜尋的喔！

至於第 19 行，同樣的，因爲 goooooogle 裏面的 oo 前面可能是 o ，例如：go(ooo)oogle ，所以，這一行也是符合需求的！

再來，假設我 oo 前面不想要有小寫字符，所以，我可以這樣寫[^abcd....z]oo ，但是這樣似乎不怎麼方便，由於小寫字符的 ASCII 上編碼的順序是連續的，因此，我們可以將之簡化爲底下這樣：

[root@test root]# grep -n '[^a-z]oo' regular_express.txt

3:Football game is not use feet only.

也就是說，當我們在一組集合字符中，如果該字符組是連續的，例如大寫英文/小寫英文/數字等等，就可以使用[a-z],[A-Z],[0-9]等方式來書寫，那麼如果我們的要求字符串是數字與英文呢？呵呵！就將他全部寫在一起，變成：[a-zA-Z0-9]

例如，我們要取得有數字的那一行，就這樣：

[root@test root]# grep -n '[0-9]' regular_express.txt

5:However, this dress is about $ 3183 dollars.

15:You are the best is mean you are the no. 1.

這樣對於 [] 以及 [^] 以及 [] 當中的 - 有了解了嗎？！^_^y

例題三、行首與行尾字符 ^ $：
我們在例題一當中，可以查詢到一行字符串裏面有 the 的，那如果我想要讓 the 只在行首列出呢？這個時候就得要使用定位字符了！我們可以這樣做：

[root@test root]# grep -n '^the' regular_express.txt

12:the symbol '*' is represented as start.

此時，就只剩下第 12 行，因爲只有第 12 行的行首是 the 開頭啊～此外，如果我想要開頭是小寫字符的那一行就列出呢？可以這樣：

[root@test root]# grep -n '^[a-z]' regular_express.txt

2:apple is my favorite food.

4:this dress doesn't fit me.

10:motorcycle is cheap than car.

12:the symbol '*' is represented as start.

18:google is the best tools for search keyword.

19:goooooogle yes!

如果我不想要開頭是英文字母，則可以是這樣：

[root@test root]# grep -n '^[^a-zA-Z]' regular_express.txt

1:"Open Source" is a good mechanism to develop programs.

20:# I am VBird

注意到了吧？那個 ^ 符號，在字符集合符號(括號[])之內與之外是不同的！在 [] 內代表『反向選擇』，在 [] 之外則代表定位在行首的意義！要分清楚喔！

那如果我想要找出來，行尾結束爲小數點 (.) 的那一行，該如何處理：

[root@test root]# grep -n '\.$' regular_express.txt

1:"Open Source" is a good mechanism to develop programs.

2:apple is my favorite food.

3:Football game is not use feet only.

4:this dress doesn't fit me.

10:motorcycle is cheap than car.

11:This window is clear.

12:the symbol '*' is represented as start.

15:You are the best is mean you are the no. 1.

16:The world is the same with "glad".

17:I like dog.

18:google is the best tools for search keyword.

特別注意到，因爲小數點具有其它意義(底下會介紹)，所以必須要使用跳脫字符(\)來加以解除其特殊意義！不過，您或許會覺得奇怪，但是第 5~9 行最後面也是 . 啊～怎麼無法打印出來？？這裏就牽涉到 Windows 平臺的軟件對於斷行字符的判斷問題了！我們使用 cat -A 將第五行拿出來看，您會發現：

[root@test root]# cat -A regular_express.txt

However, this dress is about $ 3183 dollars.^M$

注意到了沒？最後面的斷行字符應該是 $ 纔對，但是，因爲Windows 的 nodepad 會主動加上 ^M 作爲斷行的判斷，因此，那個 . 自然就不是緊接在 $ 之前喔！這樣可以瞭解 ^ 與 $ 的意義嗎？好了，先不要看底下的解答，自己想一想，那麼如果我想要找出來，哪一行是『空白行』，也就是說，該行並沒有輸入任何數據，該如何搜尋？？

[root@test root]# grep -n '^$' regular_express.txt

21:

因爲只有行首跟行尾( ^$ )，所以，這樣就可以找出空白行啦！再來，假設您已經知道在一個批次腳本 (shell script) 或者是設定檔當中，空白行與開頭爲 # 的那一行是批註，因此如果您要將數據列出給別人參考時，可以將這些數據省略掉，以節省保貴的紙張，那麼，您可以怎麼作呢？我們以 /etc/syslog.conf 這個檔案來作範例，您可以自行參考一下輸出的結果：

[root@test root]# cat /etc/syslog.conf

[root@test root]# grep -v '^$' /etc/syslog.conf | grep -v '^#'

是否節省很多版面啊？？

例題四、任意一個字符 . 與重複字符 *
在 bash 的章節當中，我們知道萬用字符 * 可以用來代表任意(0或多個)字符，但是正則表達式並不是萬用字符，兩者之間是不相同的！至於正則表達式當中的『 . 』則代表『絕對有一個任意字符』的意思！這樣講不好懂，我們直接做個練習吧！假設我需要找出 g??d 的字符串，亦即共有四個字符，起頭是 g 而結束是 d ，我可以這樣做：

[root@test root]# grep -n 'g..d' regular_express.txt

1:"Open Source" is a good mechanism to develop programs.

9:Oh! The soup taste good.

16:The world is the same with "glad".

因爲強調 g 與 d 之間一定要存在兩個字符，因此，第 13 行的 god 與第 14 行的 gd 就不會被列出來啦！再來，如果我想要列出有 oo, ooo, oooo 等等的資料，也就是說，至少要有兩個 o 以上，該如何是好？？是 o* 還是 oo* 還是 ooo* 呢？雖然您可以試看看結果，不過結果太佔版面了 @_@ ，所以，我這裏就直接說明。

因爲 * 代表的是『重複 0 個或多個前面的 RE 字符』的意義，因此，『o*』代表的是：『擁有空字符或一個 o 以上的字符』，特別注意，因爲允許空字符(就是有沒有字符都可以的意思)，因此， grep -n 'o*' regular_express.txt 將會把所有的數據都打印出來屏幕上！

那如果是『oo*』呢？則第一個 o 肯定必須要存在，第二個 o 則是可有可無的多個 o ，所以，凡是含有 o, oo, ooo, oooo 等等，都可以被列出來～

同理，當我們需要『至少兩個 o 以上的字符串』時，就需要ooo* ，亦即是：

[root@test root]# grep -n 'ooo*' regular_express.txt

1:"Open Source" is a good mechanism to develop programs.

2:apple is my favorite food.

3:Football game is not use feet only.

9:Oh! The soup taste good.

18:google is the best tools for search keyword.

19:goooooogle yes!

這樣理解 * 的意義了嗎？！好了，現在出個練習，如果我想要字符串開頭與結尾都是 g，但是兩個 g 之間僅能存在至少一個 o ，亦即是 gog, goog, gooog.... 等等，那該如何？

[root@test root]# grep -n 'goo*g' regular_express.txt

18:google is the best tools for search keyword.

19:goooooogle yes!

如此瞭解了嗎？好，再來一題，如果我想要找出 g 開頭與 g 結尾的字符串，當中的字符可有可無，那該如何是好？是『g*g』嗎？

[root@test root]# grep -n 'g*g' regular_express.txt

1:"Open Source" is a good mechanism to develop programs.

3:Football game is not use feet only.

9:Oh! The soup taste good.

13:Oh! My god!

14:The gd software is a library for drafting programs.

16:The world is the same with "glad".

17:I like dog.

18:google is the best tools for search keyword.

19:goooooogle yes!

但測試的結果竟然出現這麼多行？？太詭異了吧？其實一點也不詭異，因爲 g*g 裏面的 g* 代表『空字符或一個以上的 g』在加上後面的 g ，因此，整個 RE 的內容就是g, gg, ggg, gggg ，因此，只要該行當中擁有一個以上的 g 就符合所需了！

那該如何得到我們的 g....g 的需求呢？呵呵！就利用任意一個字符『.』啊！亦即是：『g.*g』的作法，因爲 * 可以是 0 或多個重複前面的字符，而 . 是任意字符，所以：『.* 就代表零個或多個任意字符』的意思啦！

[root@test root]# grep -n 'g.*g' regular_express.txt

1:"Open Source" is a good mechanism to develop programs.

14:The gd software is a library for drafting programs.

18:google is the best tools for search keyword.

19:goooooogle yes!

因爲是代表 g 開頭與 g 結尾，中間任意字符均可接受，所以，第 1 與第 14 行是可接受的喔！這個.* 的 RE 表示任意字符是很常見的，希望大家能夠理解並且熟悉！

再出一題，如果我想要找出『任意數字』的行列呢？因爲僅有數字，所以就成爲：

[root@test root]# grep -n '[0-9][0-9]*' regular_express.txt

5:However, this dress is about $ 3183 dollars.

15:You are the best is mean you are the no. 1.

雖然使用 grep -n '[0-9]' regular_express.txt 也可以得到相同的結果，但鳥哥希望大家能夠理解上面指令當中 RE 表示法的意義纔好！

例題五、限定連續 RE 字符範圍 {}
在上個例題當中，我們可以利用 . 與 RE 字符及 * 來設定 0 個到無線多個重複字符，那如果我想要限制一個範圍區間內的重複字符數呢？舉例來說，我想要找出兩個到五個 o 的連續字符串，該如何作？這時候就得要使用到限定範圍的字符 {} 了。但因爲 { 與 } 的符號在 shell 是有特殊意義的，因此，我們必須要使用跳脫字符 \ 來讓他失去特殊意義才行。

至於 {} 的語法是這樣的，假設我要找到兩個 o 的字符串，可以是：

[root@test root]# grep -n 'o\{2\}' regular_express.txt

1:"Open Source" is a good mechanism to develop programs.

2:apple is my favorite food.

3:Football game is not use feet only.

9:Oh! The soup taste good.

18:google is the best tools for search keyword.

19:goooooogle yes!

這樣看似乎與 ooo* 的字符沒有什麼差異啊？因爲第 19 行有多個 o 依舊也出現了！好，那麼換個搜尋的字符串，假設我們要找出 g 後面接 2 到 5 個 o ，然後再接一個 g 的字符串，他會是這樣：

[root@test root]# grep -n 'go\{2,5\}g' regular_express.txt

18:google is the best tools for search keyword.

嗯！很好！第 19 行終於沒有被取用了(因爲 19 行有 6 個 o 啊！)。那麼，如果我想要的是 2 個 o 以上的 goooo....g 呢？除了可以是 gooo*g ，也可以是：

[root@test root]# grep -n 'go\{2,\}g' regular_express.txt

18:google is the best tools for search keyword.

19:goooooogle yes!

呵呵！就可以找出來啦～

重要特殊字符(characters)

經過了上面的幾個簡單的範例，我們可以將基礎的正則表達式特殊字符彙整如下：

RE 字符	意義與範例
^word	待搜尋的字符串(word)在行首！
	範例：grep -n '^#' regular_express.txt 搜尋行首爲 # 開始的那一行！
word$	待搜尋的字符串(word)在行尾！
	範例：grep -n '!$' regular_express.txt 將行尾爲 ! 的那一行打印出來！
.	代表『任意一個』字符，一定是一個任意字符！
	範例：grep -n 'e.e' regular_express.txt 搜尋的字符串可以是 (eve) (eae) (eee) (e e)，但不能僅有 (ee) ！亦即 e 與 e 中間『一定』僅有一個字符，而空格符也是字符！
\	跳脫字符，將特殊符號的特殊意義去除！
	範例：grep -n \' regular_express.txt 搜尋含有單引號 ' 的那一行！
*	重複零個或多個的前一個 RE 字符
	範例：*grep -n 'ess' regular_express.txt** 找出含有 (es) (ess) (esss) 等等的字符串，注意，因爲 * 可以是 0 個，所以 es 也是符合帶搜尋字符串。另外，因爲 * 爲重複『前一個 RE 字符』的符號，因此，在 * 之前必須要緊接着一個 RE 字符喔！例如任意字符則爲『.*』！
\{n,m\}	連續 n 到 m 個的『前一個 RE 字符』若爲 \{n\} 則是連續 n 個的前一個 RE 字符，若是 \{n,\} 則是連續 n 個以上的前一個 RE 字符！
	範例：grep -n 'go\{2,3\}g' regular_express.txt 在 g 與 g 之間有 2 個到 3 個的 o 存在的字符串，亦即 (goog)(gooog)
[]	字符集合的 RE 特殊字符的符號
	[list] 範例：grep -n 'g[ld]' regular_express.txt 搜尋含有 (gl) 或 (gd) 的那一行～需要特別留意的是，在 [] 當中『謹代表一個待搜尋的字符』，例如： a[afl]y 代表搜尋的字符串可以是 aay, afy, aly 亦即 [afl] 代表 a 或 f 或 l 的意思！ [ch1-ch2] 範例：grep -n '[0-9]' regular_express.txt 搜尋含有任意數字的那一行！需特別留意，在字符集合 [] 中的減號 - 是有特殊意義的，他代表兩個字符之間的所有連續字符！但這個連續與否與 ASCII 編碼有關，因此，您的編碼需要設定正確(在 bash 當中，需要確定 LANG 與 LANGUAGE 的變量是否正確！) 例如所有大寫字符則爲 [A-Z] [^] 範例：grep -n 'oo[^t]' regular_express.txt 搜尋的字符串可以是 (oog) (ood) 但不能是 (oot) ，那個 ^ 在 [] 內時，代表的意義是『反向選擇』的意思～例如，我不要大寫字符，則爲 [^A-Z] ～但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜尋，卻發現該檔案內的所有行都被列出，爲什麼？因爲這個 [^A-Z] 是『非大寫字符』的意思，因爲每一行均有非大寫字符，例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小寫字符，以及雙引號 (") 等字符，所以當然符合 [^A-Z] 的搜尋！

請特別留意的是，『正則表達式的特殊字符』與一般在指令列輸入指令的『萬用字符』並不相同，例如，在萬用字符當中，* 代表的是 0 ~ 無限多個字符的意思，但是在正則表達式當中， * 則是重複 0 到多個的前一個 RE字符的意思～使用的意義並不相同，不要搞混了！ (鳥哥我一開始摸正則表達式時就很容易搞混！因爲這裏是新手最容易搞錯的地方，特別小心啊！)

正則表達式的學習

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Shell Script 的學習

數據流定向

hadoop集羣的配置筆記

經典排序之快速排序

正則表達式的學習

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結