shell中的正則表達式、sed、awk

本文主要說一些正則的基本語法，並且結合linux的各種小工具（egrep、sed、awk）列舉一些使用實例。

一、基本語法

正則的基本語法就大概是下面這些，但是正則遠不止這些，甚至可以寫一本書，當然了，我們這裏只列舉一些簡單的

用法，這些已經可以解決大部分實際問題了。

1、字符類

字符	含義	舉例
`.`	匹配任意一個字符	`abc.` 可以匹配`abcd` 、`abc9` 等
`[]`	匹配括號中的任意一個字符	`[abc]d` 可以匹配`ad` 、`bd` 或`cd`
`-`	用在[]中，表示字符範圍	`[0-9a-fA-F]` 可以匹配一位十六進制數字
`^`	如果位於[]的開頭，則匹配除去括號中字符之外的一切字符	`[^xy]` 匹配除`xy` 之外的任一字符，因此`[^xy]1` 可以匹配`a1` 、`b1` 但不匹配`x1` 、`y1`
`[[:xxx:]]`	`grep` 工具預定義的一些命名字符類	`[[:alpha:]]` 匹配一個字母，`[[:digit:]]` 匹配一個數字

2、數量限定符

字符	含義	舉例
`?`	緊跟在它前面的單元匹配零次或一次	`[0-9]?/.[0-9]` 匹配`0.0` 、`2.3` 、`.5` 等，由於`.` 在正則表達式中是一個特殊字符，所以需要用`/` 轉義一下，取字面值
`+`	緊跟在它前面的單元匹配一次或多次	`[a-zA-Z0-9.-_]+@[a-zA-Z0-9.-_]+/.[a-zA-Z0-9.-_]匹配email`
`*`	緊跟在它前面的單元匹配零次或多次	`[0-9][0-9]` 匹配至少一位數字，等價於`[0-9]+` ，`[a-zA-Z_]+[a-zA-Z_0-9]` 匹配C語言的標識符
`{N}`	緊跟在它前面的單元應精確匹配`N次`	`[1-9][0-9]{2}` 匹配從`100` 到`999` 的整數
`{N,}`	緊跟在它前面的單元至少要匹配n次	`[1-9][0-9]{2,}` 匹配三位以上（含三位）的整數
`{,M}`	緊跟在它前面的單元至多匹配m次	`[0-9]{,1}和[0-9]?意義一樣，`
`{N,M}`	緊跟在它前面的單元至少匹配n次，至多匹配m次	`[0-9]{1,3}/.[0-9]{1,3}/.[0-9]{1,3}/.[0-9]{1,3}/.用於匹配ip地址`

3、位置限定符

字符	含義	舉例
`^`	匹配行首的位置	`^content匹配以content開頭的行`
`$`	匹配行末的位置	`:$匹配以:結尾的行，^$匹配空行`
`/<`	匹配單詞開頭的位置	`/<th` 匹配`... this` ，但不匹配`ethernet` 、`tenth`
`/>`	匹配單詞結尾的位置	`p/>` 匹配`leap ...` ，但不匹配`parent` 、`sleepy`
`/b`	匹配單詞開頭或結尾的位置	`ap/b匹配leap，/ble匹配leap，/bat/b` 匹配`... at ...` ，但不匹配`cat` 、`atexit` 、`batch`
`/B`	匹配非單詞開頭和結尾的位置	`/Bat/B` 匹配`battery` ，但不匹配`... attend` 、`hat ...`

4、其他特殊字符

字符	含義	舉例
`/`	轉義字符，普通字符轉義爲特殊字符，特殊字符轉義爲普通字符	普通字符`<` 寫成`/<` 表示單詞開頭的位置，特殊字符`.` 寫成`/.` 以及`/` 寫成`//` 就當作普通字符來匹配
`()`	將正則表達式的一部分括起來組成一個單元，可以對整個單元使用數量限定符	`([0-9]{1,3}/.){3}[0-9]{1,3}` 匹配IP地址
`\|`	連接兩個表達式，表示或的關係	`n[o-either]可以匹配no或neither`

二、小工具

1、grep/egrep

grep 是一種查找過濾工具，正則表達式在grep 中用來查找符合模式的字符串。

egrep相當於grep -E，表示採用Extended正則表達式語法。grep的正則表達式有Basic和 Extended兩種規範

上述列舉的正則表達式語法都適用於egrep。而grep的語法則相對簡陋一些，？+（）{}|都只是一些匹配字符了。

2、sed

sed意爲流編輯器（Stream Editor），在Shell腳本和Makefile中作爲過濾器使用非常普遍，也就是把前一個程序的輸出引入sed的輸入，經過一系列編輯命令轉換爲另一種格式輸出。sed和vi都源於早期UNIX的ed工具，所以很多sed命令和vi的末行命令是相同的。

在正常情況下，sed將待處理的行讀入模式空間，腳本中的命令就一條接着一條的對該行進行處理，直到腳本執行完畢，然後該行被輸出，模式空間清空；然後重複剛纔的動作，文件中的新的一行被讀入，直到文件處理完備。

看了很多寫sed的就屬鳥哥寫的最好了，摘錄一下：

[root@linux ~]# sed [-nefr] [動作]
參數∶
-n  ∶使用安靜(silent)模式。在一般 sed 的用法中，所有來自 STDIN 
      的資料一般都會被列出到螢幕上。但如果加上 -n 參數後，則只有經過
      sed 特殊處理的那一行(或者動作)纔會被列出來。
-e  ∶直接在指令列模式上進行 sed 的動作編輯；
-f  ∶直接將 sed 的動作寫在一個檔案內， -f filename 則可以執行 filename 內的 
      sed 動作；
-r  ∶sed 的動作支援的是延伸型正規表示法的語法。(預設是基礎正規表示法語法)
-i  ∶直接修改讀取的檔案內容，而不是由螢幕輸出。

動作說明∶  [n1[,n2]]function
n1, n2 ∶不見得會存在，一般代表『選擇進行動作的行數』，舉例來說，如果我的動作
         是需要在 10 到 20 行之間進行的，則『 10,20[動作行爲] 』

function 有底下這些咚咚∶
a   ∶新增， a 的後面可以接字串，而這些字串會在新的一行出現(目前的下一行)～
c   ∶取代， c 的後面可以接字串，這些字串可以取代 n1,n2 之間的行！
d   ∶刪除，因爲是刪除啊，所以 d 後面通常不接任何咚咚；
i   ∶插入， i 的後面可以接字串，而這些字串會在新的一行出現(目前的上一行)；
p   ∶列印，亦即將某個選擇的資料印出。通常 p 會與參數 sed -n 一起運作～
s   ∶取代，可以直接進行取代的工作哩！通常這個 s 的動作可以搭配
      正規表示法！例如 1,20s/old/new/g 就是啦！
範例∶

範例一∶將 /etc/passwd 的內容列出，並且我需要列印行號，同時，請將第 2~5 行刪除！
[root@linux ~]# nl /etc/passwd | sed '2,5d'
     1  root:x:0:0:root:/root:/bin/bash
     6  sync:x:5:0:sync:/sbin:/bin/sync
     7  shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
.....(後面省略).....
# 看到了吧？因爲 2-5 行給他刪除了，所以顯示的資料中，就沒有 2-5 行棉～
# 另外，注意一下，原本應該是要下達 sed -e 纔對，沒有 -e 也行啦！
# 同時也要注意的是， sed 後面接的動作，請務必以 '' 兩個單引號括住喔！
# 而，如果只要刪除第 2 行，可以使用 nl /etc/passwd | sed '2d' 來達成，
# 至於第 3 到最後一行，則是 nl /etc/passwd | sed '3,$d' 的啦！ 

範例二∶承上題，在第二行後(亦即是加在第三行)加上『drink tea?』字樣！
[root@linux ~]# nl /etc/passwd | sed '2a drink tea'
     1  root:x:0:0:root:/root:/bin/bash
     2  bin:x:1:1:bin:/bin:/sbin/nologin
drink tea
     3  daemon:x:2:2:daemon:/sbin:/sbin/nologin
# 嘿嘿！在 a 後面加上的字串就已將出現在第二行後面棉！那如果是要在第二行前呢？
# nl /etc/passwd | sed '2i drink tea' 就對啦！

範例三∶在第二行後面加入兩行字，例如『Drink tea or .....』『drink beer?』
[root@linux ~]# nl /etc/passwd | sed '2a Drink tea or ....../
> drink beer ?'
     1  root:x:0:0:root:/root:/bin/bash
     2  bin:x:1:1:bin:/bin:/sbin/nologin
Drink tea or ......
drink beer ?
     3  daemon:x:2:2:daemon:/sbin:/sbin/nologin
# 這個範例的重點是，我們可以新增不只一行喔！可以新增好幾行～
# 但是每一行之間都必須要以反斜線 / 來進行新行的增加喔！所以，上面的例子中，
# 我們可以發現在第一行的最後面就有 / 存在啦！那是一定要的喔！

範例四∶我想將第2-5行的內容取代成爲『No 2-5 number』呢？
[root@linux ~]# nl /etc/passwd | sed '2,5c No 2-5 number'
     1  root:x:0:0:root:/root:/bin/bash
No 2-5 number
     6  sync:x:5:0:sync:/sbin:/bin/sync
# 沒有了 2-5 行，嘿嘿嘿嘿！我們要的資料就出現啦！

範例五∶僅列出第 5-7 行
[root@linux ~]# nl /etc/passwd | sed -n '5,7p'
     5  lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
     6  sync:x:5:0:sync:/sbin:/bin/sync
     7  shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
# 爲什麼要加 -n 的參數呢？您可以自行下達 sed '5,7p' 就知道了！(5-7行會重複輸出)
# 有沒有加上 -n 的參數時，輸出的資料可是差很多的喔！

範例六∶我們可以使用 ifconfig 來列出 IP ，若僅要 eth0 的 IP 時？
[root@linux ~]# ifconfig eth0
eth0      Link encap:Ethernet  HWaddr 00:51:FD:52:9A:CA
          inet addr:192.168.1.12  Bcast:192.168.1.255  Mask:255.255.255.0
          inet6 addr: fe80::250:fcff:fe22:9acb/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
.....(以下省略).....
# 其實，我們要的只是那個 inet addr:..那一行而已，所以棉，利用 grep 與 sed 來捉
[root@linux ~]# ifconfig eth0 | grep 'inet ' | sed 's/^.*addr://g' | /
> sed 's/Bcast.*$//g'
# 您可以將每個管線 (|) 的過程都分開來執行，就會曉得原因棉！
# 去頭去尾之後，就會得到我們所需要的 IP 亦即是 192.168.1.12 棉～

範例七∶將 /etc/man.config 檔案的內容中，有 MAN 的設定就取出來，但不要說明內容。
[root@linux ~]# cat /etc/man.config | grep 'MAN'| sed 's/#.*$//g' | /
> sed '/^$/d'
# 每一行當中，若有 # 表示該行爲註解，但是要注意的是，有時候，
# 註解並不是寫在第一個字元，亦即是寫在某個指令後方，如底下的模樣∶
# 『shutdown -h now # 這個是關機的指令』，註解 # 就在指令的後方了。
# 因此，我們纔會使用到將 #.*$ 這個正規表示法！

範例八∶利用 sed 直接在 ~/.bashrc 最後一行加入『# This is a test』
[root@linux ~]# sed -i '$a # This is a test'  ~/.bashrc
# 上頭的 -i 參數可以讓你的 sed 直接去修改後面接的檔案內容喔！而不是由螢幕輸出。
# 至於那個 $a  則代表最後一行才新增的意思。






不過鳥哥的不是很全，特補充如下：

n和p一起使用：$ sed -n 's/^test/mytest/p' 

example

(-n)選項和p標誌一起使用表示只打印那些發生替換的行。也就是說，如果某一行開頭的test被替換成mytest，就打印


它。

引用：$ sed 's/^192.168.0.1/&localhost/' example-----&符號表示替換換字符串中被找到的部份。所有以192.168.0.1開頭的行都會被替換成它自已加 localhost，變成192.168.0.1localhost。
引用：$ sed -n 's//(love/)able//1rs/p' example-----love被標記爲1，所有loveable會被替換成lovers，而且替換的行會被打印出來。
分隔符：$ sed 's#10#100#g' example-----不論什麼字符，緊跟着s命令的都被認爲是新的分隔符，所以，“#”在這裏是分隔符，代替了默認的“/”分隔符。表示把所有10替換成100。
用正則表示範圍：$ sed -n '/test/,/check/p' example-----所有在模板test和check所確定的範圍內的行都被打印。
正則和數字混用表示範圍：$ sed -n '5,/^test/p' example-----打印從第五行開始到第一個包含以test開始的行之間的所有行。
$ sed '/test/,/check/s/$/sed test/' example-----對於模板test和west之間的行，每行的末尾用字符串sed test替換。
一次執行多條命令：$ sed -e '1,5d' -e 's/test/check/' example-----(-e)選項允許在同一行裏執行多條命令。如例子所示，第一條命令刪除1至5行，第二條命令用check替換test。命令的執行順序對結果有影響。如果兩個命令都是替換命令，那麼第一個替換命令將影響第二個替換命令的結果。
並不常用的一種用法：$ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配，則移動到匹配行的下一行，替換這一行的aa，變爲bb，並打印該行，然後繼續。
h命令和G命令： $ sed -e '/test/h' -e '$G‘ example-----在sed處理文件的時候，每一行都被保存在一個叫模式空間的臨時緩衝區中，除非行被刪除或者輸出被取消，否則所有被處理的行都將打印在屏幕上。接着模式空間被清空，並存入新的一行等待處理。在這個例子裏，匹配test的行被找到後，將存入模式空間，h命令將其複製並存入一個稱爲保持緩存區的特殊緩衝區內。第二條語句的意思是，當到達最後一行後，G命令取出保持緩衝區的行，然後把它放回模式空間中，且追加到現在已經存在於模式空間中的行的末尾。在這個例子中就是追加到最後一行。簡單來說，任何包含test的行都被複制並追加到該文件的末尾。
特殊字符"^"和"$"匹配的是模式空間的最開始與最末尾
n：將模式空間中的內容輸出，然後把下一行讀入模式空間
sed '/test/{a;b;c}' 這個用法可以針對匹配test的行執行a、b、c這三天命令。

補充幾個除d、a、i、s、c、p之外不常用的命令：

h：拷貝模板塊的內容到內存中的緩衝區。
H：追加模板塊的內容到內存中的緩衝區
g：獲得內存緩衝區的內容，並替代當前模板塊中的文本。
G：獲得內存緩衝區的內容，並追加到當前模板塊文本的後面。sed G可以在每一行後面添加一個空白行，這是因爲當前內存緩衝區爲空，每次都把緩衝區的空內容添加到了每一行後面。
sed '/^$/d;G'：用分號分隔多條命令，每一條命令都會作用在當前行上。

更多用法可以參考：

http://sed.sourceforge.net/sed1line_zh-CN.html

http://blog.chinaunix.net/u2/89923/showart_2206200.html

http://www.tsnc.edu.cn/default/tsnc_wgrj/doc/sed.htm

3、awk

待續。。。。。。。

shell中的正則表達式、sed、awk

MySQL沙盤——快速搭建場景

magic_quotes_gpc 合magic_quotes_runtime的區別！

流行的web2.0系統的構建需要注意的事情

杜拉拉與成功學

基於Infobright的MySQL數據倉庫方案測試

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結