轉——[Shell學習筆記] Shell正則表達式與grep、sed、awk的特點

原創

2020-05-31 09:56

http://www.1987.name/277.html

正則表達式是基於樣式匹配的文本處理技術的關鍵所在。想要在編寫文本處理工具方面駕輕就熟，就必須對正則表達式有個基本的瞭解。正則表達式是一種用於文本匹配的形式小巧、具有高針對性的編程語言，在很多文本編輯器或其他工具裏，正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程序設計語言都支持利用正則表達式進行字符串操作。例如，在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟件（例如sed和grep）普及開的。正則表達式通常縮寫成“regex”，單數有regexp、regex，複數有regexps、regexes、regexen。這些是正則表達式的定義。由於起源於unix系統，因此很多語法規則一樣的。但是隨着逐漸發展，後來擴展出以下幾個類型。

正則表達式分類

基本的正則表達式（Basic Regular Expression）又叫Basic RegEx，簡稱：BREs）
擴展的正則表達式（Extended Regular Expression）又叫Extended RegEx，簡稱：EREs）
Perl的正則表達式（Perl Regular Expression）又叫Perl RegEx，簡稱：PREs）

Linux中常用文本工具與正則表達式的關係

grep與egrep正則表達式特點

grep支持BREs、EREs、PREs正則表達式：

grep指令後不跟任何參數，則表示要使用“BREs”。
grep指令後跟“-E”參數，則表示要使用“EREs”。
grep指令後跟“-P”參數，則表示要使用“PREs”。

egrep支持EREs、PREs正則表達式：

egrep指令後不跟任何參數，則表示要使用“EREs”。
egrep指令後跟“-P”參數，則表示要使用“PREs”。

grep與egrep正則匹配文件，處理文件方法：

grep與egrep的處理對象：文本文件。
grep與egrep的處理過程：查找文本文件中是否含要查找的 “關鍵字”（關鍵字可以是正則表達式），如果含有要查找的“關健字”，那麼默認返回該文本文件中包含該“關健字”的該行的內容，並在標準輸出中顯示出來，除非使用了“>”重定向符號，
grep與egrep在處理文本文件時，是按行處理的。

sed正則表達式特點

sed文本工具支持BREs、EREs正則表達式：

sed指令默認是使用“BREs”
sed命令參數“-r”，則表示要使用“EREs”

sed功能與作用：

sed處理的對象：文本文件。
sed處理操作：對文本文件的內容進行：查找、替換、刪除、增加等操作。
sed在處理文本文件的時候，也是按行處理的。

awk(gawk)正則表達式特點

awk文本工具支持EREs正則表達式。
awk指令默認是使用“EREs”。

awk 文本工具處理文本的特點：

awk 處理的對象：文本文件。
awk 處理操作：主要是對列進行操作。

正則表達式、POSIX字符類以及元字符表，點擊查看

注意：當使用BERs（基本正則表達式）時，必須在下列這些符號前加上轉義字符（'\'），屏蔽掉它們的speical meaning“?,+,|,{,},（,）”這些字符，需要加入轉義符號”\”。

注意：修飾符用在正則表達式結尾，例如：/dog/i，其中"i"就是修飾符，它代表的含義就是：匹配時不區分大小寫，常見的修飾符如下：

g：全局匹配（即：一行上的每個出現，而不只是一行上的第一個出現）。
s：把整個匹配串當作一行處理。
m：多行匹配。
i：忽略大小寫。
x：允許註釋和空格的出現。
U：非貪婪匹配。

常用的shell正則表達式收集

^USER$ 匹配只包含USER的行
[tty]$ 匹配以tty結尾的行
\. 匹配帶句點的行
^d..x..x..x 匹配用戶、用戶組及其他用戶組成員有可執行權限的目錄
^[^l] 匹配排除關聯目錄的目錄列表
[.*0] 匹配0之前或之後加任意字符
[^$] 匹配空行
[^.*$] 匹配匹配行中任意字符串
^......$ 匹配包括6個字符的行
[a-zA-Z] 匹配任意單字符
[a-z][a-z]* 匹配至少一個小寫字母
[^0-9\$] 匹配非數字或美元標識
[^0-0A-Za-z] 匹配非數字或字母
De..ce 匹配前兩個字母爲De，後跟兩個任意字符，最後爲ce
[1..9] 匹配匹配1到9
^.$ 匹配僅有一個字符的行
^\.[0-9][0-9] 匹配以一個句點和兩個數字開始的行
'"Device"' 匹配單詞device
De[Vv]ice\. 匹配單詞Device或deVice
[0-9]\{2\}-[0-9]\{2\}-[0-9]\{4\} 匹配日期格式dd-mm-yyyy
[^.*$] 匹配匹配任意行
^[1-9]\d{5}$ 匹配郵政編碼
((\+?[0-9]{2,4}\-[0-9]{3,4}\-)|([0-9]{3,4}\-))?([0-9]{7,8})(\-[0-9]+)?$/ 匹配電話號碼
((\(\d{2,3}\))|(\d{3}\-))?13\d{9}$ 匹配手機號碼
(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$” 匹配IP地址
[\u4e00-\u9fa5] 匹配中文字符的正則表達式
[^\x00-\xff] 匹配雙字節字符（包括漢字在內）
\n[\s| ]*\r 匹配空行的正則表達式
/<(.*)>.*<\/\1>|<(.*) \/>/ 匹配HTML標記的正則表達式
(^\s*)|(\s*$) 匹配首尾空格的正則表達式
\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 匹配Email地址的正則表達式
^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$ 匹配網址URL的正則表達式
^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 匹配帳號是否合法(字母開頭，允許5-16字節，允許字母數字下劃線)
(\d{3}-|\d{4}-)?(\d{8}|\d{7})? 匹配國內電話號碼
^[1-9]*[1-9][0-9]*$ 匹配騰訊QQ號

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

轉——[Shell學習筆記] Shell正則表達式與grep、sed、awk的特點

正則表達式分類

Linux中常用文本工具與正則表達式的關係

grep與egrep正則表達式特點

sed正則表達式特點

awk(gawk)正則表達式特點

常用的shell正則表達式收集

擴充swap分區大小

轉——[Shell學習筆記] Shell正則表達式與grep、sed、awk的特點

我的友情鏈接

fatal: /etc/postfix/master.cf: line 109: bad transport type: user=vuser

恢復忘掉的mysql root密碼

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結