Linux文本處理三劍客之grep一族與正則表達式

一,grep一族是什麼?

   Linux上有三種常用的文本處理工具,分別爲:grep(egrep、fgrep)、sed、awk。這三者被稱爲Linux文本處理三劍客。

   grep一族:文本搜索工具

        grep:支持使用基本正則表達式;

        egrep:支持使用擴展正則表達式,相當於grep -E;

        fgrep:不支持使用正則表達式,相當於grep -F;

       【PS:fgrep不需要加載正則表達式引擎,因此速度較快,fgrep的搜索效率在當文件達到幾億行時就能體現出來。(大型web網站一天的日誌量都是幾億行的,通過fgrep可以很輕鬆的高效率的完成)】

二,什麼是正則表達式?

    正則表達式(REGEXP):Regual Expression

           由一類特殊字符及文本字符所編寫的模式用於控制或通配的功能;

分兩類:

基本正則表達式:BRE(Base  REGEXP )

擴展正則表達式:ERE(Extended  REGEXP)

三,grep的作用和用法

   grep(Globally search a Regular Expression and Print):文本搜索工具

     1.作用:基於“pattern"(這裏指的是過濾模式,多指正則表達式)對給定的文本進行搜索。

     2.模式:由正則表達式的元字符及文本字符所編寫出的過濾條件;

    3.用法:

grep  [OPTIONS]   PATTERN   [FILE...]

grep  [OPTIONS]  [-e PATTERN | -f FILE]  [FILE...]

 OPTIONS:
    --color=auto:對匹配到的文本着色後高亮顯示;
    -d:當指定要查找的是目錄而非文件時,必須使用這項參數,否則grep指令將回報信息並停止動作。
    -i:ignorecase,忽略字符的大小寫;
    -o:僅顯示匹配到的字符串本身;
    -v,--invert-match:反向匹配;
    -E:支持使用擴展的正則表達式元字符;
    -q,--quiet, --silent:靜默模式,即不輸出任何信息;
    -r或--recursive   -d的(指定查找的是目錄下而非文件時)遞歸查找;
    -A#:after, 後#行
    -B#:before,前#行
    -C#:context,前後各#行

   例1:在當前目錄中,查找後綴有"test"字樣的文件中包含"test"字符串的文件,並打印出該字符串的行

   wKioL1be1sHDviurAAAIahh5DgY898.png

  例2:以【-r 遞歸的方式查找】指定目錄/etc/X11 及其子目錄(如果存在子目錄的話)下所有文件中包含字符串"root"的文件,並打印出該字符串所在行的內容;

  wKiom1be3ADyn44nAAAec-0TKz8095.png

  例3:【-v 反向匹配】查找文件名中包含test 的文件中不包含test 的行;

  wKioL1bhPRKQG5kcAAAhXUPksHg376.png


四,基本正則表達式元字符:

    1.字符匹配:

   .:匹配任意單個字符;

           wKiom1be4nPApJW4AAALcHnT7v4869.png

   []:匹配指定範圍內的任意單個字符;

           wKiom1be4rbi14eTAAALu-jbpCQ384.png

 [^]:匹配指定範圍外的任意單個字符;

          wKioL1be5bqw_NMFAAAMaX-j52c184.png

字符集

         [[:upper:]]:所有大寫字母;

         [[:lower:]]:所有小寫字母;

         [[:digit:]]:所有的數字;

         [[:alpha:]]:所有字母;

         [[:alnum:]]:所有字母和數字;

         [[:space:]]:空白字符;

         [[:punct:]]:標點符號;

  wKiom1be5inAJsHWAAAO_O3l0Lg602.png

 

   2.匹配次數:用於限制其前面字符出現的次數;默認工作於貪婪模式;

   貪婪模式:匹配時按照給定規則儘可能匹配最長的字符串;

   *:匹配其前面的字符任意次;0,1,多次;

       wKiom1bhFDfwW-PbAAAJKApz3Es589.png

  .*:匹配其前面的字符任意長度的任意字符

       wKioL1bhJ_3iXRYzAAAJh8oKHYI885.png

  \?:匹配其前面的字符0次或1次;即其前面的字符是可有可無的;

       wKiom1bhE6CwJKilAAAHqiXJ65E560.png

  \+:匹配其前面的字符1次或多次;即其面的字符要出現至少1次;

       wKiom1bhFGvSJaTTAAAIHSXP9U8927.png

  \{m\}:匹配其前面的字符m次,m爲非負數

       wKioL1bhFcPhxJRIAAAIW6bjBHc915.png

          \{m,n\}:匹配其前面的字符至少m次,至多n次;

                wKiom1bhFlWjM9XxAAALUSgQQeE051.png

       \{0,n\}:至多n次

       wKioL1bhF2HDsORdAAAL9R806P8365.png

        \{m,\}:至少m次

       wKioL1bhF4rgrSbqAAAGG2PUm7k240.png


   3.位置錨定:

     ^:行首錨定;用於模式的最左側;

       wKiom1bhGVnwMTOOAAAGcIDPuWk119.png

     $:行尾錨定;用於模式的最右側;

       wKioL1bhG3vzd9yMAAAFqePI-80104.png

     ^PATTERN$:用於PATTERN來匹配整行;

       wKioL1bhHRShlIuRAAANm-El8YE501.png

^$:空白行;(在文檔中常用於過濾多餘的空行,grep -v用來取反)

wKioL1bhHkjC3Uc3AAAYrCtNpyI864.png

^[[:space:]]*$:空行或包含空白字符的行;(常用於過濾空行中包含空白字符的行,比如空格、製表符等,-v "^$"過濾不了的行)

wKioL1bhH7SB8FEQAAAV0QnH6Ig417.png

單詞:非特殊字符組成的連續字符(字符串)都稱爲單詞;

\< 或 \b:詞首錨定,用於單詞模式的左側,格式爲\<PATTERN或 \bPATTERN;

wKiom1bhIXTD4i6OAAAS1gu3pTA123.png

\> 或 \b:詞尾錨定,用於單詞模式的右側,格式爲PATTERN\>或 PATTERN\b;

wKiom1bhI3XguLBOAAAG-vwhb04308.png

\<PATTERN\>:匹配完整單詞;

wKioL1bhJBfy_f5PAAAHQvI88go503.png


  4.分組及引用:

 \(PATTERN\):將一個或多個字符捆綁在一起,當作一個整體進行處理;

  【注意:分組括號中的模式匹配到的字符會被正則表達式引擎自動記錄於內部的變量中,這些變量是\1, \2, \3, ...】

\1:模式從左側起,第一組括號中的pattern所匹配到的字符串;

\2:模式從左側起,第二組括號中的pattern所匹配到的字符串

\3

……….(括號嵌套)

後向引用:引用前面的分組括號中的模式所匹配到的字符;

   wKioL1bhNm-TlcihAAAOvmo6DMA859.png


五,擴展正則表達式的元字符:

  【注意:與基本正則表達式不同,擴展正則表達式在一些參數上可以不使用轉義符(\),但是在使用上沒有什麼區別】

  1.字符匹配:使用方法和參數與正則表達式相同;可參照正則表達式使用方法;

  2.匹配次數:

   *:任意次,0,1或多次;

  ?:0次或1次,其前的字符是可有可無的;

  +:其前字符至少1次;

  {m}:其前的字符m次,m爲非負數

  {m,n}:至少m次,至多n次;

  {0,n}:至多n次;

   {m,}:至少m次;

3.位置錨定:使用方法和參數與正則表達式相同;可參照正則表達式使用方法;

4.分組及引用:

 \(PATTERN\):將一個或多個字符捆綁在一起,當作一個整體進行處理;

 【注意:分組括號中的模式匹配到的字符會被正則表達式引擎自動記錄於內部的變量中,這些變量是\1, \2, \3, ...】

\1:模式從左側起,第一組括號中的pattern所匹配到的字符串;

\2:模式從左側起,第二組括號中的pattern所匹配到的字符串

 【注意:這裏的\1,\2不能省略轉義符】

5.或者:【擴展表達式特有功能】

a|b:a或者b

C|cat:C或cat

(c|C)at:cat或Cat


六,練習

  1、找出/tmp/passwd文件中,所有以大寫或小寫S開頭的行;至少有三種實現方式;   

    ~]# egrep -i "^s" /tmp/passwd
    ~]# grep "^[sS]"   /tmp/passwd
   ~]# grep -E "^(s|S)" /tmp/passwd
   ~]# egrep  "^(s|S)" /tmp/passwd

   wKiom1bhRsfQArwAAAAduSDDkjU828.png

   2、顯示當前系統上root、centos或user1用戶的相關信息;

~]# grep -E "^(root|centos|user1)\>" /etc/passwd
~]# egrep "^(root|centos|user1)\>" /etc/passwd

   wKioL1bhR_nw8y7pAAAIAcnMcAs541.png

  3、找出/etc/rc.d/init.d/functions文件中某單詞後面跟一個小括號的行;

~]# grep  -E  -o  "[_[:alnum:]]+\(\)"  /etc/rc.d/init.d/functions

   wKiom1bhY8yz0Ur2AAARjHteKgk841.png

  4、找出/etc/passwd文件中的兩位數或三位數;

~]# grep  "\<[0-9]\{2,3\}\>"  /etc/passwd                          
~]# egrep  "\<[0-9]{2,3}\>"  /etc/passwd

   wKiom1bhZYuSxAr_AAAhbIN2R9Y881.png

  5、找出/etc/grub2.cfg文件中,以至少一個空白字符開頭,後面又跟了非空白字符的行;

 ~]# grep  "^[[:space:]]\+[^[:space:]]"  /etc/grub2.cfg
  ~]# egrep  "^[[:space:]]+[^[:space:]]"  /etc/grub2.cfg

   wKioL1bhbK3hD0_UAAAULi65Xn8741.png

  6、找出"netstat  -tan”命令的結果中,以‘LISTEN’後跟0或多個空白字符結尾的行;

~]# netstat -tan | grep  "LISTEN[[:space:]]*$"
~]# netstat -tan | egrep  "LISTEN[[:space:]]*$"

   wKioL1bheUWRvSHgAAAQEYWjunY091.png

  7、找出“fdisk -l”命令的結果中,包含以/dev/後跟sd或hd及一個小字母的行;

~]#fdisk -l | grep "/dev/[s,h]d[a-z]\>"
~]#fdisk -l | egrep "/dev/[s,h]d[a-z]\>"
~]#fdisk -l | egrep "/dev/(s|h)d[[:lower:]]\>"

    wKioL1bhebKAvPwFAAAaI9yizHk579.png

  8、找出”ldd  /usr/bin/cat“命令的結果中文件路徑;

~]#ldd /usr/bin/cat | grep -o "/[^[:space:]]\+"                        
~]#ldd /usr/bin/cat | egrep -o "/[^[:space:]]+"

   wKioL1bhehmheZm0AAATERP9nPU887.png

  9、echo輸出一個絕對路徑,使用egrep取出其基名;

~]# echo /etc/sysconfig | grep -o  "[^/]\+/\?$"
~]# echo /etc/sysconfig | egrep -o  "[^/]+/?$"

   wKioL1bhgqOSI1E9AAAHJgE20xA467.png

  10、找出ifconfig命令結果中的1-255之間的數值;

~]# ifconfig | grep -o "\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"                    
~]# ifconfig | egrep -o "\<([1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])\>"

   wKioL1bhg2ygJsroAAARoyig0PA910.png

  11、添加用戶bash、testbash、basher及nologin,要求前三個用戶的默認shell爲/bin/bash,nologin的默認shell爲/sbin/nologin,而後找出其用戶名與shell名相同的用戶

~]# grep  -E  "^([^:]+\>).*\1$"  /etc/passwd
~]# egrep "^([^:]+\>).*\1$"  /etc/passwd
~]# egrep "^([[a-z0-9]+)\>.*\1$" /etc/passwd

   wKioL1bhhabxOPNQAAAZQe3uNOE586.png

  12、找出ifconfig命令結果中的IP地址

~]# ifconfig | egrep "\<inet[[:space:]]+.*[0-9]\>"

  wKioL1bhhmaz8g9WAAAMFAjriI4736.png


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章