Linux文本處理工具和正則表達式

抽取文本的工具

文件內容：cat，less，more
文件截取：head，tail
按列抽取：cut
排序和統計：sort，wc
按關鍵字抽取：grep

文件查看命令

cat，nl，tac，rev

cat [OPTION]... [FILE]...

-E：顯示行結束符$
-n：對顯示出的每一行進行編號
-A：顯示所有控制符
-b：非空行編號
-s：壓縮連續的空行成一行

nl 顯示行號
tac 反向連接和打印文件
rev 反向打印行字符

分頁查看文件內容

more：分頁查看文件

more [OPTIONS...] FILE...
-d: 顯示翻頁及退出提示

less：一頁一頁地查看文件或STDIN輸出

查看時有用的命令包括：
/文本 搜索 文本
n/N 跳到下一個 或 上一個匹配

less 命令是man命令使用的分頁器

顯示文本前或後行內容

head [OPTION]... [FILE]...

-c # 指定獲取前#字節
-n # 指定獲取前#行
-# 同上

tail [OPTION]... [FILE]...

-c # 指定獲取後#字節
-n # 指定獲取後#行
-# 同上
-f 跟蹤顯示文件fd新追加的內容,常用日誌監控
相當於 --follow=descriptor
-F 跟蹤文件名，相當於--follow=name --retry

tailf 類似tail –f，當文件不增長時並不訪問文件

按列抽取文本cut和合並文件paste

cut [OPTION]... [FILE]...

-d DELIMITER: 指明分隔符，默認tab
-f FILEDS:
#: 第#個字段
#,#[,#]：離散的多個字段，例如1,3,6
#-#：連續的多個字段, 例如1-6
混合使用：1-3,7
-c 按字符切割
--output-delimiter=STRING指定輸出分隔符

顯示文件或STDIN數據的指定列

cut -d: -f1 /etc/passwd
cat /etc/passwd | cut -d: -f7
cut -c2-5 /usr/share/dict/words

paste 合併兩個文件同行號的列到一行

paste [OPTION]... [FILE]...
-d 分隔符：指定分隔符，默認用TAB
-s : 所有行合成一行顯示

示例：

paste f1 f2
paste -s f1 f2

分析文本的工具

文本數據統計：wc
整理文本：sort
比較文件：diff和patch

收集文本統計數據wc

可用於統計文件的行總數、單詞總數、字節總數和字符總數
可以對文件或STDIN中的數據統計

wc story.txt
39 237 1901 story.txt
行數 字數 字節數

常用選項

-l 只計數行數
-w 只計數單詞總數
-c 只計數字節總數
-m 只計數字符總數
-L 顯示文件中最長行的長度

文本排序sort

把整理過的文本顯示在STDOUT，不改變原始文件

sort [options] file(s)

常用選項

-r 執行反方向（由上至下）整理
-R 隨機排序
-n 執行按數字大小整理
-f 選項忽略（fold）字符串中的字符大小寫
-u 選項（獨特，unique）刪除輸出中的重複行
-t c 選項使用c做爲字段界定符
-k # 選項按照使用c字符分隔的 # 列來整理能夠使用多次

uniq

uniq命令：從輸入中刪除前後相接的重複的行

uniq [OPTION]... [FILE]...
-c: 顯示每行重複出現的次數
-d: 僅顯示重複過的行
-u: 僅顯示不曾重複的行

注：連續且完全相同方爲重複

常和sort 命令一起配合使用：

sort userlist.txt | uniq -c

比較文件

比較兩個文件之間的區別

diff foo.conf foo2.conf
5c5
< use_widgets = no
---
> use_widgets = yes

註明第5行有區別（改變）

複製對文件改變patch

diff 命令的輸出被保存在一種叫做“補丁”的文件中  
使用 -u 選項來輸出“統一的（unified）”diff格式文件，最適用於補丁文件  
patch 複製在其它文件中進行的改變（要謹慎使用）
適用 -b 選項來自動備份改變了的文件
diff -u foo.conf foo2.conf > foo.patch
patch -b foo.conf foo.patch

grep：文本過濾(模式：pattern)工具

grep
egrep
fgrep（不支持正則表達式搜索）

作用：文本搜索工具，根據用戶指定的“模式”對目標文本逐行進行匹配檢查；打印匹配到的行

模式：由正則表達式字符及文本字符所編寫的過濾條件

grep [OPTIONS] PATTERN [FILE...]
grep root /etc/passwd
grep "$USER" /etc/passwd
grep '$USER' /etc/passwd
grep `whoami` /etc/passwd

grep命令選項

--color=auto: 對匹配到的文本着色顯示
-m # 匹配#次後停止
-v 顯示不被pattern匹配到的行
-i 忽略字符大小寫
-n 顯示匹配的行號
-c 統計匹配的行數
-o 僅顯示匹配到的字符串
-q 靜默模式，不輸出任何信息
-A # after, 後#行
-B # before, 前#行
-C # context, 前後各#行
-e 實現多個選項間的邏輯or關係
grep –e ‘cat ’ -e ‘dog’ file
-w 匹配整個單詞
-E 使用ERE
-F 相當於fgrep，不支持正則表達式
-f file 根據模式文件處理

正則表達式

REGEXP： Regular Expressions，由一類特殊字符及文本字符所編寫的模式，其中有些字符（元字符）不表示字符字面意義，而表示控制或通配的功能
程序支持：vim, less,grep,sed,awk, nginx,varnish等

分兩類：

基本正則表達式：BRE，grep，vim
擴展正則表達式：ERE，grep -E, egrep，nginx

正則表達式引擎：

採用不同算法，檢查處理正則表達式的軟件模塊
PCRE（Perl Compatible Regular Expressions）

元字符分類：字符匹配、匹配次數、位置錨定、分組
man 7 regex

基本正則表達式元字符

字符匹配:

. 匹配任意單個字符
[] 匹配指定範圍內的任意單個字符，示例：[wang] [0-9] [a-z] [a-zA-Z]
[^] 匹配指定範圍外的任意單個字符
[:alnum:] 字母和數字
[:alpha:] 代表任何英文大小寫字符，亦即 A-Z, a-z
[:lower:] 小寫字母 [:upper:] 大寫字母
[:blank:] 空白字符（空格和製表符）
[:space:] 水平和垂直的空白字符（比[:blank:]包含的範圍廣）
[:cntrl:] 不可打印的控制字符（退格、刪除、警鈴...）
[:digit:] 十進制數字 [:xdigit:]十六進制數字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 標點符號

匹配次數：用在要指定次數的字符後面，用於指定前面的字符要出現的次數

* 匹配前面的字符任意次，包括0次(貪婪模式：儘可能長的匹配)
.* 任意長度的任意字符
\? 匹配其前面的字符0或1次
\+ 匹配其前面的字符至少1次
\{n\} 匹配前面的字符n次
\{m,n\} 匹配前面的字符至少m次，至多n次
\{,n\} 匹配前面的字符至多n次
\{n,\} 匹配前面的字符至少n次

位置錨定：定位出現的位置

^ 行首錨定，用於模式的最左側
$ 行尾錨定，用於模式的最右側
^PATTERN$ 用於模式匹配整行
^$ 空行
^[[:space:]]*$ 空白行
\< 或 \b 詞首錨定，用於單詞模式的左側
\> 或 \b 詞尾錨定，用於單詞模式的右側
\<PATTERN\> 匹配整個單詞

分組：() 將一個或多個字符捆綁在一起，當作一個整體處理，如：(root)+

分組括號中的模式匹配到的內容會被正則表達式引擎記錄於內部的變量中，這些變量的命名方式爲: \1, \2, \3, ...

\1 表示從左側起第一個左括號以及與之匹配右括號之間的模式所匹配到的字符

示例： \(string1\(string2\)\)
\1 ：string1\(string2\)
\2 ：string2

後向引用：引用前面的分組括號中的模式所匹配字符，而非模式本身

或者：|

示例：a\|b a或b
C\|cat C或cat
\(C\|c\)at Cat或cat

egrep及擴展的正則表達式

egrep = grep -E
egrep [OPTIONS] PATTERN [FILE...]
擴展正則表達式的元字符：
字符匹配：

. 任意單個字符
[] 指定範圍的字符
[^] 不在指定範圍的字符

次數匹配：

* 匹配前面字符任意次
? 0或1次
+ 1次或多次
{m} 匹配m次
{m,n} 至少m，至多n次

位置錨定：

^ 行首
$ 行尾
\<, \b 語首
\>, \b 語尾

分組：

()

後向引用：\1, \2, ...

或者：

a|b a或b
C|cat C或cat
(C|c)at Cat或cat