VIM中正則的非貪婪匹配

原文:http://blog.sina.com.cn/s/blog_3cf5c5ca0100wfmw.html

朋友託我做幾個靜態頁面,由於工作的緣故,已經習慣了使用vim,於是下了個gVim(Vim的win32版本)來對付html源文件。其間有一件很麻煩的重複性工作,是將超鏈接去掉,如下:




<a
href="/celebrity/1049850/">
梅莉莎·羅森伯格</a>

變爲

梅莉莎·羅森伯格


一開始人工來處理,在visual模式下倒也還快,不過還是覺得可以用正則替換來做,於是先試匹配

<a
href.*>\(.*\)<\/a>

由於貪婪匹配,vim不會匹配到我所要的結果,嘗試使用“\?”加到“*”後面,也不奏效
於是google了一番,知道可以在vim中:h
non-greedy查看有關非貪婪匹配的詞條,其中提到使用“\{-}”來代替“*”,於是,這麼試:

<a
href.\{-}>\(.\{-}\)<\/a>

匹配成功,再使用替換命令,一個命令就搞定了之前的工作:

s/<a
href.\{-}>\(.\{-}\)<\/a>/\1/g

以上例子說明了磨刀不誤砍柴工的道理,同時普及了vim中正則的非貪婪匹配技巧。
附上vim中的正則,以備日後參考。

Vim中的正則表達式

. 匹配任意一個字符
[abc] 匹配方括號中的任意一個字符。可以使用-表示字符範圍,如[a-z0-9]匹配小寫字母和阿拉伯數字
[^abc] 在方括號內開頭使用^符號,表示匹配除方括號中字符之外的任意字符
\d 匹配阿拉伯數字,等同於[0-9]
\D 匹配阿拉伯數字之外的任意字符,等同於[^0-9]
\x 匹配十六進制數字,等同於[0-9A-Fa-f]
\X 匹配十六進制數字,等同於[^0-9A-Fa-f]
\w 匹配單詞字母,等同於[0-9A-Za-z_]
\W 匹配單詞字母之外的任意字符,等同於[^0-9A-Za-z_]
\t 匹配<TAB>字符
\s 匹配空白字符,等同於[ \t]
\S 匹配非空白字符,等同於[^ \t]
\a 所有的字母字符. 等同於[a-zA-Z]
\l 小寫字母 [a-z]
\L 非小寫字母 [^a-z]
\u 大寫字母 [A-Z]
\U 非大寫字母 [^A-Z]

表示數量的元字符
* 匹配0-任意個
\+ 匹配1-任意個
\? 匹配0-1個
\{n,m} 匹配n-m個
\{n} 匹配n個
\{n,} 匹配n-任意個
\{,m} 匹配0-m個
\_. 匹配包含換行在內的所有字符
\{-} 表示前一個字符可出現零次或多次,但在整個正則表達式可以匹配成功的前提下,匹配的字符數越少越好
\= 匹配一個可有可無的項
\_s 匹配空格或斷行
\_[]
\* 匹配 * 字符
\. 匹配 . 字符
\/ 匹配 / 字符
\\ 匹配 \ 字符
\[ 匹配 [ 字符

表示位置的符號
$ 匹配行尾
^ 匹配行首
\< 匹配單詞詞首
\> 匹配單詞詞尾

替換變量
在正規表達式中使用 \( 和 \) 符號括起正規表達式,即可在後面使用\1、\2等變量來訪問 \( 和 \) 中的內容

懶惰模式
\{-n,m} 與\{n,m}一樣,儘可能少次數地重複
\{-} 匹配它前面的項一次或0次, 儘可能地少
\| "或"操作符
\& 並列

函數式
:s/替換字符串/\=函數式
在函數式中可以使用 submatch(1)、submatch(2) 等來引用 \1、\2 等的內容,而submatch(0)可以引用匹配的整個內容

與Perl正則表達式的區別

Vim語法 Perl語法 含義
\+       +       1-任意個
\?       ?       0-1
\{n,m}   {n,m}   n-m
\(和\)   (和)   分組

例如:
1,去掉所有的行尾空 格:“:%s/\s\+$//”。“%”表示在整個文件範圍內進行替換,“\s”表示空白字符(空格和製表符),“\+”對前面的字符匹配一次或多次(越 多越好),“___FCKpd___0rdquo;匹配行尾(使用“\___FCKpd___0rdquo;表示單純的 “___FCKpd___0rdquo;字符);被替換的內容爲空;由於一行最多隻需替換一次,不需要特殊標誌。這個還是比較簡單的。 (/<Space><Tab>)
2,去掉所有的空白 行:“:%s/\(\s*\n\)\+/\r/”。這回多了“\(”、“\)”、“\n”、“\r”和 “*”。“*”代表對前面的字符(此處爲“\s”)匹配零次或多次(越多越好;使用“\*”表示單純的“*”字符),“\n”代表換行符,“\r”代表回 車符,“\(”和“\)”對表達式進行分組,使其被視作一個不可分割的整體。因此,這個表達式的完整意義是,把連續的換行符(包含換行符前面可能有的連續 空白字符)替換成爲一個單個的換行符。唯一很特殊的地方是,在模式中使用的是“\n”,而被替換的內容中卻不能使用“\n”,而只能使用“\r”。原因是 歷史造成的,詳情如果有興趣的話可以查看“:help NL-used-for-Nul”。
3,去掉所有的“//”注 釋:“:%s!\ s*//.*!!”。首先可以注意到,這兒分隔符改用了“!”,原因是在模式或字符串部分使用了“/”字符,不換用其他分隔符的話就得在每次使用“/”字 符本身時寫成“\/”,上面的命令得寫成“:%s/\s*\/\/.*//”,可讀性較低。命令本身倒是相當簡單,用過正則表達式的人估計都知道“.”匹 配表示除換行符之外的任何字符吧。
4,去掉所有的“”注 釋:“:%s!\s*/\*\_.\{-}\*/\s*! !g”。這個略有點複雜了,用到了幾個不太常用的 Vim 正則表達式特性。“\_.”匹配包含換行在內的所有字符;“\{-}”表示前一個字符可出現零次或多次,但在整個正則表達式可以匹配成功的前提下,匹配的 字符數越少越好;標誌“g”表示一行裏可以匹配和替換多次。替換的結果是個空格的目的是保證像“intmain()”這樣的表達式在替換之後仍然是合法 的。

:g/^\s*$/d   刪除只有空白的行
:s/\(\w\+\)\s\+\(\w\+\)/\2\t\1  將 data1 data2 修改爲 data2 data1
:%s/\(\w\+\), \(\w\+\)/\2 \1/   將 Doe, John 修改爲 John Doe
:%s/\<id\>/\=line(".")  將各行的 id 字符串替換爲行號
:%s/\(^\<\w\+\>\)/\=(line(".")-10) .".". submatch(1)
將每行開頭的單詞替換爲(行號-10).單詞的格式,如第11行的word替換成1. word
排序 :/OB/+1,$!sort
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章