VIM中正則的非貪婪匹配

原文：http://blog.sina.com.cn/s/blog_3cf5c5ca0100wfmw.html

朋友託我做幾個靜態頁面，由於工作的緣故，已經習慣了使用vim，於是下了個gVim（Vim的win32版本）來對付html源文件。其間有一件很麻煩的重複性工作，是將超鏈接去掉，如下：

將

變爲

梅莉莎·羅森伯格

一開始人工來處理，在visual模式下倒也還快，不過還是覺得可以用正則替換來做，於是先試匹配

由於貪婪匹配，vim不會匹配到我所要的結果，嘗試使用“\?”加到“*”後面，也不奏效

於是google了一番，知道可以在vim中:h
non-greedy查看有關非貪婪匹配的詞條，其中提到使用“\{-}”來代替“*”，於是，這麼試：

匹配成功，再使用替換命令，一個命令就搞定了之前的工作：

s/<a
href.\{-}>$.\{-}$<\/a>/\1/g

以上例子說明了磨刀不誤砍柴工的道理，同時普及了vim中正則的非貪婪匹配技巧。

附上vim中的正則，以備日後參考。

Vim中的正則表達式

. 匹配任意一個字符

[abc] 匹配方括號中的任意一個字符。可以使用-表示字符範圍，如[a-z0-9]匹配小寫字母和阿拉伯數字

[^abc] 在方括號內開頭使用^符號，表示匹配除方括號中字符之外的任意字符

\d 匹配阿拉伯數字，等同於[0-9]

\D 匹配阿拉伯數字之外的任意字符，等同於[^0-9]

\x 匹配十六進制數字，等同於[0-9A-Fa-f]

\X 匹配十六進制數字，等同於[^0-9A-Fa-f]

\w 匹配單詞字母，等同於[0-9A-Za-z_]

\W 匹配單詞字母之外的任意字符，等同於[^0-9A-Za-z_]

\t 匹配<TAB>字符

\s 匹配空白字符，等同於[ \t]

\S 匹配非空白字符，等同於[^ \t]

\a 所有的字母字符. 等同於[a-zA-Z]

\l 小寫字母 [a-z]

\L 非小寫字母 [^a-z]

\u 大寫字母 [A-Z]

\U 非大寫字母 [^A-Z]

表示數量的元字符

* 匹配0-任意個

\+ 匹配1-任意個

\? 匹配0-1個

\{n,m} 匹配n-m個

\{n} 匹配n個

\{n,} 匹配n-任意個

\{,m} 匹配0-m個

\_. 匹配包含換行在內的所有字符

\{-} 表示前一個字符可出現零次或多次，但在整個正則表達式可以匹配成功的前提下，匹配的字符數越少越好

\= 匹配一個可有可無的項

\_s 匹配空格或斷行

\_[]

\* 匹配 * 字符

\. 匹配 . 字符

\/ 匹配 / 字符

\\ 匹配 \ 字符

\[ 匹配 [ 字符

表示位置的符號

$ 匹配行尾

^ 匹配行首

\< 匹配單詞詞首

\> 匹配單詞詞尾

替換變量

在正規表達式中使用 $ 和 $ 符號括起正規表達式，即可在後面使用\1、\2等變量來訪問 $ 和 $ 中的內容

懶惰模式

\{-n,m} 與\{n,m}一樣，儘可能少次數地重複

\{-} 匹配它前面的項一次或0次, 儘可能地少

\| "或"操作符

\& 並列

函數式

:s/替換字符串/\=函數式

在函數式中可以使用 submatch(1)、submatch(2) 等來引用 \1、\2 等的內容，而submatch(0)可以引用匹配的整個內容

與Perl正則表達式的區別

Vim語法 Perl語法含義

\+ + 1-任意個

\? ? 0-1個

\{n,m} {n,m} n-m個

$和$ (和) 分組

例如：

1,去掉所有的行尾空格：“:%s/\s\+$//”。“%”表示在整個文件範圍內進行替換，“\s”表示空白字符（空格和製表符），“\+”對前面的字符匹配一次或多次（越多越好），“___FCKpd___0rdquo;匹配行尾（使用“\___FCKpd___0rdquo;表示單純的 “___FCKpd___0rdquo;字符）；被替換的內容爲空；由於一行最多隻需替換一次，不需要特殊標誌。這個還是比較簡單的。 (/<Space><Tab>)

2,去掉所有的空白行：“:%s/$\s*\n$\+/\r/”。這回多了“$”、“$”、“\n”、“\r”和 “*”。“*”代表對前面的字符（此處爲“\s”）匹配零次或多次（越多越好；使用“\*”表示單純的“*”字符），“\n”代表換行符，“\r”代表回車符，“$”和“$”對表達式進行分組，使其被視作一個不可分割的整體。因此，這個表達式的完整意義是，把連續的換行符（包含換行符前面可能有的連續空白字符）替換成爲一個單個的換行符。唯一很特殊的地方是，在模式中使用的是“\n”，而被替換的內容中卻不能使用“\n”，而只能使用“\r”。原因是歷史造成的，詳情如果有興趣的話可以查看“:help NL-used-for-Nul”。

3,去掉所有的“//”注釋：“:%s!\ s*//.*!!”。首先可以注意到，這兒分隔符改用了“!”，原因是在模式或字符串部分使用了“/”字符，不換用其他分隔符的話就得在每次使用“/”字符本身時寫成“\/”，上面的命令得寫成“:%s/\s*\/\/.*//”，可讀性較低。命令本身倒是相當簡單，用過正則表達式的人估計都知道“.”匹配表示除換行符之外的任何字符吧。

4,去掉所有的“”注釋：“:%s!\s*/\*\_.\{-}\*/\s*! !g”。這個略有點複雜了，用到了幾個不太常用的 Vim 正則表達式特性。“\_.”匹配包含換行在內的所有字符；“\{-}”表示前一個字符可出現零次或多次，但在整個正則表達式可以匹配成功的前提下，匹配的字符數越少越好；標誌“g”表示一行裏可以匹配和替換多次。替換的結果是個空格的目的是保證像“intmain()”這樣的表達式在替換之後仍然是合法的。

:g/^\s*$/d 刪除只有空白的行

:s/$\w\+$\s\+$\w\+$/\2\t\1 將 data1 data2 修改爲 data2 data1

:%s/$\w\+$, $\w\+$/\2 \1/ 將 Doe, John 修改爲 John Doe

:%s/\<id\>/\=line(".") 將各行的 id 字符串替換爲行號

:%s/$^\<\w\+\>$/\=(line(".")-10) .".". submatch(1)

將每行開頭的單詞替換爲(行號-10).單詞的格式,如第11行的word替換成1. word

排序 :/OB/+1,$!sort

VIM中正則的非貪婪匹配

DAPPER 事務 TRANSACTION

Kaldi WFST HCLG.fst 構圖學習

VSCode遠程開發調試服務器c/c++代碼

PyCharm遠程調試服務器python代碼

公用linux服務器上同時使用不同版本 python / pytorch / CUDA

HDOJ 1001 Sum Problem

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結