正則表達式最短匹配

資料來源:http://blog.chinaunix.net/u1/38367/showart.php?id=576289

 

正則表達

貪婪與懶惰

當正則表達式中包含能接受重複的限定符時,通常的行爲是(在使整個表達式能得到匹配的前提下)匹配儘可能多的字符。考慮這個表達式:a.*b,它將會匹配最長的以a開始,以b結束的字符串。如果用它來搜索aabab的話,它會匹配整個字符串aabab。這被稱爲貪婪匹配。

有時,我們更需要懶惰匹配,也就是匹配儘可能少的字符。前面給出的限定符都可以被轉化爲懶惰匹配模式,只要在它後面加上一個問號?。這樣.*?就意味着匹配任意數量的重複,但是在能使整個匹配成功的前提下使用最少的重複。現在看看懶惰版的例子吧:

a.*?b匹配最短的,以a開始,以b結束的字符串。如果把它應用於aabab的話,它會匹配aab(第一到第三個字符)ab(第四到第五個字符)

爲什麼第一個匹配是aab(第一到第三個字符)而不是ab(第二到第三個字符)?簡單地說,因爲正則表達式有另一條規則,比懶惰/貪婪規則的優先級更高:最先開始的匹配擁有最高的優先權——The match that begins earliest wins。

表5.懶惰限定符
代碼/語法 說明
*? 重複任意次,但儘可能少重複
+? 重複1次或更多次,但儘可能少重複
?? 重複0次或1次,但儘可能少重複
{n,m}? 重複n到m次,但儘可能少重複
{n,}? 重複n次以上,但儘可能少重複

處理選項

在C#中,你可以使用Regex(String, RegexOptions)構造函數來設置正則表達式的處理選項。如:Regex regex = new Regex("/ba/w{6}/b", RegexOptions.IgnoreCase);

上面介紹了幾個選項如忽略大小寫,處理多行等,這些選項能用來改變處理正則表達式的方式。下面是.Net中常用的正則表達式選項:

表6.常用的處理選項
名稱 說明
IgnoreCase(忽略大小寫) 匹配時不區分大小寫。
Multiline(多行模式) 更改^$的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個字符串的開頭和結尾匹配。(在此模式下,$的精確含意是:匹配/n之前的位置以及字符串結束前的位置.)
Singleline(單行模式) 更改.的含義,使它與每一個字符匹配(包括換行符/n)。
IgnorePatternWhitespace(忽略空白) 忽略表達式中的非轉義空白並啓用由#標記的註釋。
RightToLeft(從右向左查找) 匹配從右向左而不是從左向右進行。
ExplicitCapture(顯式捕獲) 僅捕獲已被顯式命名的組。
ECMAScript(JavaScript兼容模式) 使表達式的行爲與它在JavaScript裏的行爲一致。

一個經常被問到的問題是:是不是隻能同時使用多行模式和單行模式中的一種?答案是:不是。這兩個選項之間沒有任何關係,除了它們的名字比較相似(以至於讓人感到疑惑)以外。

平衡組/遞歸匹配

這裏介紹的平衡組語法是由.Net Framework支持的;其它語言/庫不一定支持這種功能,或者支持此功能但需要使用不同的語法。

有時我們需要匹配像( 100 * ( 50 + 15 ) )這樣的可嵌套的層次性結構,這時簡單地使用/(.+/)則只會匹配到最左邊的左括號和最右邊的右括號之間的內容(這裏我們討論的是貪婪模式,懶惰模式也有下面的問題)。假如原來的字符串裏的左括號和右括號出現的次數不相等,比如( 5 / ( 3 + 2 ) ) ),那我們的匹配結果裏兩者的個數也不會相等。有沒有辦法在這樣的字符串裏匹配到最長的,配對的括號之間的內容呢?

爲了避免(/(把你的大腦徹底搞糊塗,我們還是用尖括號代替圓括號吧。現在我們的問題變成了如何把xx <aa <bbb> <bbb> aa> yy這樣的字符串裏,最長的配對的尖括號內的內容捕獲出來?

這裏需要用到以下的語法構造:

  • (?'group') 把捕獲的內容命名爲group,並壓入堆棧(Stack)
  • (?'-group') 從堆棧上彈出最後壓入堆棧的名爲group的捕獲內容,如果堆棧本來爲空,則本分組的匹配失敗
  • (?(group)yes|no) 如果堆棧上存在以名爲group的捕獲內容的話,繼續匹配yes部分的表達式,否則繼續匹配no部分
  • (?!) 零寬負向先行斷言,由於沒有後綴表達式,試圖匹配總是失敗

如果你不是一個程序員(或者你自稱程序員但是不知道堆棧是什麼東西),你就這樣理解上面的三種語法吧:第一個就是在黑板上寫一個"group",第二個就是從黑板上擦掉一個"group",第三個就是看黑板上寫的還有沒有"group",如果有就繼續匹配yes部分,否則就匹配no部分。

我們需要做的是每碰到了左括號,就在壓入一個"Open",每碰到一個右括號,就彈出一個,到了最後就看看堆棧是否爲空--如果不爲空那就證明左括號比右括號多,那匹配就應該失敗。正則表達式引擎會進行回溯(放棄最前面或最後面的一些字符),儘量使整個表達式得到匹配。

<                         #最外層的左括號
    [^<>]*                #最外層的左括號後面的不是括號的內容
    (
        (
            (?'Open'<)    #碰到了左括號,在黑板上寫一個"Open"
            [^<>]*       #匹配左括號後面的不是括號的內容
        )+
        (
            (?'-Open'>)   #碰到了右括號,擦掉一個"Open"
            [^<>]*        #匹配右括號後面不是括號的內容
        )+
    )*
    (?(Open)(?!))         #在遇到最外層的右括號前面,判斷黑板上還有沒有沒擦掉的"Open";如果還有,則匹配失敗
>                         #最外層的右括號

平衡組的一個最常見的應用就是匹配HTML,下面這個例子可以匹配嵌套的<div>標籤<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>.

還有些什麼東西沒提到

我已經描述了構造正則表達式的大量元素,還有一些我沒有提到的東西。下面是未提到的元素的列表,包含語法和簡單的說明。你可以在網上找到更詳細的參考資料來學習它們--當你需要用到它們的時候。如果你安裝了MSDN Library,你也可以在裏面找到關於.net下正則表達式詳細的文檔。

表7.尚未詳細討論的語法
代碼/語法 說明
/a 報警字符(打印它的效果是電腦嘀一聲)
/b 通常是單詞分界位置,但如果在字符類裏使用代表退格
/t 製表符,Tab
/r 回車
/v 豎向製表符
/f 換頁符
/n 換行符
/e Escape
/0nn ASCII代碼中八進制代碼爲nn的字符
/xnn ASCII代碼中十六進制代碼爲nn的字符
/unnnn Unicode代碼中十六進制代碼爲nnnn的字符
/cN ASCII控制字符。比如/cC代表Ctrl+C
/A 字符串開頭(類似^,但不受處理多行選項的影響)
/Z 字符串結尾或行尾(不受處理多行選項的影響)
/z 字符串結尾(類似$,但不受處理多行選項的影響)
/G 當前搜索的開頭
/p{name} Unicode中命名爲name的字符類,例如/p{IsGreek}
(?>exp) 貪婪子表達式
(?<x>-<y>exp) 平衡組
(?im-nsx:exp) 在子表達式exp中改變處理選項
(?im-nsx) 爲表達式後面的部分改變處理選項
(?(exp)yes|no) 把exp當作零寬正向先行斷言,如果在這個位置能匹配,使用yes作爲此組的表達式;否則使用no
(?(exp)yes) 同上,只是使用空表達式作爲no
(?(name)yes|no) 如果命名爲name的組捕獲到了內容,使用yes作爲表達式;否則使用no
(?(name)yes) 同上,只是使用空表達式作爲no
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章