正則基礎 - 環視

環視(Lookaround)

環視基礎

  環視只進行子表達式的匹配,不佔有字符,匹配到的內容不保存到最終的匹配結果,是零寬度的。環視匹配的最終結果就是一個位置。
  環視的作用相當於對所在位置加了一個附加條件,只有滿足這個條件,環視子表達式才能匹配成功。
  環視按照方向劃分有順序和逆序兩種,按照是否匹配有肯定和否定兩種,組合起來就有四種環視。順序環視相當於在當前位置右側附加一個條件,而逆序環視相當於在當前位置左側附加一個條件。

表達式 說明
(?<=Expression) 逆序肯定環視,表示所在位置左側能夠匹配 Expression
(?<!Expression) 逆序否定環視,表示所在位置左側不能匹配 Expression
(?=Expression) 順序肯定環視,表示所在位置右側能夠匹配 Expression
(?!Expression) 順序否定環視,表示所在位置右側不能匹配 Expression

  對於環視的叫法,有的文檔裏叫預搜索,有的叫什麼什麼斷言的,這裏使用了更多人容易接受的《精通正則表達式》中“環視”的叫法,其實叫什麼無所謂,只要知道是什麼作用就是了,就這麼幾個語法規則, 還是很容易記的

環視匹配原理

  環視是正則中的一個難點,對於環視的理解,可以從應用和原理兩個角度理解,如果想理解得更清晰、深入一些,還是從原理的角度理解好一些,正則匹配基本原理參考 NFA引擎匹配原理。
  上面提到環視相當於對“所在位置”附加了一個條件,環視的難點在於找到這個“位置”,這一點解決了,環視也就沒什麼祕密可言了。

順序環視匹配過程

  對於順序肯定環視(?=Expression)來說,當子表達式Expression匹配成功時,(?=Expression)匹配成功,並報告(?=Expression)匹配當前位置成功。
  對於順序否定環視(?!Expression)來說,當子表達式Expression匹配成功時,(?!Expression)匹配失敗;當子表達式Expression匹配失敗時,(?!Expression)匹配成功,並報告(?!Expression)匹配當前位置成功;
  這裏講解一下順序否定環視。

源字符串:aa<p>one</p>bb<div>two</div>cc
正則表達式:<(?!/?p\b)[^>]+>
這個正則的意義就是匹配除<p…></p>之外的其餘標籤。
匹配過程:

  首先由字符”<“取得控制權,從位置0開始匹配,由於”<“匹配”a“失敗,在位置0處整個表達式匹配失敗,第一次迭代匹配失敗,正則引擎向前傳動,由位置1處開始嘗試第二次迭代匹配。
  重複以上過程,直到位置2,”<“匹配”<“成功,控制權交給”(?!/?p\b)“;”(?!/?p\b)“子表達式取得控制權後,進行內部子表達式的匹配。首先由”/?“取得控制權,嘗試匹配”p“失敗,進行回溯,不匹配,控制權交給”p“;由”p“來嘗試匹配”p“,匹配成功,控制權交給”\b“;由”\b“來嘗試匹配位置4,匹配成功。此時子表達式匹配完成,”/?p\b“匹配成功,那麼環視表達式”(?!/?p\b)“就匹配失敗。在位置2處整個表達式匹配失敗,新一輪迭代匹配失敗,正則引擎向前傳動,由位置3處開始嘗試下一輪迭代匹配。
  在位置8處也會遇到一輪”/?p\b“匹配”/p“成功,而導致環視表達式”(?!/?p\b)“匹配失敗,從而導致整個表達式匹配失敗的過程。
  重複以上過程,直到位置14,”<“匹配”<“成功,控制權交給”(?!/?p\b)“;”/?“嘗試匹配”d“失敗,進行回溯,不匹配,控制權交給”p“;由”p“來嘗試匹配”d“,匹配失敗,已經沒有備選狀態可供回溯,匹配失敗。此時子表達式匹配完成,”/?p\b“匹配失敗,那麼環視表達式”(?!/?p\b)“就匹配成功。匹配的結果是位置15,然後控制權交給”[^>]+“;由”[^>]+“從位置15進行嘗試匹配,可以成功匹配到”div“,控制權交給”>“;由”>“來匹配”>“。
此時正則表達式匹配完成,報告匹配成功。匹配結果爲”<div>“,開始位置爲14,結束位置爲19。其中”<“匹配”<“,”(?!/?p\b)“匹配位置15,”[^>]+“匹配字符串”div“,”>“匹配”>“。

逆序環視基礎

  對於逆序肯定環視(?<=Expression)來說,當子表達式Expression匹配成功時,(?<=Expression)匹配成功,並報告(?<=Expression)匹配當前位置成功。
  對於逆序否定環視(?<!Expression)來說,當子表達式Expression匹配成功時,(?<!Expression)匹配失敗;當子表達式Expression匹配失敗時,(?<!Expression)匹配成功,並報告(?<!Expression)匹配當前位置成功;
  順序環視相當於在當前位置右側附加一個條件,所以它的匹配嘗試是從當前位置開始的,然後向右嘗試匹配,直到某一位置使得匹配成功或失敗爲止。而逆序環視的特殊處在於,它相當於在當前位置左側附加一個條件,所以它不是在當前位置開始嘗試匹配的,而是從當前位置左側某一位置開始,匹配到當前位置爲止,報告匹配成功或失敗。
  順序環視嘗試匹配的起點是確定的,就是當前位置,而匹配的終點是不確定的。逆序環視匹配的起點是不確定的,是當前位置左側某一位置,而匹配的終點是確定的,就是當前位置。
  所以順序環視相對是簡單的,而逆序環視相對是複雜的。這也就是爲什麼大多數語言和工具都提供了對順序環視的支持,而只有少數語言提供了對逆序環視支持的原因。
  JavaScript中只支持順序環視,不支持逆序環視。
  Java中雖然順序環視和逆序環視都支持,但是逆序環視只支持長度確定的表達式,逆序環視中量詞只支持“?”,不支持其它長度不定的量詞。長度確定時,引擎可以向左查找固定長度的位置作爲起點開始嘗試匹配,而如果長度不確定時,就要從當前位置向左逐個位置開始嘗試匹配,不成功則回溯,再向左側位置進行嘗試匹配,然後重複以上過程,直到匹配成功,或是嘗試到位置0處以後,報告匹配失敗,處理的複雜度是顯而易見的。
  目前只有.NET中支持不確定長度的逆序環視。

逆序環視匹配過程

源字符串<div>a test</div>
正則表達式(?<=<div>)[^<]+(?=</div>)
  這個正則的意義就是匹配<div>和</div>標籤之間的內容,而不包括<div>和</div>標籤本身。
匹配過程
  首先由“(?<=<div>)”取得控制權,從位置0開始匹配,由於位置0是起始位置,左側沒有任何內容,所以“<div>”必然匹配失敗,從而環視表達式“(?<=<div>)”匹配失敗,導致整個表達式在位置0處匹配失敗。第一輪迭代匹配失敗,正則引擎向前傳動,由位置1處開始嘗試第二次迭代匹配。
  直到傳動到位置5,“(?<=<div>)”取得控制權,向左查找5個位置,由位置0開始匹配,由“<div>”匹配“<div>”成功,從而“(?<=<div>)”匹配成功,匹配的結果爲位置5,控制權交給“[^<]+”;“[^<]+”從位置5開始嘗試匹配,匹配“a test”成功,控制權交給“(?=</div>)”;由“</div>”匹配“</div>”成功,從而“(?=</div>)”匹配成功,匹配結果爲位置11。
  此時正則表達式匹配完成,報告匹配成功。匹配結果爲“a test”,開始位置爲5,結束位置爲11。其中“(?<=<div>)”匹配位置5,“[^<]+”匹配“a test”,“(?=</div>)”匹配位置11。
  逆序否定環視的匹配過程與上述過程類似,區別只是當Expression匹配失敗時,逆序否定表達式(?<!Expression)才匹配成功。
  到此環視的匹配原理已基本講解完,環視也就沒有什麼祕密可言了,所需要的,也只是多加練習而已。

環視應用

需求:數字格式化成用“,”的貨幣格式。

正則表達式:(?n)(?<=\d)(?<!.\d*)(?=(\d{3})+(.|$))

測試代碼:

double[] data = new double[] { 0, 12, 123, 1234, 12345, 123456, 1234567, 123456789, 1234567890, 12.345, 123.456, 1234.56, 12345.6789, 123456.789, 1234567.89, 12345678.9 };
foreach (double d in data)
{
    richTextBox2.Text += "源字符串:" 
        + d.ToString().PadRight(15) 
        + "格式化:" 
        + Regex.Replace(d.ToString(), @"(?n)(?&lt;=\d)(?&lt;!\.\d*)(?=(\d{3})+(\.|$))", ",") + "\n";
}

輸出結果:

源字符串 格式化
源字符串:0 格式化:0
源字符串:12 格式化:12
源字符串:123 格式化:123
源字符串:1234 格式化:1,234
源字符串:12345 格式化:12,345
源字符串:123456 格式化:123,456
源字符串:1234567 格式化:1,234,567
源字符串:123456789 格式化:123,456,789
源字符串:1234567890 格式化:1,234,567,890
源字符串:12.345 格式化:12.345
源字符串:123.456 格式化:123.456
源字符串:1234.56 格式化:1,234.56
源字符串:12345.6789 格式化:12,345.6789
源字符串:123456.789 格式化:123,456.789
源字符串:1234567.89 格式化:1,234,567.89
源字符串:12345678.9 格式化:12,345,678.9



實現分析:

首先根據需求可以確定是把一些特定的位置替換爲“,”,接下來就是分析並找到這些位置的規律,並抽象出來以正則表達式來表示。
1. 這個位置的左側必須爲數字
2. 這個位置右側到出現“.”或結尾爲止,必須是數字,且數字的個數必須爲3的倍數
3. 這個位置左側相隔任意個數字不能出現“.”

由以上三條,就可以完全確定這些位置,只要實現以上三條,組合一下正則表達式就可以了。
根據分析,最終匹配的結果是一個位置,所以所有子表達式都要求是零寬度。
1. 是對當前所在位置左側附加的條件,所以要用到逆序環視,因爲要求必須出現,所以是肯定的,符合這一條件的子表達式即爲“(?<=\d)
2. 是對當前所在位置右側附加的條件,所以要用到順序環視,也是要求出現,所以是肯定的,是數字,且個數爲3的倍數,即“(?=(\d{3})+)”,到出現“.”或結尾爲止,即“(?=(\d{3})+(\.|$))
3. 是對當前所在位置左側附加的條件,所以要用到逆序環視,因爲要求不能出現,所以是否定的,即“(?<!\.\d*)
因爲零寬度的子表達式是非互斥的,最後匹配的都是同一個位置,所以先後順序是不影響最後的匹配結果的,可以任意組合,只是習慣上把逆序環視寫在左側,順序環視寫在右側。

說明:這裏只是爲了說明環視的使用而舉的一個例子,實際上這個需求直接用string.Format就可以做到



原文地址 : http://blog.csdn.net/lxcnn/article/details/4304754

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章