java 學習筆記之正則表達式


正則表達式是強大而靈活的文本處理工具,它們可以讓我們以編程的方式指定那些可以在輸入字符串中發現的複雜的文本模式。它提供了一種緊湊的、動態的語言,能夠以完全通用的方式來解決各種字符串的處理(例如,匹配、選擇、編輯及驗證)問題。
創建正則表達式
首先從用正則表達式可能存在的構造集中選取一個有用的子集,以此開始學習正則表達式。用於創建正則表達式的構造列表可以在java.util.regex包Pattern類中找到。


下面是一些創建字符類的典型方式以及一些預定義的類。



    1)\ba\w*\b  匹配以字母a開頭的單詞-------先是某個單詞開始處(\b),然後是字母a,然後是任意數量的字母或數字(\w*),最後是單詞結束處(\b)。
    2)\d+ 匹配1個或更多連續的數字。這裏的+是和*類似的元字符,不同的是*匹配重複任意次(可能是0次),而+則匹配重複1次或更多次。
    3)\b\w{6}\b 匹配剛好6個字母/數字的單詞。
3.字符轉義
    如果你想查找元字符本身的話,比如你查找.,或者*,就出現了問題:你沒法指定它們,因爲它們會被解釋成其它的意思。這時你就必須使用\來取消這些字符的特殊意義。因此,你應該使用\.和\*。當然,要查找\本身,你也得用\\.
    
    例如:www\.sina\.com匹配[url]www.sina.com[/url],c:\\Windows匹配c:\Windows。
4.重複
    常用的限定符
    代碼/語法         說明
    *             重複零次或更多次
    +             重複一次或更多次
    ?             重複零次或一次
    {n}             重複n次
    {n,}         重複n次或更多次
    {n,m}         重複n到m次
   
    下面是一些使用重複的例子:
    Windows\d+ 匹配Windows後面跟1個或更多數字
    13\d{9} 匹配13後面跟9個數字(中國的手機號)
    ^\w+ 匹配一行的第一個單詞(或整個字符串的第一個單詞,具體匹配哪個意思得看選項設置)
5.字符類
    要想查找數字,字母或數字,空白是很簡單的,因爲已經有了對應這些字符集合的元字符,但是如果你想匹配沒有預定義元字符的字符集合(比如元音字母a,e,i,o,u),應該怎麼辦?
   
    很簡單,你只需要在中括號裏列出它們就行了,像[aeiou]就匹配任何一個英文元音字母,[.?!]匹配標點符號(.或?或!)(英文語句通常只以這三個標點結束)。
   
    我們也可以輕鬆地指定一個字符範圍,像[0-9]代表的含意與\d就是完全一致的:一位數字,同理[a-z0-9A-Z_]也完全等同於\w(如果只考慮英文的話)。
   
    下面是一個更復雜的表達式:\(?0\d{2}[) -]?\d{8}。
   
    這個表達式可以匹配幾種格式的電話號碼,像(010)88886666,或022-22334455,或02912345678等。我們對它進行一些分析吧:首先是一個轉義字符\(,它能出現0次或1次(?),然後是一個0,後面跟着2個數字(\d{2}),然後是)或-或空格中的一個,它出現1次或不出現(?),最後是8個數字(\d{8})。不幸的是,它也能匹配010)12345678或(022-87654321這樣的“不正確”的格式。
   
6.反義
    有時需要查找不屬於某個能簡單定義的字符類的字符。比如想查找除了數字以外,其它任意字符都行的情況,這時需要用到反義:
    常用的反義代碼
    代碼/語法     說明
    \W             匹配任意不是字母,數字,下劃線,漢字的字符
    \S             匹配任意不是空白符的字符
    \D             匹配任意非數字的字符
    \B             匹配不是單詞開頭或結束的位置
    [^x]         匹配除了x以外的任意字符
    [^aeiou]         匹配除了aeiou這幾個字母以外的任意字符
    例子:\S+匹配不包含空白符的字符串。
    <a[^>]+>匹配用尖括號括起來的以a開頭的字符串。
7.替換
    好了,現在終於到了解決3位或4位區號問題的時間了。正則表達式裏的替換指的是有幾種規則,如果滿足其中任意一種規則都應該當成匹配,具體方法是用|把不同的規則分隔開。聽不明白?沒關係,看例子:
   
    0\d{2}-\d{8}|0\d{3}-\d{7} 這個表達式能匹配兩種以連字號分隔的電話號碼:一種是三位區號,8位本地號(如010-12345678),一種是4位區號,7位本地號(0376-2233445)。
   
    \(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8} 這個表達式匹配3位區號的電話號碼,其中區號可以用小括號括起來,也可以不用,區號與本地號間可以用連字號或空格間隔,也可以沒有間隔。你可以試試用替換|把這個表達式擴展成也支持4位區號的。
   
    \d{5}-\d{4}|\d{5}這個表達式用於匹配美國的郵政編碼。美國郵編的規則是5位數字,或者用連字號間隔的9位數字。之所以要給出這個例子是因爲它能說明一個問題:使用替換時,順序是很重要的。如果你把它改成\d{5}|\d{5}-\d{4}的話,那麼就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配替換時,將會從左到右地測試每個分枝條件,如果滿足了某個分枝的話,就不會去管其它的替換條件了。
   
    Windows98|Windows2000|WindosXP這個例子是爲了告訴你替換不僅僅能用於兩種規則,也能用於更多種規則。
8.分組
    我們已經提到了怎麼重複單個字符(直接在字符後面加上限定符就行了);但如果想要重複多個字符又該怎麼辦?你可以用小括號來指定子表達式(也叫做分組),然後你就可以指定這個子表達式的重複次數了,你也可以對子表達式進行其它一些操作(後面會有介紹)。
   
    (\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式,請按下列順序分析它:\d{1,3}匹配1到3位的數字,(\d{1,3}\.}{3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重複3次,最後再加上一個一到三位的數字(\d{1,3})。
   
    不幸的是,它也將匹配256.300.888.999這種不可能存在的IP地址(IP地址中每個數字都不能大於255。如果能使用算術比較的話,或許能簡單地解決這個問題,但是正則表達式中並不提供關於數學的任何功能,所以只能使用冗長的分組,選擇,字符類來描述一個正確的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
   
    理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這裏我就不細說了,你自己應該能分析得出來它的意義。
   
9.後向引用
    使用小括號指定一個子表達式後,匹配這個子表達式的文本(也就是此分組捕獲的內容)可以在表達式或其它程序中作進一步的處理。默認情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號爲標誌,第一個出現的分組的組號爲1,第二個爲2,以此類推。
   
    後向引用用於重複搜索前面某個分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請看示例:
   
    \b(\w+)\b\s+\1\b可以用來匹配重複的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b),然後是1個或幾個空白符(\s+),最後是前面匹配的那個單詞(\1)。
   
    你也可以自己指定子表達式的組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+)(或者把尖括號換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定爲Word了。要反向引用這個分組捕獲的內容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b。
   
    使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:
   
    分組語法         捕獲
    (exp)             匹配exp,並捕獲文本到自動命名的組裏
    (?<name>exp)     匹配exp,並捕獲文本到名稱爲name的組裏,也可以寫成(?'name'exp)
    (?:exp)             匹配exp,不捕獲匹配的文本,也不給此分組分配組號
    零寬斷言
    (?=exp)             匹配exp前面的位置
    (?<=exp)         匹配exp後面的位置
    (?!exp)             匹配後面跟的不是exp的位置
    (?<!exp)             匹配前面不是exp的位置
    註釋
    (?#comment)         這種類型的組不對正則表達式的處理產生任何影響,用於提供註釋讓人閱讀
    已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組裏面。

12.註釋
    小括號的另一種用途是能過語法(?#comment)來包含註釋。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。
   
    要包含註釋的話,最好是啓用“忽略模式裏的空白符”選項,這樣在編寫表達式時能任意的添加空格,Tab,換行,而實際使用時這些都將被忽略。啓用這個選項後,在#後面到這一行結束的所有文本都將被當成註釋忽略掉。
   
    例如,我們可以將前面的一個表達式寫成這樣:
   
          (?<=    # 斷言要匹配的文本的前綴
          <(\w+)> # 查找尖括號括起來的字母或數字(即HTML/XML標籤)
          )       # 前綴結束
          .*      # 匹配任意文本
          (?=     # 斷言要匹配的文本的後綴
          <\ / \ 1>  # 查找尖括號括起來的內容:前面是一個"/",後面是先前捕獲的標籤
          )       # 後綴結束
       
13.貪婪與懶惰
    當正則表達式中包含能接受重複的限定符時,通常的行爲是(在使整個表達式能得到匹配的前提下)匹配儘可能多的字符。考慮這個表達式:a.*b,它將會匹配最長的以a開始,以b結束的字符串。如果用它來搜索aabab的話,它會匹配整個字符串aabab。這被稱爲貪婪匹配。
   
    有時,我們更需要懶惰匹配,也就是匹配儘可能少的字符。前面給出的限定符都可以被轉化爲懶惰匹配模式,只要在它後面加上一個問號?。這樣.*?就意味着匹配任意數量的重複,但是在能使整個匹配成功的前提下使用最少的重複。現在看看懶惰版的例子吧:
   
    a.*?b匹配最短的,以a開始,以b結束的字符串。如果把它應用於aabab的話,它會匹配aab和ab(爲什麼第一個匹配是aab而不是ab?簡單地說,因爲正則表達式有另一條規則,比懶惰/貪婪規則的優先級更高:最先開始的匹配最有最大的優先權——The Match That Begins Earliest Wins)。
   
    懶惰限定符
     *?         重複任意次,但儘可能少重複
    +?         重複1次或更多次,但儘可能少重複
    ??         重複0次或1次,但儘可能少重複
    {n,m}?     重複n到m次,但儘可能少重複
    {n,}?     重複n次以上,但儘可能少重複
   
14.平衡組/遞歸匹配
注意:這裏介紹的平衡組語法是由.Net Framework支持的;其它語言/庫不一定支持這種功能,或者支持此功能但需要使用不同的語法。

有時我們需要匹配像( 100 * ( 50 + 15 ) )這樣的可嵌套的層次性結構,這時簡單地使用\(.+\)則只會匹配到最左邊的左括號和最右邊的右括號之間的內容(這裏我們討論的是貪婪模式,懶惰模式也有下面的問題)。假如原來的字符串裏的左括號和右括號出現的次數不相等,比如( 5 / ( 3 + 2 ) ) ),那我們的匹配結果裏兩者的個數也不會相等。有沒有辦法在這樣的字符串裏匹配到最長的,配對的括號之間的內容呢?

爲了避免(和\(把你的大腦徹底搞糊塗,我們還是用尖括號代替圓括號吧。現在我們的問題變成了如何把xx <aa <bbb> <bbb> aa> yy這樣的字符串裏,最長的配對的尖括號內的內容捕獲出來?

這裏需要用到以下的語法構造:

(?'group') 把捕獲的內容命名爲group,並壓入堆棧
(?'-group') 從堆棧上彈出最後壓入堆棧的名爲group的捕獲內容,如果堆棧本來爲空,則本分組的匹配失敗
(?(group)yes|no) 如果堆棧上存在以名爲group的捕獲內容的話,繼續匹配yes部分的表達式,否則繼續匹配no部分
(?!) 零寬負向先行斷言,由於沒有後綴表達式,試圖匹配總是失敗
如果你不是一個程序員(或者你是一個對堆棧的概念不熟的程序員),你就這樣理解上面的三種語法吧:第一個就是在黑板上寫一個 "group",第二個就是從黑板上擦掉一個"group",第三個就是看黑板上寫的還有沒有"group",如果有就繼續匹配yes部分,否則就匹配 no部分。

我們需要做的是每碰到了左括號,就在黑板上寫一個"group",每碰到一個右括號,就擦掉一個,到了最後就看看黑板上還有沒有--如果有那就證明左括號比右括號多,那匹配就應該失敗。

<                         #最外層的左括號
    [^<>]*                #最外層的左括號後面的不是括號的內容
    (
        (
            (?'Open'<)    #碰到了左括號,在黑板上寫一個"Open"
            [^<>]*       #匹配左括號後面的不是括號的內容
        )+
        (
            (?'-Open'>)   #碰到了右括號,擦掉一個"Open"
            [^<>]*        #匹配右括號後面不是括號的內容
        )+
    )*
    (?(Open)(?!))         #在遇到最外層的右括號前面,判斷黑板上還有沒有沒擦掉的"Open";如果還有,則匹配失敗
>                         #最外層的右括號
平衡組的一個最常見的應用就是匹配HTML,下面這個例子可以匹配嵌套的<div>標籤:<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>.

   
    尚未詳細討論的語法
     \a             報警字符(打印它的效果是電腦嘀一聲)
    \b             通常是單詞分界位置,但如果在字符類裏使用代表退格
    \t             製表符,Tab
    \r             回車
    \v             豎向製表符
    \f             換頁符
    \n             換行符
    \e             Escape
    \0nn         ASCII代碼中八進制代碼爲nn的字符
    \xnn         ASCII代碼中十六進制代碼爲nn的字符
    \unnnn         Unicode代碼中十六進制代碼爲nnnn的字符
    \cN             ASCII控制字符。比如\cC代表Ctrl+C
    \A             字符串開頭(類似^,但不受處理多行選項的影響)
    \Z             字符串結尾或行尾(不受處理多行選項的影響)
    \z             字符串結尾(類似$,但不受處理多行選項的影響)
    \G             當前搜索的開頭
    \p{name}     Unicode中命名爲name的字符類,例如\p{IsGreek}
    (?>exp)         貪婪子表達式
    (?<x>-<y>exp)         平衡組
    (?im-nsx:exp)         在子表達式exp中改變處理選項
    (?im-nsx)             爲表達式後面的部分改變處理選項
    (?(exp)yes|no)         把exp當作零寬正向先行斷言,如果在這個位置能匹配,使用yes作爲此組的表達式;否則使用no
    (?(exp)yes)             同上,只是使用空表達式作爲no
    (?(name)yes|no)         如果命名爲name的組捕獲到了內容,使用yes作爲表達式;否則使用no
    (?(name)yes)             同上,只是使用空表達式作爲no
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章